AKADEMIA EKONOMICZNA im. Oskara Langego we Wrocławiu WYDZIAŁ ZARZĄDZANIA I INFORMATYKI
Raport z prezentacji: Metody skalowania wielowymiarowego
Autorzy: Grzegorz Pelczarski Piotr Majeranek Konrad Wojciechowski
Grupa 9 AD, rok IV
Spis treści 1. Cel SWW ............................................................................................................................ 3 2. Metody skalowania wielowymiarowego .................................................................... 3 3. Problem liczby wymiarów .............................................................................................. 3 3. Podejście obliczeniowe ................................................................................................... 4 4. Przykład nr. 1 skalowania wielowymiarowego - dane metryczne ....................... 6 5. Zastosowania.................................................................................................................... 16 6. Przykład nr. 2 skalowania wielowymiarowego – dane niemetryczne............... 17 7. Skalowanie wielowymiarowe a analiza czynnikowa............................................. 31 8. Literatura ........................................................................................................................... 32
2
1. Cel SWW Ogólnie, celem tej analizy jest wykrycie sensownych ukrytych wymiarów, które pozwalają badaczowi wyjaśnić obserwowane podobieństwa lub odmienności (odległości) między badanymi obiektami. Skalowanie wielowymiarowe (SWW) moŜe być rozwaŜane jako alternatywa analizy czynnikowej. Metoda skalowania wielowymiarowego na podstawie wyników oceny bliskości między obiektami lub zmiennymi poszukuje ich przestrzennej reprezentacji. Jest ona pewną techniką redukcji danych, gdyŜ jej celem jest znalezienie takiego zbioru punktów w przestrzeni o niewielkiej liczbie wymiarów, na ogół w przestrzeni dwu lub trójwymiarowej, który dobrze reprezentuje konfigurację badanych obiektów lub zmiennych w przestrzeni wielowymiarowej.
2. Metody skalowania wielowymiarowego SWW dzieli się na: - metryczne - niemetryczne W metodach metrycznych zakłada się, Ŝe odległości w nowej przestrzeni, o mniejszej liczbie wymiarów, są liniowymi funkcjami ocen bliskości, natomiast w metodach niemetrycznych – Ŝe odległości te są monotonicznymi funkcjami ocen bliskości. Iteracyjne procedury estymacyjne, wykorzystywane do wyznaczania ostatecznej konfiguracji punktów w nowej przestrzeni, są w obu typach metod bardzo podobne. Głównymi problemami praktycznymi, które pojawiają się w zastosowaniach skalowania wielowymiarowego, są: a) moŜliwość, Ŝe iteracyjna procedura estymacyjna zakończy się po osiągnięciu minimum lokalnego, a nie minimum globalnego, b) decyzja, jaka jest właściwa liczba wymiarów poszukiwanego rozwiązania c) właściwa interpretacja uzyskanego rozwiązania.
3. Problem liczby wymiarów Test osypiska Prosty sposób rozstrzygnięcia tego, ile zastosować wymiarów polega na wykreśleniu wartości stressu względem róŜnych liczb wymiarów. Test ten został najpierw zaproponowany przez Cattella (1966) w kontekście problemu liczby czynników w analizie czynnikowej. Kruskal i Wish (1978; str. 53-60) rozwaŜali zastosowanie tego wykresu w SWW. Cattell sugerował znajdywanie na wykresie miejsca, w którym wartości stressów (wartości własne w analizie czynnikowej) przestają wyraźnie maleć i formują linię zbliŜoną do poziomej. Na prawo od tego punktu odnajdujemy przypuszczalnie tylko "osypisko 3
czynnikowe" -- "osypisko" jest terminem geograficznym odnoszącym się do gruzu, który zbiera się w dolnej części urwiska skalnego. Rys. 1. Przykładowy wykres osypiska. Wykres osypiska 40 35 30
Stres
25 20 15 10 5 0 0
1
2
3
4
5
6
7
8
Wym iar
(Źródło: Wykonanie własne) MoŜliwość interpretacji konfiguracji Drugim kryterium pomagającym zdecydować, ile wymiarów naleŜy poddać interpretacji, jest przejrzystość ostatecznej konfiguracji. Czasami, tak jak w naszym przykładzie, odległości między miastami, otrzymane wymiary są łatwe do interpretacji. Kiedy indziej natomiast, punkty na wykresie tworzą rodzaj "losowej chmury" i nie ma oczywistego i prostego sposobu zinterpretowania wymiarów. W tym drugim przypadku naleŜy uwzględnić więcej lub mniej wymiarów i badać otrzymane końcowe konfiguracje. Często wyłaniają się rozwiązania łatwiejsze do interpretacji. Jeśli jednak punkty danych na wykresie nie formują Ŝadnego czytelnego wzoru, a na wykresie stressu nie widać Ŝadnego czytelnego "załamania", to dane stanowią najprawdopodobniej przypadkowy "szum".
3. Podejście obliczeniowe Skalowanie wielowymiarowe jest nie tyle ścisłą procedurą, ile raczej sposobem "zmiany rozmieszczenia" obiektów w sposób na tyle efektywny, aby otrzymać konfigurację, która jest najlepszym przybliŜeniem obserwowanych odległości. Program faktycznie przemieszcza obiekty w przestrzeni zdefiniowanej przez poŜądaną liczbę wymiarów i sprawdza, na ile ta nowa konfiguracja odtwarza odległości między obiektami. Mówiąc językiem technicznym, program stosuje algorytm minimalizacji funkcji, który ocenia róŜne konfiguracje, zmierzając do maksymalizacji dobroci dopasowania (lub minimalizacji "braku dopasowania").
4
Miary dobroci dopasowania: Stress Najpowszechniejszą miarą stosowaną do szacowania, na ile dobrze (lub źle) dana konfiguracja odtwarza obserwowaną macierz odległości jest stress. Surową wartość stressu Phi dla danej konfiguracji definiuje się jako:
Phi = Σ[dij - f (δij)]2 We wzorze tym: dij oznacza odtworzone odległości przy danej liczbie wymiarów δij (deltaij) oznacza dane wejściowe (tzn. odległości obserwowane) f(δij ) wyraŜenie to wskazuje na niemetryczną transformację monotoniczną obserwowanych danych wejściowych (odległości) Zatem program będzie zmierzał do odtworzenia ogólnego porządku rangowego odległości między analizowanymi obiektami. Istnieje kilka podobnych pokrewnych miar, które są powszechnie stosowane; jednak większość z nich sprowadza się do obliczenia sumy kwadratów odchyleń obserwowanych odległości (lub pewnej transformacji monotonicznej tych odległości) od odległości odtworzonych. Zatem im mniejsza wartość stressu, tym lepsze dopasowanie macierzy odległości odtworzonych do macierzy odległości obserwowanych. Diagram Sheparda MoŜna wykreślić odtworzone odległości dla danej liczby wymiarów względem obserwowanych danych wejściowych (odległości). Taki wykres rozrzutu jest znany jako diagram Sheparda. Wykres ten przedstawia odtworzone odległości wykreślone na osi pionowej (Y) względem pierwotnych podobieństw wykreślonych na osi poziomej (X) (stąd, generalnie ujemne nachylenie). Wykres pokazuje takŜe funkcję krokową. Linia ta przedstawia tak zwane wartości D z daszkiem, to znaczy wynik transformacji monotonicznej f(δij ) danych wejściowych. Jeśli wszystkie odtworzone odległości znajdowałyby się na linii krokowej, to porządek rangowy odległości (lub podobieństw) byłby dokładnie odtworzony przez odpowiednie rozwiązanie (model wymiarowy). Odchylenia od linii krokowej wskazują na brak dopasowania.
5
Rys. 2. Przykładowy diagram Sheparda.
(Źródło: Wykonanie własne) 4. Przykład nr. 1 skalowania wielowymiarowego - dane metryczne Ogólnie, im więcej wymiarów zastosujemy do odtworzenia macierzy odległości, tym lepsze będzie dopasowanie odtworzonej macierzy do macierzy obserwowanej (tzn. mniejszy będzie stress). Faktycznie, jeśli zastosujemy tyle wymiarów, ile jest zmiennych, to będziemy mogli dokładnie odtworzyć macierz wartości obserwowanych. Oczywiście naszym celem jest redukcja obserwowanej złoŜoności, to znaczy wyjaśnienie macierzy odległości przy pomocy mniejszej liczby ukrytych wymiarów. Wracając do przykładu odległości między miastami, mając dwuwymiarową mapę łatwiej nam przedstawić połoŜenie i łatwiej poruszać się między miastami, niŜ gdybyśmy polegali tylko na macierzy odległości. Rysunek 3 przedstawia tabelę odległości pomiędzy większymi miastami w Polsce. Następnie na jej podstawie tworzymy macierz odmienności (tabela 1). Do obliczeń wykorzystujemy program statystyczny Statistica, dlatego teŜ w naszej macierzy musieliśmy utworzyć wiersze o nazwach Means – średnia, Std.Dev – odchylenie standardowe, No.Cases liczba przypadków, Matrix – macierz, gdzie rozróŜniamy następujące rodzaje: 1 – korelacja, 2 – podobieństwa, 3 – odmienności, 4 – kowariancja. W przypadku macierzy odmienności lub podobieństw dopuszczalne jest pozostawienie wierszy Means i Std.Dev pustymi.
6
Rys. 3. Odległości między miastami.
(Źródło: http://www.pkscargo.ru/pl/inforastpl.html)
7
Tabela 1. Macierz odległości między miastami. Bezledy Bialystok Bydgoszcz Cieszyn Gdansk Katowice Kielce Kolbaskowo Krakow Lublin Lodz Medyka Olsztyn Opole Poznan Rzeszow Szczecin Swiecko Terespol Torun Warszawa Wroclaw Zgorzelec
Bezledy
Bialystok
Bydgoszcz
Cieszyn
Gdansk
Katowice
Kielce
Kolbaskowo
Krakow
Lublin
Lodz
Medyka
Olsztyn
Opole
Poznan
Rzeszow
Szczecin
Swiecko
Terespol
0
225
290
740
190
565
485
555
620
435
365
715
90
565
225
0
400
560
395
490
365
665
445
255
225
485
235
290
400
0
480
170
405
345
265
475
420
205
605
200
740
560
480
0
670
75
285
620
120
375
275
385
190
395
170
670
0
530
505
370
610
515
340
565
490
405
75
530
0
210
575
70
330
485
365
345
285
505
210
0
575
135
180
555
665
265
620
370
575
575
0
695
620
445
475
120
610
70
135
695
435
255
420
375
515
330
180
685
365
225
205
275
340
205
135
455
715
485
605
385
765
335
260
90
235
200
520
160
480
395
565
505
340
155
515
110
405
485
130
415
330
610
430
525
290
685
540
660
260
615
685
655
305
420
195
455
255
350
310
Torun
Warszawa
Wroclaw
Zgorzelec
405
610
540
685
420
255
310
565
655
505
485
430
660
655
340
130
525
260
305
195
350
190
535
700
455
45
255
275
520
155
415
290
615
365
485
535
435
370
240
765
160
515
330
685
365
400
405
525
180
350
485
530
205
335
480
110
360
240
570
440
500
365
300
195
360
135
260
395
230
330
180
570
515
305
295
175
300
460
685
455
850
465
460
245
755
20
205
720
310
520
375
325
0
255
275
265
530
185
440
170
690
560
415
480
315
270
430
255
0
250
230
385
405
445
175
680
655
160
375
170
415
575
275
250
0
400
275
200
210
320
450
395
335
160
135
225
385
850
265
230
400
0
605
450
610
95
845
780
390
555
405
535
695
465
530
385
275
605
0
475
330
525
460
495
365
165
220
475
565
230
460
185
405
200
450
475
0
255
350
455
330
515
335
315
85
245
360
330
245
440
445
210
610
330
255
0
510
240
185
505
145
305
170
235
240
180
755
170
175
320
95
525
350
510
0
750
725
335
475
310
435
600
365
570
570
20
690
680
450
845
460
455
240
750
0
200
715
305
515
370
320
485
405
440
515
205
560
655
395
780
495
330
185
725
200
0
690
330
485
245
160
535
525
500
305
720
415
160
335
390
365
515
505
335
715
690
0
410
200
545
695
45
435
180
365
295
310
480
375
160
555
165
335
145
475
305
330
410
0
205
290
385
190
255
370
350
300
175
520
315
170
135
405
220
315
305
310
515
485
200
205
0
345
510
565
535
275
240
485
195
300
375
270
415
225
535
475
85
170
435
370
245
545
290
345
0
160
655
700
365
400
530
360
460
325
430
575
385
695
565
245
235
600
320
160
695
385
510
160
0
Means Std.Dev No.Cases Matrix
23 3
(Źródło: Opracowanie własne) Means – średnia Std.Dev – odchylenie standardowe No.Cases- liczba przypadków Matrix – macierz (typ; 1 – korelacja, 2 – podobieństwa, 3 – odmienności, 4 – kowariancja) 8
Aby odpowiedzieć na pytanie: w ilu wymiarach mamy zaprezentować wyniki naleŜy utworzyć wykres osypiska (Rys.4) bazując na tabeli 2. Zawiera ona wartości stresu dla wymiarów od 1 do 7 obliczone w programie Statistica. W naszym przypadku sprawa jest oczywista – moŜna zauwaŜyć, Ŝe od wymiaru 2 linia jest prawie pozioma, więc najlepszym wymiarem do prezentacji danych jest wymiar 2.
Tabela 2. Wartości stressu dla róŜnych wymiarów (przykład nr.1). Wymiar
Stres 1 70,352800 2 0,980352 3 0,536703 4 0,402881 5 0,305994 6 0,179482 7 0,132447
(Źródło: Obliczenia własne)
Rys. 4. Wykres osypiska dla przykładu nr. 1. Wykres osypiska
80 70 60
Stres
50 40 30 20 10 0 0
1
2
3
4
5
6
7
8
Wym iar
(Źródło: Wykonanie własne)
9
Rys. 5. Wykres rozrzutu 2W dla przykładu nr. 1. Wykres rozrzutu 2W Konfiguracja końcowa, wymiar 1 wzgl. wymiaru 2 1,2 Zgorzelec
1,0 0,8
WroclawOpole KatowiceKrakow
Swiecko
0,6
Cieszyn
Wymiar
2
0,4 0,2
RzeszowMedyka Poznan
Kolbaskowo Szczecin
Kielce Lodz
0,0 Bydgoszcz Torun
-0,2
Lublin Warszawa
-0,4 -0,6 Gdansk
-0,8
Terespol
Olsztyn Bialystok
-1,0 Bezledy
-1,2 -1,4 -2,0
-1,5
-1,0
-0,5
0,0 Wymiar
0,5
1,0
1,5
2,0
1
(Źródło: Wykonanie własne)
Tworzymy zatem wykres rozrzutu 2W (rys. 5). Wykres przypomina mapę Polski. Oczywiście musielibyśmy ją odpowiednio odwrócić tj. zmienić orientację osi. MoŜemy to zrobić, poniewaŜ odległości między miastami pozostaną takie same. Tak jak w analizie czynnikowej, rzeczywista orientacja osi ostatecznego rozwiązania jest arbitralna. Zatem ostateczna orientacja osi na płaszczyźnie lub w przestrzeni jest przede wszystkim wynikiem subiektywnej decyzji badacza, który wybierze taką orientację, która moŜe być najłatwiej wyjaśniona. Odpowiednie dopasowanie danych potwierdza poniŜszy diagram Sheparda (Rys. 6).
10
Rys. 6. Diagram Sheparda dla przykładu nr. 1. Diagram Sheparda Odległości i D^ wzgl. danych 3,5 3,0
Odległości/D^
2,5 2,0 1,5 1,0 0,5 0,0 -0,5 -100
0
100
200
300
400
500
600
700
800
900
Dane
(Źródło: Wykonanie własne) Na podstawie wzrokowej analizy diagramu moŜemy uznać dopasowanie za wystarczające. PoniŜsza tabela przedstawia trzy rodzaje odległości pomiędzy wszystkimi parami miast: odległość pierwotną, odległość przetworzoną D* oraz odległość przetworzoną D^.
11
Tabela 3. Dane do rys. 7 i 8. Odleg.
D*
D^
D(18, 8) 0,607935 0,719392 0,679049
D(17, 8) 0,032202 0,032202 0,032202
D(11, 3) 0,715247 0,731508 0,679049
D(20, 3) 0,184479 0,184479 0,184479
D(21,20) 0,685387 0,731561 0,679049
D( 9, 6) 0,338470 0,289683 0,308242
D(15,11) 0,731577 0,731577 0,679049
D( 6, 4) 0,289683 0,296574 0,308242
D( 7, 6) 0,566267 0,733820 0,679049
D(22,14) 0,296574 0,335800 0,308242
.D(21,13) 0,738115 0,738115 0,738115
D(13, 1) 0,394833 0,338470 0,365317
D( 2, 1) 0,783928 0,743863 0,783928
D(16,12) 0,335800 0,381023 0,365317
D(11, 2) 1,021983 0,779692 0,817803
D(14, 6) 0,381023 0,384540 0,381023
D(22,11) 0,779692 0,783928 0,817803
D( 9, 4) 0,393416 0,393416 0,393416
D(12,10) 0,814452 0,784865 0,817803
D(15, 3) 0,420341 0,394833 0,420341
D(14, 7) 0,794521 0,794521 0,817803
D(11, 7) 0,471120 0,420341 0,427830
D(23,15) 0,801813 0,797575 0,817803
D(21,11) 0,384540 0,471120 0,427830
D(13, 2) 0,733820 0,801813 0,817803
D( 9, 7) 0,547935 0,477001 0,519181
D(22, 4) 0,807962 0,807962 0,817803
D(20,15) 0,490428 0,481349 0,519181
D(17,15) 0,811543 0,810303 0,817803
D(14, 4) 0,520618 0,488500 0,520618
D(16, 6) 0,842159 0,811543 0,817803
D(23,22) 0,548484 0,490428 0,525011
D(22,18) 0,810303 0,814452 0,817803
D(20,11) 0,555041 0,507572 0,525011
D(15, 8) 0,830747 0,818237 0,817803
D(19,10) 0,507572 0,520618 0,525011
D(23,14) 0,797575 0,823509 0,817803
D(13, 5) 0,536960 0,536960 0,525011
D(11,10) 0,784865 0,828933 0,817803
D(23,18) 0,477001 0,540206 0,525011
D(15,14) 0,828933 0,830747 0,828933
D(20,13) 0,576634 0,547334 0,566274
D(20, 1) 0,962925 0,833391 0,888555
D(21,10) 0,565505 0,547935 0,566274
D(10, 9) 0,903190 0,842159 0,888555
D( 5, 3) 0,613106 0,548484 0,566274
D(10, 2) 0,818237 0,869866 0,888555
D(16, 9) 0,547334 0,555041 0,566274
D(21, 3) 0,869866 0,898516 0,888555
D(22,15) 0,600336 0,565505 0,566274
D(12, 7) 0,935357 0,903190 0,894972
D(16,10) 0,605722 0,566267 0,566274
D(17, 3) 0,916167 0,910539 0,894972
D(21, 7) 0,540206 0,576634 0,566274
D(12, 9) 0,833391 0,916167 0,894972
D(10, 7) 0,481349 0,600336 0,566274
D( 8, 3) 0,944975 0,935357 0,940513
D(16, 7) 0,608455 0,605722 0,608455
D(22, 9) 1,009460 0,938133 0,940513
D(20, 5) 0,685424 0,607935 0,647486
D(13,11) 0,898516 0,944975 0,940513
D(14, 9) 0,719392 0,608455 0,647486
D(11, 4) 1,032481 0,947214 0,940513
D(18,15) 0,663106 0,613106 0,647486
D(11, 9) 0,910539 0,948919 0,940513
D( 5, 1) 0,658870 0,616856 0,647486
D(22, 3) 0,966491 0,962925 0,940513
D(21, 2) 0,645355 0,645355 0,647486
D( 7, 4) 0,823509 0,966491 0,940513
D(22, 6) 0,671752 0,658870 0,647486
D(16, 4) 0,938133 0,990135 0,940513
D(19, 2) 0,488500 0,660288 0,647486
D(22,20) 0,947214 1,007051 0,947214
D(14,11) 0,731561 0,663106 0,679049
D( 3, 1) 1,019689 1,009460 1,000712
D(13, 3) 0,660288 0,671752 0,679049
D(20, 7) 1,021821 1,016850 1,000712
D(21,19) 0,731508 0,685387 0,679049
D(21, 6) 1,022998 1,019689 1,000712
D(18,17) 0,616856 0,685424 0,679049
D(22, 7) 0,990135 1,021821 1,000712
D(11, 6) 0,743863 0,715247 0,679049
D(19, 7) 0,948919 1,021983 1,000712
12
D(20,17) 1,094248 1,022998 1,049059
D(23,20) 1,279420 1,259453 1,247986
D(18, 3) 1,016850 1,028274 1,049059
D(23,11) 1,286740 1,266710 1,247986
D(21,15) 1,036078 1,032481 1,049059
D(12, 4) 1,204191 1,270365 1,247986
D(21,16) 1,054868 1,036078 1,053324
D(19,12) 1,177086 1,271224 1,247986
D(21, 1) 1,051781 1,051781 1,053324
D(13, 7) 1,259453 1,274772 1,259453
D(20, 8) 1,122321 1,054868 1,074917
D(18,11) 1,348825 1,275078 1,300088
D(21, 9) 1,084412 1,059504 1,074917
D( 5, 2) 1,266710 1,279280 1,300088
D(21,14) 1,095963 1,064392 1,074917
D(12,11) 1,403021 1,279420 1,300088
D(23,17) 1,086290 1,065642 1,074917
D( 3, 2) 1,257205 1,286740 1,300088
D(16,11) 1,079285 1,079285 1,074917
D(23, 4) 1,224679 1,308025 1,300088
D(23, 8) 1,080275 1,080275 1,074917
D(15, 1) 1,433672 1,334614 1,370563
D(10, 6) 1,028274 1,084412 1,074917
D(18, 5) 1,475521 1,336568 1,370563
D(18,14) 1,105798 1,086290 1,074917
D(21,12) 1,334614 1,339232 1,370563
D(15,13) 1,059504 1,089707 1,074917
D( 6, 3) 1,336568 1,348825 1,370563
D(15, 5) 1,007051 1,094248 1,074917
D(14,10) 1,275078 1,375544 1,370563
D(15, 7) 1,159693 1,095963 1,111657
D(20,19) 1,375544 1,403021 1,370563
D(20,18) 1,136702 1,098691 1,111657
D(19, 9) 1,410572 1,410572 1,370563
D(20,14) 1,065642 1,101096 1,111657
D(15, 4) 1,339232 1,421781 1,370563
D(19,11) 1,089707 1,105798 1,111657
D(22,10) 1,454466 1,421985 1,370563
D(12, 6) 1,153808 1,113226 1,111657
D(19, 1) 1,270365 1,423957 1,370563
D(19,16) 1,064392 1,121430 1,111657
D(10, 3) 1,421985 1,433672 1,421985
D(14, 3) 1,130552 1,122321 1,130552
D(16, 2) 1,423957 1,447912 1,423957
D(11, 5) 1,210319 1,130552 1,164844
D(23, 9) 1,508319 1,454466 1,479053
D(22,21) 1,164218 1,136702 1,164844
D(20, 4) 1,498078 1,469967 1,479053
D( 7, 3) 1,186147 1,145233 1,164844
D(10, 1) 1,494561 1,475521 1,479053
D(20, 2) 1,098691 1,153808 1,164844
D(22,16) 1,469967 1,481608 1,479053
D(16,14) 1,205266 1,159693 1,172145
D(18, 6) 1,481608 1,488199 1,479053
D(21, 5) 1,189740 1,162947 1,172145
D(15, 9) 1,421781 1,494561 1,479053
D(15, 6) 1,121430 1,164218 1,172145
D(15,10) 1,515763 1,498078 1,515763
D(23, 6) 1,173541 1,173541 1,173541
D( 9, 2) 1,637501 1,503109 1,545645
D(11, 1) 1,274772 1,177086 1,175625
D(17,11) 1,522749 1,508319 1,545645
D(17, 5) 1,113226 1,186147 1,175625
D(14,12) 1,526365 1,513656 1,545645
D(20, 6) 1,226082 1,189740 1,175625
D(17,14) 1,556513 1,515763 1,545645
D( 7, 2) 1,101096 1,204191 1,175625
D(11, 8) 1,545508 1,519848 1,545645
D(19,13) 1,162947 1,205266 1,175625
D(19, 3) 1,554972 1,522749 1,545645
D(23, 3) 1,221098 1,210319 1,221098
D(23, 7) 1,538514 1,526365 1,545645
D(22,17) 1,271224 1,221098 1,240821
D(14, 8) 1,566277 1,538514 1,545645
D(21, 4) 1,308025 1,224679 1,240821
D(17,13) 1,488199 1,545508 1,545645
D( 8, 5) 1,145233 1,226082 1,240821
D(13, 8) 1,519848 1,554972 1,545645
D(20,10) 1,238801 1,238801 1,240821
D(14,13) 1,572870 1,556513 1,546520
D(10, 4) 1,253921 1,253921 1,247986
D(20,16) 1,626180 1,559252 1,546520
D(22, 8) 1,279280 1,255262 1,247986
D( 9, 3) 1,582532 1,566277 1,546520
D(13,10) 1,255262 1,257205 1,247986
D(22,13) 1,503109 1,572870 1,546520
13
D(20, 9) 1,447912 1,578739 1,546520
D(17, 7) 1,968249 1,965051 1,961779
D(13, 6) 1,642349 1,582532 1,595847
D(17, 6) 1,897518 1,968249 1,961779
D( 4, 3) 1,596216 1,590976 1,595847
D(23,10) 1,999579 1,988875 1,966220
D(12, 2) 1,603237 1,596216 1,595847
D( 8, 7) 1,988875 1,999579 1,966220
D( 7, 1) 1,590976 1,600163 1,595847
D( 8, 6) 1,910204 2,002048 1,966220
D(22, 5) 1,578739 1,603237 1,595847
D(23,16) 2,002048 2,016299 2,002048
D(18, 4) 1,600163 1,626180 1,595847
D(13,12) 2,058861 2,021908 2,058861
D(15, 2) 1,559252 1,637501 1,595847
D(12, 3) 2,113749 2,058861 2,092332
D(21,18) 1,687129 1,642349 1,630029
D(16, 1) 2,072978 2,072978 2,092332
D( 6, 2) 1,642518 1,642518 1,630029
D( 9, 5) 2,119411 2,076343 2,092332
D(18,13) 1,676813 1,650204 1,630029
D(15,12) 2,085970 2,085542 2,092332
D(19, 6) 1,513656 1,665456 1,630029
D(17, 4) 2,076343 2,085970 2,092332
D(14, 2) 1,741308 1,676813 1,705837
D( 8, 4) 2,085542 2,113749 2,092332
D(19,15) 1,766382 1,687129 1,705837
D( 9, 1) 2,129475 2,119411 2,129475
D( 7, 5) 1,650204 1,698377 1,705837
D(23, 1) 2,234588 2,125241 2,179313
D(23,21) 1,665456 1,712269 1,705837
D(18,10) 2,125241 2,129475 2,179313
D(16,15) 1,751499 1,714568 1,733033
D(18, 2) 2,221679 2,161816 2,179313
D(19,14) 1,714568 1,737969 1,733033
D(17, 2) 2,161816 2,183401 2,179313
D(21,17) 1,767325 1,741308 1,739187
D( 8, 2) 2,192093 2,192093 2,179313
D(14, 5) 1,737969 1,744202 1,739187
D( 5, 4) 2,183401 2,215204 2,179313
D(18, 7) 1,712269 1,751467 1,739187
D(17,10) 2,293779 2,221679 2,179313
D(10, 5) 1,744202 1,751499 1,744202
D(18, 1) 2,021908 2,229519 2,179313
D(13, 4) 1,930604 1,754138 1,795610
D(10, 8) 2,318194 2,230325 2,254575
D(21, 8) 1,793774 1,766382 1,795610
D(16, 5) 2,230325 2,234588 2,254575
D(16, 3) 1,793604 1,767325 1,795610
D(17, 9) 2,215204 2,253533 2,254575
D(19, 5) 1,698377 1,779715 1,795610
D(19,18) 2,418532 2,272042 2,321031
D(16,13) 1,791412 1,781782 1,795610
D( 9, 8) 2,229519 2,293779 2,321031
D(13, 9) 1,781782 1,783669 1,795610
D(23,19) 2,373308 2,305799 2,321031
D(23, 5) 1,779715 1,791412 1,795610
D(23,12) 2,323881 2,308907 2,321031
D( 6, 5) 1,910896 1,793604 1,802288
D(23, 2) 2,272042 2,318194 2,321031
D(19, 4) 1,754138 1,793774 1,802288
D(12, 1) 2,308907 2,323881 2,321031
D(22, 2) 1,796689 1,796689 1,802288
D(19,17) 2,469770 2,373308 2,381739
D(22,12) 1,798249 1,798249 1,802288
D(19, 8) 2,497854 2,418532 2,381739
D(17, 1) 1,751467 1,818433 1,802288
D(18,16) 2,253533 2,469770 2,381739
D(22,19) 1,847280 1,847280 1,847280
D( 4, 1) 2,305799 2,497854 2,381739
D(20,12) 1,942127 1,855376 1,848076
D(17,16) 2,562998 2,522838 2,555993
D( 8, 1) 1,783669 1,897414 1,848076
D(16, 8) 2,582145 2,562998 2,555993
D(18, 9) 1,818433 1,897518 1,848076
D(12, 5) 2,522838 2,582145 2,555993
D( 4, 2) 1,917815 1,910204 1,886595
D(18,12) 2,587183 2,587183 2,587183
D(23,13) 1,855376 1,910896 1,886595
D(17,12) 2,897280 2,897280 2,897280
D(22, 1) 1,897414 1,917815 1,897414
D(12, 8) 2,916713 2,916713 2,916713
D(14, 1) 1,965051 1,930604 1,961779
(Źródło: Obliczenia własne)
D( 6, 1) 2,016299 1,942127 1,961779
14
Dla pewności moŜemy przeanalizować stworzone na podstawie powyŜszej tabeli wykresy dopasowania odpowiednio D^ i D* względem odległości pierwotnych. Rys. 7. Wykres dopasowania Odległości i D^ 3,5
3,0
2,5
D^
2,0
1,5
1,0
0,5
0,0
-0,5 -0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
2,5
3,0
3,5
Odległ.
(Źródło: Wykonanie własne) Rys. 8. Odległości i D* 3,5
3,0
2,5
D*
2,0
1,5
1,0
0,5
0,0
-0,5 -0,5
0,0
0,5
1,0
1,5
2,0
Odległ.
(Źródło: Wykonanie własne) 15
Dopasowanie wygląda na dokładne, czyli wykres rozrzutu 2W jest najlepszym sposobem prezentacji. 5. Zastosowania Badania naukowe z dziedziny psychologii dowiodły, Ŝe ludzie w codziennym Ŝyciu operują skalami wielowymiarowymi, choć robią to nieświadomie. Na ogół nie potrafią, jednak odtworzyć przestrzeni psychologicznej, na której te skale są oparte, czyli odnosić względem siebie wielu wymiarów łącznie. Za pomocą SWW dąŜymy do rekonstrukcji przestrzeni psychologicznej i przedstawienia jej w moŜliwie najbardziej zrozumiały i sensowny sposób redukując wymiarowość zwykle do jednego, dwóch lub trzech wymiarów. Zaleta skalowania wielowymiarowego polega na tym, Ŝe moŜemy analizować dowolny rodzaj macierzy odległości lub podobieństwa. Podobieństwa te mogą reprezentować oceny: - podobieństwa obiektów dokonane przez respondentów, - procentową zgodność między sędziami, - liczbę przypadków, gdy badany nie umiał rozróŜnić bodźców itd. Największe zastosowanie dla Skalowanie Wielowymiarowego: Badania psychologiczne - Badania nad ludzką percepcją zapachu, smaku, bólu i cierpienia, podobieństwa barw i głosek, itp., Badania socjologiczne - Badania nad postrzeganiem własnych grup społecznych oraz grup zewnętrznych, postrzeganiem postaw, stosunku do religii, czy teŜ zwyczajów, Badania marketingowe - Ocena podobieństwa i porównanie marek lub produktów oraz znajdywanie ukrytych wymiarów kryjących się za ich postrzeganiem, Ekonometria - Konstrukcja skali oceny przedsiębiorstwa. Mówiąc ogólnie, metody SWW pozwalają badaczowi zadawać względnie neutralne pytania (np. "na ile marka A jest podobna do marki B") i wyprowadzać z tych pytań podstawowe wymiary bez zdradzania respondentom rzeczywistych intencji badacza. Najczęściej w SWW analizowane są: podobieństwa obiektów dokonane przez respondentów, procentowa zgodność między sędziami, liczba przypadków, gdy badany nie potrafił rozróŜnić bodźców Ten ostatni przypadek chcielibyśmy przedstawić na konkretnym przykładzie. Do eksperymentu wykorzystamy podobnie jak w przykładzie pierwszym oprogramowanie Statistica.
16
6. Przykład nr. 2 skalowania wielowymiarowego – dane niemetryczne W tym eksperymencie posłuŜymy się danymi z (1). W literaturze eksperyment ten został przeprowadzony przy pomocy innego oprogramowania komputerowego, natomiast my posłuŜymy się znaną nam juŜ Statisticą. Dane przedstawiają błędne odpowiedzi na zadane pytanie. Tu pytaniem był dźwięk przedstawiający jedną z głosek języka angielskiego, podczas gdy respondenci mieli za zadanie zanotować jaką głoskę usłyszeli. W ten sposób zbudowano macierz pomyłek popełnionych przez respondentów, tzn. im więcej pomyłek dla danej pary głosek zanotowano, tym bardziej są one postrzegane jako podobne, zatem ilość pomyłek jest tu miarą podobieństwa.
Tabela 4. Macierz pomyłek.
p p t k f θ r s b d g v δ z ξ m n Means Std.Dev No.Cases Matrix
0 229 432 101 124 52 38 22 25 13 16 28 25 19 25 17
t 229 0 241 57 79 50 50 13 22 16 22 16 23 17 22 18
k 432 241 0 77 84 63 47 18 20 30 20 18 25 19 21 20
f 101 57 77 0 423 66 30 46 25 15 35 32 18 7 16 12
θ 124 79 84 423 0 157 48 45 41 39 40 31 33 17 19 18
r 52 50 63 66 157 0 115 24 31 33 23 26 35 22 17 13
s 38 50 47 30 48 115 0 12 33 21 20 18 17 12 12 11
b 22 13 18 46 45 24 12 0 58 69 210 145 55 27 36 24
d 25 22 20 25 41 31 33 58 0 342 59 94 106 89 24 32
g 13 16 30 15 39 33 21 69 342 0 54 120 139 125 32 30
v 16 22 20 35 40 23 20 210 59 54 0 338 80 29 30 22
δ 28 16 18 32 31 26 18 145 94 120 338 0 161 33 34 28
z 25 23 25 18 33 35 17 55 106 139 80 161 0 136 21 16
ξ 19 17 19 7 17 22 12 27 89 125 29 33 136 0 16 30
m 25 22 21 16 19 17 12 36 24 32 30 34 21 16 0 151
16 2
(Źródło: Obliczenia własne)
17
n 17 18 20 12 18 13 11 24 32 30 22 28 16 30 151 0
SWW jako graficzna metoda redukcji wymiarów nie odpowiada wprost na pytanie dla ilu wymiarów mamy zaprezentować wyniki. Odpowiedzi szukamy np. korzystając z metody głównych składowych badając wartość Stressu dla róŜnej ilości wymiarów. Tabela 5. Wartości Stressu dla róŜnych wymiarów (przykład nr.2) Wymiar 1 2 3 4 5 6 7
Stress 47,367740 6,080462 1,709983 0,723261 0,264883 0,088126 0,039980
(Źródło: Obliczenia własne)
Rys. 9. Wykres osypiska dla przykładu nr. 2. Wykres osypiska 50 45 40 35
Stres
30 25 20 15 10 5 0 0
1
2
3
4
5
6
7
8
Wym iar
(Źródło: Wykonanie własne)
18
Z wykresu osypiska stworzonego na podstawie Tabeli 5 moŜna zakładać, w zaleŜności od zastosowanej metody interpretacji tego typu wykresów oraz zakładanej dokładności wyników, Ŝe za pomocą dwóch lub trzech wymiarów moŜemy zaobserwować w wystarczający sposób zmienność badanego zjawiska. Warto wziąć pod uwagę takŜe alternatywne dla wykresu osypiska rozwiązanie problemu docelowej liczby wymiarów. OtóŜ w skalowaniu wielowymiarowym warto wziąć pod uwagę sensowność i interpretowalność róŜnej liczby wymiarów, co zaleŜy juŜ od konkretnego przykładu. W przykładzie pierwszym miało to szczególne znaczenie gdyŜ otrzymanie jedno lub trójwymiarowej „mapy Polski” nie miałoby dla nas sensu i nie byłoby moŜliwe sensowne zinterpretowanie wyników. W omawianym właśnie przykładzie 2 wyniki nie są jeszcze dla nas tak oczywiste, dlatego sprawdzimy obydwa przypadki, których sens zastosowania wynikałby z wykresu osypiska.
Na początek dla dwóch wymiarów:
19
Wybieramy metodę (domyślnie Guttmana-Lingoesa), epsilon, oraz ograniczenia co do ilości wykonanych iteracji.
Po wykonaniu alogorytmu, Statistica zwraca okno wyników, z których najbardziej istotne są dla nas Alienacja = 0,1538208 oraz Stress = 0,1224407
20
Dla rozwiązania dwuwymiarowego otrzymujemy następujący wykres:
Rys. 10. Wykres rozrzutu 2W dla przykładu nr. 2. Wykres rozrzutu 2W Konfiguracja końcowa, wymiar 1 wzgl. wymiaru 2 1,2
ξ
s
1,0 0,8 0,6
d
0,4
2 Wymiar
-0,2
g
r
0,2 0,0
z
δ
θ
k t
v b
p f
-0,4 -0,6 -0,8 -1,0 -1,2
m
n
-1,4 -1,6 -1,2
-1,0
-0,8
-0,6
-0,4
-0,2 Wymiar
0,0
0,2
0,4
0,6
0,8
1,0
1
(Źródło: Wykonanie własne)
Na powyŜszym wykresie moŜemy zauwaŜyć, Ŝe takie głoski jak „m i „n”, czy „t” i „k”, które najbardziej wydają się nam podobne w wydźwięku, leŜą bardzo blisko siebie. NaleŜy jednak pamiętać, iŜ badanie przeprowadzono dla głosek w języku angielskim, dlatego „g” i „z” łączy nieduŜa odległość, podczas gdy w języku polskim głoski te wydają się zdecydowanie inne. PowyŜsze dopasowanie potwierdzamy budując diagram Sheparda.
21
Rys. 11. Diagram Sheparda dla przykładu nr. 2 dla 2W. Diagram Sheparda Odległości i D^ wzgl. danych 2,8 2,6 2,4 2,2 2,0
Odległości/D^
1,8 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -50
0
50
100
150
200
250
300
350
400
450
Dane
(Źródło: Wykonanie własne)
Na podstawie wzrokowej analizy diagramu moŜemy uznać dopasowanie za wystarczające. PoniŜsza tabela przedstawia trzy rodzaje odległości pomiędzy wszystkimi parami głosek: odległość pierwotną, odległość przetworzoną D* oraz odległość przetworzoną D^.
22
Tabela 6. Dane do rys. 12 i 13. Odleg.
D*
D^
D(11, 5) 1,543449 1,149874 1,450527
D( 3, 1) 0,191668 0,065265 0,158570
D(10, 5) 1,524427 1,264701 1,450527
D( 5, 4) 0,415042 0,074571 0,158570
D( 7, 1) 1,149874 1,274497 1,450527
D(10, 9) 0,129743 0,087154 0,158570
D(15, 8) 1,274497 1,328881 1,450527
D(12,11) 0,087154 0,103211 0,158570
D(11, 4) 1,728973 1,336653 1,451741
D( 3, 2) 0,065265 0,106110 0,158570
D(13, 6) 1,541418 1,344626 1,451741
D( 2, 1) 0,146548 0,129743 0,158570
D(15,12) 1,388034 1,385800 1,451741
D(11, 8) 0,074571 0,135245 0,158570
D( 9, 7) 1,645329 1,388034 1,451741
D(13,12) 0,433154 0,146548 0,214480
D(14,12) 0,954950 1,401752 1,451741
D( 6, 5) 0,279075 0,150851 0,214480
D(10, 6) 1,559903 1,431499 1,530324
D(16,15) 0,106110 0,188801 0,214480
D(13, 5) 1,524518 1,485734 1,530324
D(12, 8) 0,150851 0,191668 0,214480
D(12, 4) 1,687567 1,524427 1,530324
D(13,10) 0,103211 0,279075 0,214480
D(16, 9) 1,702754 1,524518 1,530324
D(14,13) 0,521999 0,281511 0,393613
D(15,10) 1,707437 1,525709 1,530324
D(14,10) 0,622751 0,296987 0,393613
D(12, 5) 1,485734 1,541418 1,530324
D( 5, 1) 0,296987 0,313585 0,393613
D( 9, 6) 1,431499 1,543449 1,530324
D(12,10) 0,332575 0,331246 0,393613
D(15,11) 1,344626 1,545636 1,530324
D( 7, 6) 0,682671 0,332575 0,393613
D( 7, 4) 1,328881 1,559903 1,530324
D(13, 9) 0,135245 0,360930 0,393613
D(16,10) 1,710827 1,579896 1,579524
D( 4, 1) 0,188801 0,367877 0,393613
D(16,14) 2,319268 1,624053 1,579524
D(12, 9) 0,367877 0,380416 0,393613
D(10, 3) 1,803783 1,628380 1,579524
D(14, 9) 0,616787 0,402792 0,419547
D(14,11) 1,024715 1,645329 1,579524
D( 5, 3) 0,281511 0,415042 0,419547
D(12, 1) 1,713515 1,647667 1,579524
D(13,11) 0,505435 0,423891 0,419547
D(16,12) 1,385800 1,661742 1,579524
D( 5, 2) 0,313585 0,433154 0,419547
D(14, 8) 1,098760 1,667293 1,579524
D( 4, 3) 0,380416 0,450761 0,419547
D(12, 6) 1,579896 1,672221 1,579896
D(10, 8) 0,476422 0,476422 0,466279
D(13, 3) 1,801170 1,680129 1,649115
D( 6, 4) 0,659591 0,495765 0,466279
D( 9, 4) 1,682383 1,682383 1,649115
D( 6, 3) 0,360930 0,505435 0,466279
D(15, 1) 1,684897 1,684256 1,649115
D(11, 9) 0,450761 0,518724 0,466279
D(13, 1) 1,794245 1,684897 1,649115
D( 9, 8) 0,518724 0,521999 0,466279
D( 9, 1) 1,667293 1,687567 1,649115
D( 4, 2) 0,331246 0,578746 0,466279
D(16, 8) 1,264701 1,691335 1,649115
D(13, 8) 0,578746 0,616787 0,475299
D( 8, 6) 1,661742 1,702754 1,661742
D(11,10) 0,402792 0,622751 0,475299
D(15, 9) 1,691335 1,707437 1,669501
D( 6, 1) 0,495765 0,659591 0,475299
D(11, 6) 1,647667 1,710827 1,669501
D( 6, 2) 0,423891 0,682671 0,475299
D(13, 2) 1,838088 1,713515 1,686201
D( 7, 2) 1,038438 0,954950 0,991241
D( 8, 1) 1,755884 1,713847 1,686201
D( 7, 5) 0,960632 0,960632 0,991241
D(15, 2) 1,828160 1,714056 1,686201
D( 7, 3) 0,974653 0,974653 0,991241
D(14, 6) 1,672221 1,715237 1,686201
D( 8, 4) 1,714056 1,024715 1,450527
D(16,11) 1,336653 1,728973 1,686201
D( 8, 5) 1,545636 1,038438 1,450527
D( 9, 2) 1,715237 1,739908 1,715237
D( 9, 5) 1,401752 1,098760 1,450527
D(11, 2) 1,843762 1,755884 1,816870
23
D(15, 3) 1,855096 1,762963 1,816870
D(15, 6) 1,942858 1,841666 1,831662
D(10, 7) 1,770532 1,766386 1,816870
D(16, 1) 1,780550 1,843762 1,831662
D(15,13) 1,798092 1,770532 1,816870
D(10, 2) 1,837592 1,855096 1,831662
D(16, 3) 1,948342 1,770641 1,825451
D(15, 4) 1,525709 1,909465 1,831662
D(11, 7) 1,991526 1,780550 1,825451
D(12, 2) 1,789435 1,922964 1,831662
D( 9, 3) 1,680129 1,785872 1,825451
D(16,13) 1,804296 1,942858 1,831662
D(11, 3) 1,823001 1,789435 1,825451
D(11, 1) 1,762963 1,948342 1,831662
D(15, 5) 1,684256 1,794245 1,825451
D(15,14) 2,307952 1,991526 1,858274
D(14, 3) 1,992071 1,794539 1,831662
D(10, 4) 1,794539 1,992071 1,858274
D(14, 1) 2,032886 1,798092 1,831662
D( 8, 2) 1,841666 2,025453 1,858274
D(13, 4) 1,813629 1,801170 1,831662
D(16, 6) 2,025453 2,027994 1,858274
D(12, 3) 1,766386 1,803783 1,831662
D(10, 1) 1,785872 2,032886 1,858274
D(12, 7) 1,909465 1,804296 1,831662
D(14, 7) 1,628380 2,041286 1,858274
D(16, 2) 1,922964 1,813629 1,831662
D(16, 4) 1,624053 2,095459 1,858274
D( 8, 3) 1,823439 1,823001 1,831662
D( 8, 7) 2,027994 2,307952 2,027994
D(16, 5) 1,770641 1,823439 1,831662
D(15, 7) 2,571679 2,319268 2,437583
D(14, 2) 2,041286 1,828160 1,831662
D(16, 7) 2,645612 2,571679 2,437583
D(14, 5) 1,739908 1,837592 1,831662
D(14, 4) 2,095459 2,645612 2,437583
D(13, 7) 1,713847 1,838088 1,831662
(Źródło: Obliczenia własne)
Dla pewności moŜemy przeanalizować stworzone na podstawie powyŜszej tabeli wykresy dopasowania odpowiednio D^ i D* względem odległości pierwotnych Rys. 12. Odległości i D^ 2,8 2,6 2,4 2,2 2,0 1,8
D^
1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 -0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
2,8
Odległ.
(Źródło: Wykonanie własne)
24
Rys. 13. Odległości i D* 2,8 2,6 2,4 2,2 2,0 1,8
D*
1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
2,8
Odległ.
(Źródło: Wykonanie własne)
Dopasowanie, choć nie wygląda na zbyt dokładne, to jednak wyniki w przestrzeni 2W mogą być dla nas wygodniejsze do interpretacji. Aby się upewnić zbadajmy wykres 3W stworzony w analogiczny sposób tyle, Ŝe dla trzech wymiarów. Okno wyników przedstawia się następująco:
25
ZauwaŜamy, Ŝe Alienacja i Stress są dla tego wariantu o rząd mniejsze, co wynika z lepszego dopasowania odległości względem danych pierwotnych. Rys. 16. Wykres 3W dla przykładu nr. 2.
(Źródło: Wykonanie własne) 26
Znaczną poprawę dopasowania widać takŜe na diagramie Shepparda. Rys. 17. Diagram Sheparda dla przykładu nr. 2 dla 3W. Diagram Sheparda Odległości i
D^ wzgl. danych
2,6 2,4 2,2 2,0
Odległości/D^
1,8 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 -50
0
50
100
150
200
250
300
350
400
450
Dane
(Źródło: Wykonanie własne) Tabela 7. Dane do rys. 18 i 19 Odleg.
D*
D^
D(13, 9) 0,373932 0,632976 0,644768
D( 3, 1) 0,162190 0,128219 0,162190
D( 4, 1) 0,689861 0,670649 0,660305
D( 5, 4) 0,349479 0,162190 0,217446
D(12, 9) 0,697240 0,689861 0,660305
D(10, 9) 0,171761 0,171761 0,217446
D(14, 9) 0,632976 0,697240 0,660305
D(12,11) 0,220324 0,204810 0,217446
D( 5, 3) 0,621142 0,708494 0,660305
D( 3, 2) 0,128219 0,220324 0,217446
D(13,11) 0,708494 0,714748 0,708494
D( 2, 1) 0,259836 0,259836 0,232323
D( 5, 2) 0,734887 0,724035 0,734887
D(11, 8) 0,204810 0,341380 0,232323
D( 4, 3) 0,769462 0,734887 0,769462
D(13,12) 0,504374 0,349479 0,439054
D(10, 8) 0,875158 0,762880 0,782955
D( 6, 5) 0,487045 0,373932 0,439054
D( 6, 4) 0,803057 0,769462 0,782955
D(16,15) 0,471475 0,390997 0,439054
D( 6, 3) 0,670649 0,803057 0,782955
D(12, 8) 0,341380 0,471475 0,439054
D(11, 9) 0,905655 0,828351 0,847685
D(13,10) 0,390997 0,487045 0,439054
D( 9, 8) 0,974176 0,841254 0,847685
D(14,13) 0,935299 0,504374 0,644768
D( 4, 2) 0,897445 0,875158 0,847685
D(14,10) 0,714748 0,600402 0,644768
D(13, 8) 0,841254 0,897445 0,847685
D( 5, 1) 0,600402 0,616755 0,644768
D(11,10) 0,828351 0,905655 0,847685
D(12,10) 0,616755 0,621142 0,644768
D( 6, 1) 0,762880 0,935299 0,847685
D( 7, 6) 0,627476 0,627476 0,644768
D( 6, 2) 0,724035 0,974176 0,847685
27
D( 7, 2) 1,153040 1,111049 1,132045
D(15, 2) 1,698220 1,709422 1,723531
D( 7, 5) 1,111049 1,153040 1,132045
D(14, 6) 1,698898 1,710138 1,723531
D( 7, 3) 1,156251 1,156251 1,156251
D(16,11) 1,728929 1,717638 1,723531
D( 8, 4) 1,477871 1,292770 1,402001
D( 9, 2) 1,659011 1,723563 1,723531
D( 8, 5) 1,379950 1,320894 1,402001
D(11, 2) 1,855671 1,728929 1,748487
D( 9, 5) 1,445787 1,337243 1,402001
D(15, 3) 1,684377 1,729041 1,748487
D(11, 5) 1,337243 1,362090 1,402001
D(10, 7) 1,730682 1,730682 1,748487
D(10, 5) 1,518299 1,367853 1,402001
D(15,13) 1,742665 1,732646 1,748487
D( 7, 1) 1,292770 1,379950 1,402001
D(16, 3) 1,729041 1,732743 1,748487
D(15, 8) 1,362090 1,391993 1,402001
D(11, 7) 1,928882 1,732859 1,772380
D(11, 4) 1,461513 1,406496 1,445819
D( 9, 3) 1,645439 1,739238 1,772380
D(13, 6) 1,430124 1,412383 1,445819
D(11, 3) 1,782454 1,741011 1,772380
D(15,12) 1,508540 1,430124 1,455963
D(15, 5) 1,732743 1,741777 1,772380
D( 9, 7) 1,574269 1,445548 1,455963
D(14, 3) 1,894129 1,742665 1,799740
D(14,12) 1,320894 1,445787 1,455963
D(14, 1) 1,951147 1,751075 1,799740
D(10, 6) 1,511426 1,460749 1,455963
D(13, 4) 1,717638 1,759441 1,799740
D(13, 5) 1,460749 1,461513 1,455963
D(12, 3) 1,768690 1,768690 1,799740
D(12, 4) 1,538012 1,465706 1,455963
D(12, 7) 1,850540 1,773685 1,799740
D(16, 9) 1,465706 1,477871 1,455963
D(16, 2) 1,709422 1,781711 1,799740
D(15,10) 1,445548 1,505709 1,455963
D( 8, 3) 1,790853 1,782454 1,799740
D(12, 5) 1,367853 1,508540 1,455963
D(16, 5) 1,880943 1,786885 1,799740
D( 9, 6) 1,391993 1,511426 1,455963
D(14, 2) 1,865059 1,787890 1,799740
D(15,11) 1,523658 1,518299 1,455963
D(14, 5) 1,869430 1,790853 1,799740
D( 7, 4) 1,412383 1,523658 1,455963
D(13, 7) 1,610793 1,805111 1,799740
D(16,10) 1,406496 1,525971 1,455963
D(15, 6) 1,992600 1,823267 1,799740
D(16,14) 1,548740 1,533029 1,548740
D(16, 1) 1,672232 1,829284 1,799740
D(10, 3) 1,732646 1,536029 1,625354
D(10, 2) 1,751075 1,850540 1,799740
D(14,11) 1,533029 1,538012 1,625354
D(15, 4) 1,786885 1,855671 1,799740
D(12, 1) 1,741011 1,548740 1,625354
D(12, 2) 1,829284 1,863321 1,799740
D(16,12) 1,655367 1,574269 1,625354
D(16,13) 1,759441 1,865059 1,799740
D(14, 8) 1,584363 1,584363 1,625354
D(11, 1) 1,739238 1,869430 1,799740
D(12, 6) 1,505709 1,591050 1,625354
D(15,14) 1,781711 1,880943 1,799740
D(13, 3) 1,787890 1,599303 1,650862
D(10, 4) 1,773685 1,894129 1,799740
D( 9, 4) 1,723563 1,610793 1,650862
D( 8, 2) 1,863321 1,928882 1,837942
D(15, 1) 1,591050 1,620020 1,650862
D(16, 6) 2,036532 1,951147 1,837942
D(13, 1) 1,805111 1,645439 1,650862
D(10, 1) 1,741777 1,992600 1,837942
D( 9, 1) 1,668820 1,655367 1,650862
D(14, 7) 1,710138 2,003681 1,837942
D(16, 8) 1,599303 1,659011 1,650862
D(16, 4) 2,003681 2,036532 2,003681
D( 8, 6) 1,620020 1,668820 1,650862
D( 8, 7) 2,049883 2,049883 2,049883
D(15, 9) 1,525971 1,672232 1,650862
D(15, 7) 2,475052 2,180336 2,361518
D(11, 6) 1,536029 1,684377 1,650862
D(16, 7) 2,429167 2,429167 2,361518
D(13, 2) 1,823267 1,698220 1,723531
D(14, 4) 2,180336 2,475052 2,361518
D( 8, 1) 1,732859 1,698898 1,723531
(Źródło: Obliczenia własne)
28
TakŜe wykresy D^ i D* wskazują na lepsze dopasowanie.
Rys. 18. Odległości i D^ 2,6 2,4 2,2 2,0 1,8
D^
1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
Odległ.
(Źródło: Wykonanie własne)
29
Rys. 19. Odległości i D* 2,6 2,4 2,2 2,0 1,8
D*
1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
Odległ.
(Źródło: Wykonanie własne) Podsumowując, pomimo znacznie lepszego dopasowania modelu 3W jest on duŜo trudniejszy w interpretacji pamiętając, Ŝe w wyniku ostatecznym waŜne są dla nas nie tylko odległości, ale takŜe ukryte wymiary, które pragniemy nazwać i zbadać. W naszym przykładzie wydaje się to jednak trudne, gdyŜ moŜe wymagać większej wiedzy o języku angielskim i jego fonetyce.
30
7. Skalowanie wielowymiarowe a analiza czynnikowa ChociaŜ istnieją podobieństwa w problemach badawczych, do których mogą być stosowane obie te procedury, SWW i analiza czynnikowa to zasadniczo róŜne metody. Analiza czynnikowa - wymaga, aby dane miały wielowymiarowy rozkład normalny, a związki były liniowe - zmierza do wyodrębnienia większej liczby czynników (wymiarów) niŜ SWW - wymaga, abyśmy najpierw obliczyli macierz korelacji - wymaga, aby osobnicy ocenili te bodźce przy pomocy pewnej listy atrybutów (dla których wykonuje się analizę czynnikową)
Skalowanie wielowymiarowe - nie narzuca takich ograniczeń - moŜe być stosowane pod warunkiem, Ŝe porządek rangowy odległości (lub podobieństw) w macierzy jest sensowny - często dostarcza bardziej czytelnych, łatwiejszych do interpretacji rozwiązań - moŜe być stosowane do dowolnego typu odległości lub podobieństw - moŜe być oparte na bezpośrednim oszacowaniu przez osobników podobieństw między bodźcami
Podsumowując, skalowanie wielowymiarowe moŜe być stosowane w przypadku wielu róŜnych projektów badawczych, poniewaŜ istnieje wiele sposobów otrzymania miar odległości.
31
8. Literatura (1) - Adam Biela „Skalowanie wielowymiarowe jako metoda badań naukowych”, Towarzystwo naukowe Katolickiego Uniwersytetu Lubelskiego, Lublin 1992; (2) - Grzegorz Lisowski, Zakład Statystyki, Demografii i Socjologii Matematycznej Uniwersytetu Warszawskiego – wykłady ze statystyki; (3) - Alvin C. Rencher „Methods of Multivariate Analysis”, A. John Wiley & Sons, Inc. Publication, Canada 2002; (4) - Wolfgang Hardle, Leopold Simar „Applied Multivariate Statistical Analysis”, Method and Data Technologies, Germany 2003; (5) - http://www.statsoft.pl/textbook/stathome.html - internetowy podręcznik Statystyki; (6) - Janusz Dutkowski „Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe” - praca naukowa; (7) - Paweł Rydzewski „Postawy wobec rozwodów w Polsce w latach 1990”, WyŜsza Szkoła Przedsiębiorczości i Administracji w Lublinie.
32