Nowoczesne technologie ICT w upowszechnianiu osiągnięć nauki
Prof. Zygmunt PIZLO
Percepcja wzrokowa obiektów trójwymiarowych: historia – psychofizyka – modele symulacyjne Materiały seminarium otwartego, które odbyło się dnia 4 marca 2010 roku w Katolickim Uniwersytecie Lubelskim Jana Pawła II
Opiekun merytoryczny seminarium Prof. Piotr FRANCUZ
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Zygmunt PIZLO – profesor psychologii i elektroniki na Purdue University, uniwersytecie stanowym w West Lafayette (Indiana, USA). W swoich badaniach naukowych zajmuje się zagadnieniami percepcji wzrokowej, w szczególności percepcji kształtu, koloru, ruchu, jak również stosowalności perspektywy i geometrii rzutowej do opisu formowania obrazu na siatkówce i wyjaśnienia percepcji obiektów trójwymiarowych. Wyniki badań eksperymentalnych używane są przez profesora do formułowania matematycznych i komputerowych modeli. Autor ponad 100 artykułów w recenzowanych czasopismach i materiałach konferencyjnych oraz pierwszej w świecie monografii poświęconej percepcji kształtów trójwymiarowych
Spis treści Część I — Historia. Stan badań nad percepcją wzrokową _________________ Część II — Psychofizyka. Analiza metod i badań eksperymentalnych służących pomiarowi percepcji wzrokowej ____________________________ Część III — Modele symulacyjne. Prezentacja wybranych modeli do badania percepcji wzrokowej _____________________________________
Część I
Historia Stan badań nad percepcją wzrokową
Co to jest percepcja? Spotyka się dwie definicje. Pierwsza – bardziej klasyczna – zakłada, że system wzrokowy czy obserwator jest pasywny i głosi, że spostrzegać oznacza: być świadomym świata zewnętrznego za pomocą zmysłów. Nie ma w tym nic szczególnie odkrywczego, ta definicja wydaje się na tyle szeroka, że nic nie zostaje wykluczone. Druga definicja – bardziej kognitywistyczna – głosi, że zadaniem percepcji jest dostarczenie dokładnej informacji o świecie zewnętrzem. Każdy się chyba zgodzi z tym, aczkolwiek nie każdy się pod tym podpisze. W tej definicji zakłada się, że obserwator jest aktywny, że stara się coś osiągnąć. Wpisuje się więc to w tradycję psychologii funkcjonalnej. Trudno stwierdzić w sposób niepodważalny, że naukowe badanie percepcji jest możliwe. Dlaczego? Dlatego, że percepcja jest subiektywna i, jak każdy akt umysłowy, stanowi akt prywatny. Ja wiem, co widzę, ale żeby wiedzieć, co ktoś widzi, muszę go o to zapytać. Eksperymentator nie ma możliwości bezpośredniego mierzenia percepcji, gdyż tkwi ona w umyśle. To rzeczywiście stanowi podstawowy problem, gdyż przyjmuje się, że nauka musi się zajmować zjawiskami obiektywnymi, publicznymi. Gdy wykonujemy eksperyment fizyczny, mierzymy przyspieszenie ciała spadającego. Kilka osób może się zebrać w grupie i każdy może obserwować, jak ten przedmiot spada i mierzyć parametry tego zjawiska. Tak więc zanim zaczniemy zajmować się nauką percepcji, musimy w jakiś sposób upublicznić, uzewnętrznić tę percepcję poprzez zapytanie danej osoby, co widzi. Powinniśmy już na początku zdać sobie sprawę z tego, że badanie percepcji to problem czarnej skrzynki, czyli poprzez obserwowanie zachowania osoby trzeba starać się wnioskować, co się dzieje w jej umyśle.
242
Percepcja wzrokowa obiektów trójwymiarowych
Skąd się biorą mechanizmy do analizy danych zmysłowych? Czyli odwieczne pytanie: wrodzone czy nabyte? Po urodzeniu dziecko uczy się wielu rzeczy, np. rozpoznawać przedmioty, których oczywiście nie mogło znać przed urodzeniem. Gdy zadajemy pytanie: wrodzone czy nabyte?, to zastanawiamy się, czy algorytmy do analizy bodźców wzrokowych są wrodzone, czy nie. W historii percepcji dominowało założenie, że wszystkie mechanizmy są wyuczone. Jednak tak wcale nie musi być. Jeśli mechanizmy percepcji okazują się nabyte, to powinniśmy widzieć rzecz trochę inaczej, czyli spodziewalibyśmy się dużych różnic indywidualnych i dokładności naszej percepcji przedmiotów. Gdy uznajemy te mechanizmy za wrodzone, to różnice indywidualne powinny być mniejsze i nie ma powodu przypuszczać, że nasza percepcja musi być dokładna. Począwszy od XIX wieku, nawet wcześniej, prowadzono już dość systematyczne badania, które starały się udzielić odpowiedzi na to podstawowe pytanie dotyczące mechanizmów percepcji. Jeden z pierwszych eksperymentów dotyczących tego zagadnienia został przeprowadzony na kurczęciu przez Thorndike w 1899 r. Kurczę, które urodziło się w ciemnym pomieszczeniu, wyjęto z tego pokoju i umieszczono na niskim, a następnie na wysokim postumencie. Zaobserwowano, że z niskiego mebla kurczę rozejrzy się dookoła i zeskoczy, żeby poszukać jedzenia. Natomiast z wysokiego postumentu – rozejrzy się dookoła i nie zeskoczy. Także nowo narodzone kurczę potrafi analizować głębię i widzi przestrzeń w trzech wymiarach oraz wie, co to znaczy. My jesteśmy mądrzejsi od kur, więc skoro nowo narodzone kurczę widzi świat w trzech wymiarach, to rozsądne wydaje się założyć, że nowo narodzone dziecko też postrzega świat w trzech wymiarach. Jeden z ciekawszych eksperymentów przeprowadzony został przez żonę Jamesa Gibsona – Eleanor w 1960 r. Polegał on na tym, że półroczne dziecko położono na podłodze, która miała wzór szachownicy. W pewnym momencie zamiast podłogi pojawiała się przepaść, co najmniej na jeden metr albo głębsza. Oczywiście dziecko posiada też inne wskaźniki poprzez ruszanie głową albo przez dwuoczne widzenie, także można założyć, że widzi głębię. Przykrywamy tę przepaść mocną szybą, matka dziecka staje po drugiej stronie przepaści i woła je. Dziecko raczkuje, dochodzi do przepaści, zatrzymuje się, patrzy na matkę i w przepaść, nie pójdzie dalej. Z tego wynika, że dziecko wie, iż to jest przepaść, czyli widzi świat w trzech wymiarach. Następny eksperyment wykonany został przez Michaela Wertheimera, syna Maxa Wertheimera, który zapoczątkował psychologię postaci w 1912 r. Michael był też psychologiem. Przekonywał on żonę, żeby się zgodziła na poród dziecka bez znieczulenia, tak żeby dziecko zaraz po urodzeniu widziało i sły-
Historia. Stan badań nad percepcją wzrokową
243
szało, jeśli rzeczywiście potrafi widzieć i słyszeć. Michael pstryknął z palców koło głowy syna zaraz po jego narodzinach, a dziecko odwróciło głowę w tym kierunku. Także wiadomo, że dziecko ma percepcję przestrzeni i koordynację wzrokowo-słuchową. Alan Slater jest psychologiem, który pracuje w Anglii. Jest znany właśnie z prowadzenia badań związanych z nowo narodzonymi niemowlętami. W 1985 r. ukazał się artykuł w którym referował on wyniki eksperymentu przeprowadzonego na niemowlakach kilka godzin po ich urodzeniu. Badanie niemowląt nie jest proste, bo nie odpowiedzą na nasze pytania, w związku z tym trzeba wymyślić inną metodę. Taką standardową metodą jest habituacja i potem preferential looking. Jeśli pokażę nowy przedmiot niemowlęciu, to będzie się ono przyglądać temu przedmiotowi przez minutę albo dwie, potem się znudzi i zacznie rozglądać dookoła. To jest właśnie habituacja, czyli przyzwyczajenie się do danego przedmiotu. Możemy pokazać dziecku kwadrat, a gdy się znudzi patrzeniem na kwadrat, to obracamy figurę w głębi w ten sposób, że na siatkówce oka tego niemowlęcia nie znajduje się już kwadrat, tylko trapez. Pokazujemy też niemowlęciu normalny trapez, który nie został obrócony w głębi. Jeśli oba przedmioty są jednakowo nowe dla dziecka, to spędzi ono około pół minuty, patrząc się na jeden i kolejne pół minuty, patrząc na drugi. Jeśli natomiast rozpozna, że kwadrat to znajomy przedmiot, to całą minutę będzie się przyglądał temu trapezowi. W rzeczywistości ma miejsce druga sytuacja. Także dziecko kilka godzin po urodzeniu wie, że kwadrat obrócony w głębi to ten sam przedmiot, który nie został obrócony. Wydaje się więc, że percepcja kształtów jest już wówczas obecna, czyli algorytmy do analizy kształtów w trzech wymiarach zdają się występować już kilka godzin po urodzeniu. Powyższe przykłady mogą wskazywać, że uczenie nie ma zbyt dużego wpływu na naszą percepcję. Jednak uczenie okazuje się ważne z innych powodów. Jeśli percepcja wzrokowa jest nabyta, to można ją zmodyfikować, przynajmniej powinno się dać ją zmodyfikować. Oczywiście może wystąpić problem jakiegoś okresu krytycznego, ale było bardzo dużo aktywności w historii percepcji. Weźmy za przykład złudzenie Müller-Lyera. Dwa odcinki mają taka samą długość, ale wydaje się, jakby jeden był dłuższy, a drugi krótszy. Gdyby percepcja wzrokowa podlegała na uczeniu, to złudzenie się zmniejsza, a się nie zmienia. Też znowu nie jest to może koronny argument, który rozwiązałby kwestię: wrodzone czy nabyte, ale wydaje mi się, że to interesujący przykład. Następne z tych kilku podstawowych pytań brzmi: „Jaka jest funkcja percepcji?” Obiekty fizyczne posiadają pewne trwałe własności geometryczne i fizyczne, takie jak: rozmiar, kształt, waga. Także przedmioty wokół nas mają
244
Percepcja wzrokowa obiektów trójwymiarowych
pewne trwałe własności, dane zmysłowe zmieniają się bez przerwy. Jeśli ja patrzę na jakiś przedmiot np. na krzesło i chodzę wokół tego krzesła, to obraz na siatkówce zmienia się. Dzieje się tak dlatego, że kąt widzenia się zmienia. Gdy zmieniam odległość patrzenia, rozmiar na siatkówce też się zmienia. Także dane zmysłowe podlegają ciągłej zmianie w trakcie zmiany warunków obserwacji. My jednak widzimy przedmioty jako te same i to jest to, co określamy jako całość percepcji. Jest to podstawowa funkcja spostrzegania. My widzimy świat takim, jaki jest mimo tego, że dane zmysłowe ciągle się zmieniają. Podstawowym problem badawczym jest jednak wyjaśnienie stałości percepcji. Oczywiście percepcja jest i zawsze była nauką interdyscyplinarną. W historii percepcji do końca XIX wieku nie było wydziałów psychologii. Gdy ktoś chciał zajmować się percepcją, musiał studiować na innym wydziale. Część osób studiowała na wydziale filozoficznym część na medycznym albo fizjologicznym. Thomas Young, który sformułował falową teorię światła, był lekarzem, fizykiem z zamiłowania. Maxwell to fizyk, tak samo Schlesinger. W historii badania percepcji pojawiło się sporo fizyków, lekarzy, filozofów, także zdecydowanie jest to nauka interdyscyplinarna. Oto jeden z moich ulubionych przykładów ilustrujących to, że percepcja bardziej przypomina obiekty niż dane zmysłowe. Są dwa pudełka Sheparda, które wyglądają inaczej. Geometrycznie na ekranie, na kartce papieru dwa równoległoboki są identyczne, ale nie wyglądają identycznie. Jeden jest obrócony o 90o. My mamy algorytm do rekonstrukcji trójwymiarowych kształtów i zaobserwowaliśmy, że jest to ten sam kształt z innego punktu widzenia. Na siatkówce te dwa równoległoboki są identyczne, ale tak nie wyglądają. Funkcja układu wzrokowego to widzieć przestrzeń trójmiarową, nie obraz na siatkówce. Oczywiście dane na siatkówce to jedyne dane, które są odpowiedzialne za naszą percepcje, ale my nie mamy świadomego dostępu do nich. Od razu widzimy przestrzeń trójwymiarową. Rola percepcyjnej reprezentacji to jest jeszcze bardziej filozoficzna kwestia niż poprzednie. Wielu moich kolegów twierdzi, że tak naprawdę zakładanie, że istnieje percepcyjna reprezentacja przedmiotów jest trochę naiwne i niepotrzebne. Przykład: mam urządzenie do przesuwania slajdów, jest to trójwymiarowy przedmiot. Patrzę na niego i większość z nas zakłada, że gdzieś w umyśle mam trójwymiarowy model tego przedmiotu. Dlaczego mam ten model? On jest potrzebny, aby widzieć, jak ten przedmiot wygląda, ale to się wydaje naiwne. Jeśli ja patrzę, mówiąc w cudzysłowie, na moją percepcyjną reprezentację tego przedmiotu, to ciągle patrzę na trójwymiarowy element. To jaka jest różnica w patrzeniu na trójwymiarowy przedmiot i na mentalną reprezentację tego przedmiotu?
Historia. Stan badań nad percepcją wzrokową
245
Mówią, że przy patrzeniu na przedmiot trójwymiarowy, potrzebna jest reakcja. Także to, co mózg powinien robić, to generować reakcję na przedmioty. Ostatnia rzecz, która jest potrzebna, to budowanie trójwymiarowego modelu świata zewnętrznego. Ja się oczywiście z tym nie zgadzam. Wydaje się, że jeśli człowiek ma podejmować, wykonywać jakiekolwiek zadania celowe, to model jest niezbędny. Zachowanie celowe to tak naprawdę pojęcie działania dzisiaj, żeby osiągnąć jakiś cel jutro. To, że tak się dzieje filozofowie wiedzieli od dawna. Arystoteles pisał na ten temat, wprowadzając termin „teleologia”. Zjawisko teleologiczne to takie zjawisko, w którym przyszłość ma wpływ na teraźniejszość. Zjawiska celowe właśnie tak wyglądają, bo jeśli podejmuję działanie dzisiaj i decyduję, jak to działanie ma wyglądać, żeby osiągnąć cel jutro, to mam do czynienia ze zjawiskiem teleologicznym. Jutro determinuje dzisiaj. W przyrodzie takich zjawisk nie ma. Fizycy twierdzą, że to niemożliwe. W związku z tym jedyną metodą, żeby obejść problem czasu, kolejności – dzisiaj może być zdeterminowane przez wczoraj, a nie przez jutro – jest użycie modelu dlatego, że nie ma możliwości, aby jutro wpływało na dzisiaj. Ale nie ma powodu, żeby model jutra nie wpłynął na moje zachowanie dzisiaj. Jeśli ja mam możliwość przewidywania zjawisk, to wiem, że po rzuceniu przedmiot spadnie na ziemię, ponieważ sprawdzałem to wiele razy w życiu. Wiem, że tak będzie, choć może się w pewnym momencie zdarzyć, że puszczę przedmiot i on nie spadnie, na przykład, gdy będę w kosmosie. Ale nasza wiedza o świecie jest na tyle dobra i skuteczna, że z dużym prawdopodobieństwem jesteśmy w stanie przewidzieć, co się stanie, jeśli podejmiemy działanie takie albo inne. W związku z tym nie ma nic złego w przyjęciu, że działanie dzisiaj może być sterowane przez model jutra, ale w takiej sytuacji musimy mieć ten model. Także trójwymiarowa percepcyjna reprezentacja świata wydaje się wprost niezbędna. Inaczej śmiem twierdzić, że nie byłoby zachowań celowych. Niewiele będzie dzisiaj mówione na temat mózgu. Nie znaczy to, że mózg jest nieważny. Wszystkie zjawiska psychiczne wiążą się z funkcjonowaniem mózgu. Badanie mózgu oczywiście ma rolę unikalną. Natomiast problem będzie zawsze trudny: ustalenie zależności między zjawiskami psychicznymi a zjawiskami mózgu, tak zwanymi mind-body problem. Nie jest łatwo wnioskować o tym, co robi mózg, mierząc odpowiedzi osoby badanej. Trudno ocenić, co osoba widzi, wkładając elektrody do mózgu albo mierząc potencjały wywołane. Wyobraźmy sobie, że moglibyśmy otworzyć mózg osoby badanej i włożyć elektrody. W który neuron trzeba by włożyć elektrodę i co mierzyć, żeby dowiedzieć się, że kolor, który widzi ta osoba, jest zielony? Tak naprawdę nie wiadomo, czy coś takiego jest w ogóle możliwe.
246
Percepcja wzrokowa obiektów trójwymiarowych
W czym tkwi podstawowy problem percepcji wzrokowej? Obraz na siatkówce oka jest dwuwymiarowy. Często będę używał tego symbolu „2D” – dwuwymiarowy. Percepcyjna reprezentacja świata jest trójwymiarowa. My widzimy świat w trzech wymiarach. Więc pojawia się pytanie: jak głębia jest rekonstruowana? Ten problem był oczywiście podnoszony w historii m.in. w książce George’a Berkeleya napisanej w 1709 r. Berkeley twierdził, że układ wzrokowy nigdy nie będzie w stanie zrekonstruować trzeciego wymiaru. Trzeci wymiar może być tylko zrekonstruowany przez układ ruchowy i dotykowy. Czyli jeśli ja patrzę na krzesła w pierwszym rzędzie, widzę, że one znajdują się kilka metrów ode mnie. Wiem o tym, gdyż wiele razy w życiu, kiedy patrzyłem na przedmiot w tej samej odległości, wykonałem kilka kroków i dotknąłem tego przedmiotu, także zmierzyłem odległość krokami, potem dotknąłem. Teraz nie muszę chodzić do tych przedmiotów, bo wystarczy zmierzyć natężenie mięśni w gałkach ocznych. Jak patrzę na to krzesło, kąt między moimi oczami wynosi przypuszczalnie 1o lub 2o. Jeśli układ oko-ruchowy może zmierzyć ten kąt, to wtedy sobie przypominam, ile to kroków i widzę głębię, ponieważ jest w moim umyśle korelacja między napięciem mięśni w oku a ilością kroków. I to jedyny sposób według Berkeleya, w który możemy widzieć głębię. Podam przykład, który ilustruje, że problem Berkeleya niekoniecznie musi być bardzo trudny i wydawać się niemożliwy. Tutaj pokazuję państwu trzynaście punktów. Są to punkty umieszczone na powierzchni trójwymiarowego przedmiotu. Patrząc na te punkty, nie widzimy żadnych trzech wymiarów. I to Berkeley miał na myśli. Widzimy trzynaście punktów na siatkówce i zrekonstruowanie głębi każdego z tych punktów okazuje się problemem. Potrzeba dużo więcej informacji, żeby widzieć, jaka jest głębia tych przedmiotów. Tak naprawdę w przypadku układu wzrokowego, mając N punktów na siatkówce pojawia się problem z n niewiadomymi dla każdego punktu, a choć mamy jego współrzędne X i Y. Na siatce nie mamy współrzędnej Z. Teraz połączę te punkty z odcinkami i zobaczymy, jak zmieni się percepcja. Teraz widzimy przedmiot trójwymiarowy, wygląda to jak wielościan, który jest symetryczny. Problem widzenia w trzech wymiarach jest być może prostszy niż się wydawało Berkeleyowi. Okazuje się prostszy, jeśli mamy do czynienia z percepcją kształtów. Dopóki rozmawiamy o percepcji głębi pojedynczych punktów, to problem wydaje się bardzo trudny. Układ wzrokowy nie jest w stanie rozwiązać go zbyt dobrze. Istnieje wiele badań naukowych wskazujących na symetryczne błędy w ocenie głębi pojedynczych punktów, niezależnie od tego, ile występuje wskaźników głębi. Natomiast, jeśli znajduje się przed nami przedmiot trójwymiarowy, to nie ma problemu z widzeniem tego kształtu jako trój-
Historia. Stan badań nad percepcją wzrokową
247
wymiarowego. Łatwiej jest postrzegać cały kształt niż pojedyncze punkty. Wygląda to paradoksalnie, dlatego że kształt składa się z wielu punktów. Według Berkeleya spostrzeganie kształtu powinno być N razy trudniejsze niż spostrzeganie pojedynczego punktu, a tak nie jest. Czyli suma całości nie jest sumą składników, co psychologowie postaci zawsze podkreślali. Mając ten przykład na uwadze, możemy zapytać, która nauka powinna być wzorem dla badania percepcji kształtu. Wydaje się oczywiste, że psychologia będzie prawdziwą nauką, gdy się upodobni do fizyki, dlatego że fizyka to nauka ugruntowana w znakomitych teoriach i doświadczeniach. Istnieje też pogląd, że może nauki techniczne powinny być wzorem dla psychologii. Ja bym właśnie podpisał się pod tym drugim stwierdzeniem. Jestem inżynierem z wykształcenia, ale tak naprawdę większość pytań w psychologii bardziej przypomina pytania inżynierów niż pytania fizyków. W fizyce nie ma pojęcia funkcji. Jak fizycy mierzą efekt fotoelektryczny? Mierzą, jak masa rośnie z szybkością cząsteczki. Cząsteczki w fizyce nie mają żadnej funkcji, wystarczy mierzenie sił pozycji i to wszystko. Natomiast w psychologii prawie zawsze zaczynamy od zapytania na temat funkcji danej czynności psychicznej. Tak samo jest w inżynierii. Nikt by nie zaczął wykładu na temat konstrukcji samolotu bez wspomnienia, do czego służy samolot. Tak naprawdę niemożliwe byłoby wytłumaczenie strony technicznej samolotu bez przypomnienia jego funkcjiNauki inżynierskie nie są mniej wartościowe niż nauki fizyczne. Jednak pojawia się coś w inżynierii, czego nie ma w fizyce. Co jest takiego szczególnego w kształcie? Nie ma powszechnie przyjętej definicji kształtu. Przyjęcie takiej definicji ułatwiłoby badania. Kształt na pewno jest cechą abstrakcyjną. Nie można go dotknąć. Można dotknąć powierzchnię przedmiotu, zważyć go, opisać teksturę powierzchni. Kształt jest cechą abstrakcyjną. Można by nawet powiedzieć, że kształt bywa oddalony od przedmiotu fizycznego. Ten stół ma określony kształt. Powszechnie przyjmuje się, że jak zmierzymy wszystkie kąty i proporcje odcinków w przedmiocie, to wiemy, jak kształt wygląda. Czyli, jeśli opiszemy przedmiot w terminach geometrii euklidesowej, to wtedy mamy do czynienia z kształtem. Gdy urwę nogę od stołu, to wtedy stół zmieni kształt, dlatego że urwanie nogi to już przekształcenie, które nie jest przekształceniem euklidesowym ani topologicznym, bo przedmiot był w jednym kawałku, teraz jest w dwóch. Jeśli wezmę wiertło, niedużej średnicy i wywiercę dziurę w blacie tego stołu, to zmienię topologię tego stołu. Stół nie miał dziury, a teraz ma dziurę, ale wszyscy by się zgodzili, że to ten sam stół. Także jest coś nieuchwytnego w kształcie. Potrafimy zmienić w jednym przypadku topologię przedmiotu i kształt się zmienia, a w innym ta zmiana
248
Percepcja wzrokowa obiektów trójwymiarowych
kształtu nie zachodzi. Kształt przenosi bardzo dużą ilość informacji. Zaryzykowałbym twierdzenie, że daje nam najwięcej informacji o przedmiocie. Używamy kształtu do rozpoznawania przedmiotów, określania ich funkcji. Także z jednej strony kształt zdaje się być bardzo abstrakcyjny, z drugiej strony jest bliższy przedmiotowi niż jakakolwiek cecha fizyczna. Wydaje mi się, że właśnie jedna z pierwszych dyskusji na ten temat toczyła się już za czasów Platona – rozróżnienie formy i materii. Percepcja kształtu trójwymiarowego obiektu jest stała niezależnie od zmian kształtu na siatkówce oka. Kształt na siatkówce oka się zmienia podczas zmian kierunku, z którego patrzymy na ten obiekt. Gdy popatrzymy na dwa zdjęcia sceny trójwymiarowej: stół, na którym stoją czajniczek do herbaty, książka, jabłka. zdjęcia zostały zrobione z dwóch kątów widzenia, różniących się o 45o. Nikt nie ma najmniejszego problemu rozpoznać, że jest to ta sama scena. Czyli mamy do czynienia z wiernością, realizmem percepcji wzrokowej po angielsku określamy to veridicality, czasami mówimy shape constancy – te dwa określenia znaczą prawie to samo, ale stosujemy je może trochę w innych kontekstach. Veridicality odnosi się do tego, że widzimy przedmioty takimi, jakie są. Constant podkreśla fakt, że nasza percepcja kształtu nie zmienia się podczas obracania przedmiotu i oczywiście istnieje wiele stałości percepcji: stałość percepcji wagi, rozmiaru, koloru itd. Także stałość percepcji kształtu należy do dużej rodziny stałości, wszystkie są definiowane w ten sam sposób. Percepcja cechy X jest stała, mimo zmiany warunków w percepcji, które powodują przekształcenie obrazu X na siatkówce oka. Czy wszystkie stałości percepcyjne są realizowane w ten sam sposób? Wszystkie stałości percepcji realizowane są poprzez uwzględnienie kontekstu. Funkcjonuje takie słynne określenie w języku angielskim: taking context into account. Kontekst okazuje się niezbędny, ponieważ obraz na siatkówce jest zawsze wieloznaczny. Jeśli patrzę na ten przedmiot z tej odległości, to mój obraz na siatkówce ma jakiś rozmiar, gdy zbliżę obraz dwa razy – obraz na siatkówce jest dwa razy większy. Jedyna metoda, żeby ocenić prawdziwy rozmiar tego przedmiotu to określenie odległości fizycznej tego przedmiotu od oka. Wtedy rozwiązujemy problem trygonometrii. Wydaje się, że tak samo dzieje się we wszystkich stałościach percepcji. Jakaś informacja jest zgubna przy formowaniu obrazu na siatkówce i trzeba ją zrekonstruować. Kształt różni się od wszystkich innych cech tym, że jest złożony, wielowymiarowy. Ta wielowymiarowość pozwala na widzenie kształtu bez uwzględnienia kontekstu. Istnieje możliwość widzenia kształtu poprawnie bez żadnej informacji kontekstowej.
Historia. Stan badań nad percepcją wzrokową
249
Co rozumiem przez wielowymiarowość? Weźmy pod uwagę sylwetkę człowieka naszkicowaną przez Leonardo da Vinci, wpisaną w okrąg. Ile punktów okręgu musiał przesunąć Leonardo, żeby stworzyć sylwetkę mężczyzny, jeśli obie krzywe są ciągłe, tych punktów okazuje się nieskończenie wiele. Czyli kształt jest cechą nieskończenie wielowymiarową, kolor to cecha trójwymiarowa. Większość cech percepcyjnych jest charakteryzowanych przez jeden, dwa, trzy wymiary. Kształt jest nieskończenie wielowymiarowy. Co to znaczy z punktu widzenia geometrii? Gdybyśmy chcieli przedstawić kształt jako punkt w przestrzeni, to ilość wymiarów musiałaby być nieskończona. Receptorów na siatkówce nie jest nieskończenie wiele już z samego faktu ograniczonej rozdzielczości wzroku. Nie musimy się tak naprawdę martwić tą nieskończoną ilością wymiarów. Wiemy jak matematycznie się zajmować nieskończonością, ale lepiej, gdy nie musimy tego robić. Łatwo jest obliczyć, że jeśli patrzy się w środek okręgu ilość receptorów na siatkówce, która analizuje obwód tego okręgu, wynosi około 400 punktów, czyli na naszej siatkówce albo we wczesnych etapach układu wzrokowego prawie każda krzywa zamknięta jest reprezentowana przez 400 receptorów, czasami trochę więcej, czasami mniej. To nie zależy od odległości, wiemy, że gęstość czopków na siatkówce nie jest równomierna, ale spada jako funkcja hiperboliczna w kierunku peryferii. Interesujące jest to, że jeśli teraz ktoś zmniejszyłby odległość powiedzmy pięciokrotnie albo dziesięciokrotnie i ciągle patrzyłby w środek tego okręgu, będzie on dziesięć razy większy. Nadal jednak na siatkówce 400 czopków zanalizuje informacje o tym okręgu. Wymiarowość kształtu nie zależy więc od rozmiaru obrazu na siatkówce. To dość interesująca obserwacja. Ale nawet, jeśli istnieje 400 receptorów, to ciągle przestrzeń jest cechą wielowymiarową. Co to znaczy? Jeśli teraz ja podszedłbym do ekranu i popatrzył na ten ekran z ukosa, to na mojej siatkówce nie byłby okręgu, tylko elipsa. Na mojej siatkówce nie występowałby już symetryczny obraz człowieka, tylko skończony obraz, tak by z uwagi na zniekształcenie perspektywiczne, ale niezależnie od kąta patrzenia nigdy obraz człowieka nie był elipsą. To łatwo zauważyć, dlatego że, jeśli weźmiemy płaszczyznę i zaczniemy zmieniać kąt płaszczyzny względem patrzenia, to perspektywiczna projekcja ma tylko 2o swobody, czyli kształt okręgu na siatkówce może się zmienić tylko o te 2o swobody. To główny powód, dla którego jest dużo łatwiej widzieć kształty takimi, jakie są w porównaniu z widzeniem kolorów czy rozmiarów przedmiotu. I oczywiście taka sama sytuacja występuje w przypadku przedmiotów trójwymiarowych. Niezależnie od tego, jak zmienimy kąt widzenia względem czajnika czy
250
Percepcja wzrokowa obiektów trójwymiarowych
książki, czajnik nigdy nie da takiego obrazu na siatkówce, jak książka. Także tak naprawdę nie istnieje problem wieloznaczności w kształcie. Układ wzrokowy nie musi się bardzo silić, żeby rozróżnić przedmioty, ich kształty, podczas gdy musi się zmagać z rozróżnianiem fizycznych rozmiarów, kolorów. Rozróżnić kolory dwóch powierzchni to bardzo trudny problem obliczeniowy i do tej pory nie wiemy, jak to zrobić. Ludzie, którzy zajmują się robotami i komputerowym widzeniem, do tej pory nie wiedzą, jak skonstruować system, który będzie w stanie rozróżnić kolory, niezależnie od rodzaju światła. W kształcie wydaje się, że rozróżnianie nie jest problemem. Problem stanowi zrekonstruowanie trójwymiarowego przedmiotu z jednego obrazu. Oczywiście zakładamy, że kształty posiadają pewne cechy regularności. W tym znaczeniu, że kształty przedmiotów nie są losowym zlepkiem punktów, np. przedmioty z reguły bywają ciągłe w przestrzeni. Przedmiot z reguły znajduje się w jednym kawałku. Powierzchnia przedmiotu jest przynajmniej częściowo ciągła. Także te dwie cechy: wielowymiarowość i regularność wystarczą na końcu do wytłumaczenia percepcji wzrokowej kształtu. Zacznijmy jednak od początku. Pierwsza książka, w której można znaleźć dość systematyczny przegląd percepcji wzrokowej napisana została przez Alhazena i wydana w 1083 r. To był uczony arabski, który przetłumaczył większość dzieł greckich filozofów i matematyków oraz dołożył sporo od siebie, choć trudno powiedzieć, jak dużo, gdyż nie wprowadził rozróżnienia na to, co zrobił on, a co ktoś inny. Jest zadziwiające, ile było wiadomo w czasach Alhazena w roku 1083. Alhazen omawia problem percepcji kształtu, koloru. Alhazen poczynił wiele obserwacji, które my ciągle teraz wykorzystujemy i ta książka miała duży wpływ tak naprawdę na przebudzenie Europy z czasów średniowiecznych w XI i XII wieku. W XIII wieku przetłumaczono ją na język łaciński. Jednym z tłumaczy był Witelon – uczony ze Śląska. Ojciec Polak, matka Niemka, ale mieszkał w Polsce. Był bardzo wpływowym uczonym. Tłumaczenie Witelona to jedno z trzech tłumaczeń Alhazena na łacinę w tym czasie. Co najmniej w połowie uniwersytetów europejskich przez kilkaset lat, gdy ktoś chciał zrobić doktorat z matematyki, to robił doktorat w oparciu o książkę Witelona. Ja się o Witelonie dowiedziałem dopiero, gdy przyjechałem do Ameryki. On był chyba pierwszym wielkim uczonym na ziemiach polskich. I już wtedy rozważano problem stałości kształtu i podstawowe założenie, które już Alhazen przyjmował, było właśnie takie, że percepcja kształtu jest rekonstruowana z percepcji głębi. Jeśli mamy jakiś kształt AB, to mógłby być nawet okrąg widziany z boku, jeśli ten kształt jest obrócony w głąb, ma pewien kąt, który z reguły określa się jako nachylenie (slant). Jeśli ten kształt
Historia. Stan badań nad percepcją wzrokową
251
jest obrócony o kąt sigma, to na siatkówce mamy wysokość tego okręgu. Jeśli obrócimy okrąg na siatkówce, będzie elipsa. Żeby widzieć, że to jest okrąg, a nie elipsa, obserwator musi wiedzieć, jaki jest kąt sigma. Jak już znamy kąt sigma, rozwiązujemy równanie trygonometryczne. Jeśli podzielimy to na siatkówce przez cosinus sigma to otrzymamy to, co jest w trójwymiarowej przestrzeni. Informacja wzrokowa jest niewystarczająca w tym przypadku do tego, żeby stwierdzić, która z tych dwóch elips została przedstawiona obserwatorowi. Także jedyną rzeczą, którą można wziąć pod uwagę i uwzględnić to nachylenie i ta teoria była przyjęta praktycznie uniwersalnie przez całe tysiąc lat, począwszy od Alhezena. Chciałbym zwrócić uwagę na kontrasty między wymiarowością kształtu przedmiotów w naszym otoczeniu a jednowymiarowością elipsy. Elipsa ma jeden wymiar. Proporcja to jedyna cecha kształtu elipsy, więcej nie jest potrzebne. Jak mi ktoś poda proporcję elipsy, to wiem, jak ona wygląda. Potem po Alhazenie trochę czasu minęło zanim filozofowie i inni uczeni podjęli dyskusję na temat percepcji wzrokowej. Kartezjusz był jednym z bardziej wpływowych. Zakładał, że wiele funkcji percepcyjnych jest wrodzonych. Według Kartezjusza układ wzrokowy to wrodzony albo naturalny geometra. Tutaj zostało to zilustrowane na przykładzie rozwiązania problemu tego, jak obraz został obrócony na siatkówce. Wiele osób, włącznie z Berkeleyem uważało, że jest to pseudo problem, ale wielu filozofów starało się z nim zmagać. Widzimy świat takim, jaki jest, podczas gdy obraz na siatkówce widać do góry nogami. Kartezjusz mówił, że jeśli popatrzy się na to, jak jest formowany obraz na siatkówce, to widać, że wszystkie linie światła przecinają się w środku soczewki i oczywiście obraz wzrokowy musi być obrócony, ale to nie problem, dlatego że można to łatwo porównać do problemu, z którym musi się zmagać osoba niewidoma, jak używa dwóch patyków do zorientowania się, co się dzieje naokoło. Jeśli ta osoba skrzyżuje te dwa patyki i dotknie przedmiotu, to wie, że prawa ręka dotyka lewej części przedmiotu, a lewa – prawej, dlatego że wie, iż ręce są skrzyżowane. W związku z tym, jeśli układ wzrokowy ma zakodowane od urodzenia, że promienie świetlne są skrzyżowane w środku soczewki, to nie stanowi żadnego problemu rozwiązanie widzenia świata takim, jakim jest. Kartezjusz oczywiście miał o wiele więcej pomysłów i duży wpływ na rozwój filozofii oraz percepcji. Potem mamy Johna Locke’a i jego słynne pojęcie tabula rasa, czyli „niezapisana tablica”. Locke był empirystą, zakładał, że w momencie, gdy się człowiek rodzi, nie ma nic w umyśle, wszystkiego musi się nauczyć. Locke tak naprawdę zapożyczył pewne stwierdzenia już nawet od Arystotelesa. Molyneux był naukowcem, ale zajmował się percepcją, napisał
252
Percepcja wzrokowa obiektów trójwymiarowych
list do Locke’a już po wydaniu książki Locke’a i przedstawił mu problem, który teraz nazywa się problemem Molyneuxa. Załóżmy, że jest osoba niewidoma od urodzenia i nagle ten w późnym wieku na skutek zabiegu odzyskuje wzrok. Już w starożytności istnieją dane, że coś takiego robiono, gdy ktoś się urodził z zaćmą, nie widział przez kilkadziesiąt lat, przez przekucie rogówki nagle odzyskiwał wzrok. Pytanie: czy ta osoba będzie w stanie odróżnić kulę od sześcianu za pomocą wzroku, jeśli do tej pory w życiu robił to za pomocą dotyku? Molyneux twierdził, że odpowiedź brzmi: „nie” i Locke się pod tym podpisał w drugim wydaniu książki. Później mamy Berkeleya z jego empiryzmem i rolą aktów motorycznych. Berkeley był przekonany, że nie można ufać zmysłom, w szczególności wzrokowi, ponieważ wzrok nigdy nie będzie w stanie wiernie odzwierciedlić rzeczywistości. Podaje przykład. Patrzymy na obraz i widzimy na nim dwie osoby, ale tam nie ma dwóch osób, jest jeden ciągły przedmiot, czyli powierzchnia obrazu. O tym, że jest to jeden ciągły przedmiot, dowiemy się dopiero wtedy, gdy przesuniemy palcem po obrazie. Układ wzrokowy daje nam fałszywą informację, bo widzimy kilka przedmiotów, a tam znajduje się tylko jedno płótno. Według mnie jedną z bardziej interesujących osób w historii percepcji był Tomasz Reid. Założył szkocką szkołę filozofii zdrowego rozsądku. Reid zasługuje na więcej uwagi niż do tej pory mu poświęcano. Sformułował pojęcie zdrowego rozsądku, ale potem kładł nacisk na to, że percepcja jest realistyczna. Pytał: dlaczego filozof, który nie ufa zmysłom, nigdy nie wszedłby w ogień tylko dlatego, że nie ufa zmysłom? Reid głosił swoje poglądy przed Kantem, który twierdził, że pojęcie czasu i przestrzeni jest wrodzone. Mówi się, że Kant zaczerpnął swe teorie od Reida. Związek jest prawie oczywisty. Reid opisał geometrię nie euklidesową, tylko sferyczną. Potem mamy Helmholtza z jego empirycyzmem, który też dyskutował na temat problemu Molyneuxa. Wprowadził pojęcie „nieuświadomionej percepcji”, które okazało się bardzo wpływowe w historii percepcji, był za to krytykowany. Helmholtz stwierdził, że percepcyjna prezentacja przedmiotów trójwymiarowych składa się z dwuwymiarowych obrazów. Dość klarownie pisał na ten temat, także teorie, które mamy w tym momencie, prawie wprost zostały zaczerpnięte od Helmholtza. Pierwszy eksperyment, który jest cytowany szeroko w historii psychologii eksperymentalnej to eksperyment Thoulessa z 1931 r. Dwa artykuły powstały w tym samym roku. Używał elips i trójkątów do badania stałości percepcji kształtu. Redukował ilość wskaźników głębi, sprawdzając, jaki to ma wpływ na percepcję kształtu. Jednym z jego podstawowych eksperymentów przebiegał następująco. Położył okrąg na stole i kazał osobie badanej narysować to, co
Historia. Stan badań nad percepcją wzrokową
253
widzi. Na siatkówce jest elipsa. Osoba miała za zadanie narysować taki okrąg, jaki leży na stole. No i przy widzeniu dwuocznym ten okrąg nie wyglądał tak źle, nie był to okrąg, ale elipsa zbliżona kształtem do okręgu na siatkówce. Przy widzeniu jednoocznym ta elipsa miała jeszcze mniejsze proporcje. Thouless przeprowadził eksperyment, wykorzystując elipsę. Elipsa umieszczona była w ciemnej skrzynce, w której znajdował się jeden otwór. Osoba badana patrzyła jednym okiem przez ten otwór. Elipsa została pomalowana farbą fluorescencyjną. Także patrząc jednym okiem, nie było nic widać w tej skrzynce, tylko ten obrócony okrąg. Osoba poproszona o narysowanie tego, co widzi narysowała elipsę identyczną w stosunku do elipsy na siatkówce oka. Także Thouless stwierdził, że gdy odbierzemy wszystkie wskaźniki głębi, to stałość percepcji kształtu zostaje zlikwidowana całkowicie. Osoba badana widzi to, co jest na siatkówce oka. Ten wynik był cytowany przez wiele lat jako podstawowy wynik dotyczący stałości percepcji kształtu. Stałość percepcji kształtu opiera się na wskaźnikach głębi, jak je zabierzemy, stałość kształtu znika. I to jest ten wynik, daje się powtórzyć, gdy używa się elipsy albo trójkątów. Istnieje twierdzenie w geometrii rzutowej, że dwa trójkąty mogą spowodować zawsze ten sam obraz na siatkówce. W związku z tym rzeczywiście osoba badana nie miała innej możliwości, tylko wybrać wskaźniki głębi do rozwiązania problemu. Ten wynik Thoulessa nie odnosi się żadnych innych kształtów, teraz to już wiemy. Stavrianos starał się powtórzyć eksperyment Thoulessa, używając prostokątów, i wynik był zupełnie inny. Redukując wskaźniki głębi, jak zapytamy osoby badanej: jakie jest nachylenie (slant) tej powierzchni, na której leży prostokąt, to ocena nachylenia zależy od ilości wskaźników głębi. Natomiast ocena kształtu prostokąta nie zależy od tego. Także to był pierwszy rezultat, który wskazywał na ograniczenia wyników Thoulessa Niestety ta praca tak na prawdę została zignorowana. Jest wiele artykułów w których opisywano eksperymenty, które tak naprawdę powtarzały eksperyment Thoulessa z trójkątami i z elipsami. Teraz już wiemy, że aby móc tak naprawdę rozmawiać na temat kształtu coś musimy wiedzieć o geometrii. Bo obraz na siatkówce jest rezultatem rzutowania projekcyjnego, więc musimy się przyjrzeć temu, jakie są zależności między obrazem na siatkówce a przedmiotem. Czyli środek rzutu będzie środkiem projekcji percepcyjnej, który znajduje się gdzieś w środku soczewki w oku. Przybliżmy historię badań nad perspektywą wśród malarzy i architektów. Uważa się, że pierwszym, który formalnie opisał reguły projekcji perspektywicznej był Filippo Brunelleschi, na początku XV wieku. W XIV wieku na obrazach prawie nie było śladu perspektywy. W XV wieku pojawiła się eksplozja,
254
Percepcja wzrokowa obiektów trójwymiarowych
wszyscy malowali obrazy w projekcji perspektywicznej. Leon Battista Alberti zaraz po Brunelleschi spisał te reguły i opublikował książkę na ten temat. Także częściej używamy nazwiska Alberti niż Brunelleschi, ale to ten drugi jako pierwszy opisał wspomniane reguły. Później oczywiście należy wymienić Leonardo da Vinci. Leonardo starał się wytłumaczyć zjawiska dotyczące percepcji wzrokowej i geometrii. Przykładem jest jego słynny rysunek człowieka wpisanego w okrąg. „Ostatnia wieczerza” to także wspaniały przykład zastosowania projekcji perspektywicznej. Jako następnego należy wymienić Albrechta Dürera – niemieckiego artystę, który bardzo dużo pisał na temat perspektywy i który zajmował się konstruowaniem przedmiotów. Jeśli ktoś chce namalować obraz zgodnie z regułami perspektywy, jak to zrobić? Jedna z metod, którą polecał Dürer polegała na użyciu kawałka sznurka. Ten, który pomaga rysującemu, po lewej stronie trzyma koniec sznurka na kolejnych punktach przedmiotu. Rysujący zaznacza pozycję tego sznurka. Mają dwa sznurki: pionowy i poziomy, także przesuwa jakby współrzędne. Potem zamyka tutaj jest obraz na którym maluje i zaznacza ten punkt. Leonardo nigdy nie był specjalnie zachwycony takimi metodami. Podejrzewał, że coś może pójść nie tak, gdy się rozkłada przestrzeń, która jest ciągła, na pojedyncze punkty. Oczywiście miał racje. Nie wiem, czy znane mu były błędy Dürera. Jeden z klasycznych błędów Dürera polegał na tym, że artysta próbował przedstawić ciągłą elipsę za pomocą punktów i wyszło mu, że obraz perspektywiczny okręgu ma kształt jaja, a nie elipsy. To jajo okazuje się z jednej strony grubsze niż z drugiej i tak na pierwszy rzut oka wydaje się, że to może być prawda. Jak patrzymy na talerz pod kątem, to wydaje się, że na oku pod perspektywą ten dół talerza będzie jakby grubszy niż góra talerza. Otóż my wiemy, że tak nie jest. Obraz perspektywiczny okręgu jest zawsze elipsą. To wiadomo już od czasów starożytnych Greków. Istnieją tylko cztery krzywe stożkowe: parabola, hiperbola, okrąg i elipsa. Gdyby Dürer miał rację co do jaja, to poprawiłby Greków z wprowadzeniem piątej krzywej stożkowej. Także dobrze jest znać historię, żeby nie popełnić prostego błędu. Tak naprawdę, gdy Thouless rysował obraz perspektywiczny okręgu, to powtórzył błąd Dürera. Następnie mamy takie osoby, jak Egnatio Danti. Potem pojawiło się interesujące pojęcie: vanishing point – znikający punkt. Jeśli rysujemy prostokąt na obrazie i mamy środek perspektywy, to widać, że boki tego prostokąta, jeśli je się przedłuży, to się przetną w tym punkcie, także obraz perspektywiczny prostokąta będzie trapezem. De Vries narysował szereg rysunków architektonicznych. Szczególnie interesował się zniekształceniami.
Historia. Stan badań nad percepcją wzrokową
255
Kwestia polegała na tym, że mamy poprawny rysunek architektoniczny budynku, w którym wszystkie kąty są proste, ale jeśli popatrzymy na rysunek ze złego punktu widzenia, nie z tego, którego używał artysta, to wtedy nasza percepcja może być zniekształcona. Istnieje szereg takich przykładów. Tylko kula w środku daje okrąg na obrazie perspektywicznym, wszystkie inne kule dają elipsy. Wiedzieli o tym artyści: Rafael Santi i Leonardo da Vinci. Żeby narysować kulę prawidłowo, zgodnie z regułami perspektywy, to musiałaby wyglądać jak elipsa.. Natomiast patrząc na elipsę na obrazie, nigdy nie widzimy kuli. Na obrazie Rafaela „Szkoła Ateńska” po poprawnej stronie są dwie kule, ponieważ znajdują się one w peryferii obrazu, to powinny być elipsy. Rafael też przestrzegał perspektywy, ale nie zawsze. Jeśli dochodziło o kule, praktycznie żaden artysta nie rysował elipsy na obrazie, dlatego że ona nie wyglądała dobrze. Wyglądałaby dobrze, gdyby patrzący na obraz ustawił oko dokładnie w punkcie, który był środkiem perspektywy przy malowaniu obrazu, ale ponieważ nie mamy wpływu na to, pod jakim kątem będzie osoba patrzyła na obraz, to lepiej malować okrąg. Leonardo nigdy nie malował kul na obrazie, nie chciał zajmować się tą kwestią. Leonardo zmagał się z kilkoma problemami, jeden to ten wspomniany powyżej, drugim było widzenie dwuoczne. Leonardo wiedział, że aby obraz wyglądał dobrze, to trzeba patrzeć jednym okiem. Oko powinno być w miejscu, w którym znajduje się środek perspektywy. Jak otworzymy dwoje oczu, to już efekt nie jest taki, jaki chcielibyśmy uzyskać. Leonardo uważał, że dwuoczne widzenie niczemu nie służy, że tak naprawdę nie pomaga nam w niczym. Obraz przedmiotu trójwymiarowego na siatkówce jest zawsze zgodny dokładnie z perspektywą. Natomiast, jak patrzymy pod kątem na obraz perspektywiczny, obraz na siatkówce to złożenie dwóch perspektyw, przekształcenie projekcji. Mówi się w tym przypadku o geometrii rzutowej i my tak naprawdę nie jesteśmy przystosowani do rozwiązywania problemów kształtu geometrii rzutowej. Nasz układ wzrokowy wie, jak sobie radzić z perspektywą, ale nie wie, jak z geometrią rzutową. Te przykłady, dotyczą przekształcenia płaszczyzny, bo to najprościej pokazać. Najbardziej szczegółową geometrią jest geometria euklidesowa, która zawiera rotacje i translacje. Jeśli przesunę krzesło po podłodze, to jest to przekształcenie euklidesowe. Mamy jeszcze geometrię afiniczną i rzutową. I teraz je krótko opiszę. Z geometrią euklidesową mamy do czynienia, gdy figurę, np. prostokąt, obrócimy lub przesuniemy. Dwa punkty wystarczą do zdefiniowania. Odległość się nie zmienia. Następne przekształcenie to podobieństwo. Jeśli pozwolimy na zmianę skali, czyli otrzymamy mały sześcian i duży sześcian,
256
Percepcja wzrokowa obiektów trójwymiarowych
mały prostokąt i duży prostokąt. To są te same figury, w tym samym przekształceniu, jeśli tylko kąty i proporcje odcinków się zgadzają. Kąt i proporcje odcinków to niezmienniki. Odległość już nie jest niezmiennikiem. Kształt jest niezmiennikiem. Jeśli weźmiemy płaszczyznę i ją rozciągniemy w ten sam sposób wszędzie, czyli np. z prostokąta zrobimy równoległobok, to mamy do czynienia z przekształceniem afinicznym, które jest przekształceniem liniowym. Trzy punkty na płaszczyźnie są potrzebne do zdefiniowania. Proporcja odcinków już nie jest niezmiennikiem. Proporcja puli jest niezmiennikiem, czyli jeśli weźmiemy dwa pola dwóch figur, to proporcja będzie niezmiennikiem. Geometria rzutowa – prostokąt może być przekształcony na dowolny czworobok i tutaj już jedynym niezmiennikiem jest dwustosunek czterech punktów na prostej albo inaczej zwany dwustosunek czterech powierzchni. Jeśli chcielibyśmy zdefiniować kształt pięcioboku, to liczymy dwa dwustosunki i te dwa dwustosunki, które są tu policzone dla tych trzech figur. Jednoznacznie określają kształt każdego pięcioboku w geometrii rzutowej. Tu należy wymienić twierdzenie Desarguesa. Interesujące z historycznego punktu widzenia wydaje się to, że podczas gdy perspektywa była znana artystom już na początku XV wieku, matematykom zajęło 250 lat, żeby poruszyć te kwestię. I co więcej, gdy Desargues udowodnił parę twierdzeń, to potem wszyscy o tym zapomnieli na następne 200 lat. Następnie pojawił się Jean-Victor Poncelet, francuski matematyk, którego uznaje się za twórcę geometrii rzutowej. Służył w armii napoleońskiej. Został wzięty do niewoli w 1812 r. Przebywał w więzieniu rosyjskim przez dwa lata. Ponieważ nie miał nic lepszego do roboty, zajmował się geometrią rzutową. Gdy wrócił z więzienia do Francji, to opublikował książkę w 1822 r. Przypomniał wszystkie wyniki Desarguesa i dołożył wiele swoich teorii. Geometria rzutowa tak naprawdę nie nadaje się dla nas dlatego, że jest zawsze przekształceniem jeden na jeden. Możemy przekształcić prostą na prostą, płaszczyznę na płaszczyznę, przestrzeń trójwymiarową na przestrzeń trójwymiarową. Ale w badaniu wzroku, percepcji jesteśmy głównie zainteresowani przekształceniem przestrzeni trójwymiarowej na przestrzeń dwuwymiarową. Geometria nie zna takiego przekształcenia. Nic się nie da udowodnić. Gdy weźmiemy punkt z trójwymiarowej przestrzeni, to jeśli chcemy opisać obraz przedmiotu niezależnie od jego kąta względem obserwatora, to musimy wprowadzić współrzędne homogeniczne. Musimy wprowadzić parametry kamery, określić, co można, a czego nie można i potem to wszystko zapisać w jednym równaniu. Także takiego równania trzeba używać, gdy się opisuje transformacje przestrzeni trójwymiarowej na dwuwymiarową. Jest bardzo du-
Historia. Stan badań nad percepcją wzrokową
257
żo parametrów, część z nich znamy, cześć nie. Nie istnieją niezmienniki w klasycznym znaczeniu tego słowa, także jeśli chcemy używać geometrii, to musimy udowodnić sami twierdzenia, dlatego że w matematyce nie ma takich twierdzeń, które są nam potrzebne. Psychologia postaci zaczęła się w 1912 r., kiedy Max Wertheimer opublikował artykuł na temat ruchu i wtedy podkreślił fakt, że obraz na siatkówce nigdy nie wystarcza do opisania percepcji wzrokowej i wprowadzili pojęcie zasady prostoty. Żeby wytłumaczyć percepcję czegokolwiek, musimy wziąć pod uwagę dane czuciowe, obraz na siatkówce, połączyć to z zasadą prostoty i dopiero wtedy możemy wytłumaczyć, opisać to, co człowiek widzi.
Część II
Psychofizyka Analiza metod i badań eksperymentalnych służących pomiarowi percepcji wzrokowej
Zajmiemy się teraz psychologią postaci z początku XX wieku. Rzeczywiście było dość rewolucyjne wprowadzenie tej zasady prostoty. Nie przyszło to łatwo. Choć pewne podstawowe pojęcia istniały już dużo wcześniej. Istnieje zawsze więcej niż jedna teoria, która może opisać dany eksperyment. Pojawia się pytanie: którą wybrać? Wybieramy z reguły tą najprostszą, bo wydaje się najbardziej prawdopodobna. Określa się to mianem „brzytwy Ockhama”. To pojęcie funkcjonuje co najmniej od kilkuset lat. Także wprowadzenie go do percepcji wzrokowej nie było czymś zupełnie nowym. Tak naprawdę już Ernst Mach, austriacki fizyk i filozof, mówił o roli zasad prostoty pod koniec XIX wieku. Psychologowie postaci zaczerpnęli to pojęcie od niego. Weźmy za przykład rysunek, który ma przynajmniej dwie interpretacje i obrazuje tok rozumowanie psychologów postaci. Można widzieć dwa sześcioboki, dwa wypukłe symetryczne sześcioboki albo dwa wklęsłe niesymetryczne ośmioboki, które się stykają rogami. Dużo łatwiej widzieć dwa symetryczne sześcioboki, dlatego że to jest prostsza interpretacja. Po lewej stronie widzimy czarne figury na białym tle, po prawej – białe figury na czarnym tle. Jedyna rzecz, która je różni to fakt, że czarne figury po lewej stronie są symetryczne i białe po prawej są symetryczne. Psychologowie postaci twierdzili, że to, co symetryczne jest częściej widziane jako figura w odróżnieniu od tła. I oczywiście nikt nie będzie się kłócił co do tego, że symetria ma coś wspólnego z prostotą. Tu pojawia się interesujący przykład, ważny z więcej niż jednego powodu. Mamy dwie krzywe AB i CD, które się przecinają. Ale oczywiście interpretacja tego, co się dzieje przy przecięciu może być inna. Moglibyśmy widzieć krzywą AD, która dotyka krzywej BC. Ale bardzo trudno widzieć tę interpretację, dużo
Psychofizyka
259
łatwiej dostrzec dwie krzywe, które się przecinają. Tutaj to, co zrobił Kurt Koffka, to są dokładnie te same krzywe. Tylko połączył punkty A i C oraz punkty D i B, interpretacja się zmieniła. Teraz widzimy dwa przedmioty. Także to, interesujące jest to, że zmiana od jednego rysunku do drugiego była dość daleko od punktu przecięcia. Przestrzenie globalne zmiany mogą zmienić percepcję w lokalnym punkcie, która znajduje się dość daleko od tego miejsca zmiany Tutaj widzimy inicjały Maxa Wertheimera, ale dużo łatwiej jest widzieć jakiś symetryczny bohomaz niż dwie literki M i W, mimo że wszyscy umiemy czytać. Czyli prostsza interpretacja wygrywa z wyuczoną. Krótko teraz odniosę się do pewnych aspektów z fizyki, które jeden z psychologów postaci Wolfgang Köhler uważał za potrzebne w swej teorii. Napisał artykuł w 1920 r. Köhler to psycholog z wykształcenia, ale w trakcie studiów chodził na kursy z fizyki, był dość obznajomiony z tą dziedziną jak na tamte czasy. Wiedział o tym, że zasada prostoty istnieje w fizyce. Miała miejsce duża rewolucja w XIX wieku, kiedy prawa fizyki zostały przeformułowane z praw klasycznych Newtona, które wyrażają się równaniami różniczkowymi, na prawa Hamiltona, które wyrażają się równaniami całkowymi. Istnieją zasady: Hamiltona, Fermata, Maxwella. Köhler uważał, że prowadzą one bezpośrednio do teorii percepcji. Prawo odbicia światła w lustrze zostało sformułowane następująco. Jeśli źródło światła jest w punkcie A, a nasze oko znajduje się w punkcie B, my patrzymy w lustro, to widzimy odbicie tego światła w którymś punkcie. Pytanie: w którym punkcie lustra widzimy to odbicie? Oczywiście zasada odbicia światła mówi nam, że kąt padania jest równy kątowi odbicia. Tę zasadę można wyprowadzić i uczynił to Fermat. Założył, że światło wybiera taką drogę, która zminimalizuje czas przejścia z punktu A do B. Minimum czasu to zasada Fermata. Była już znana w starożytnej Grecji. Jeden z Greków sformułował ją w następujący sposób: światło leci po drodze, która minimalizuje czas, dlatego że światło nie ma tego czasu na zmarnowanie. Jeszcze bardziej interesująca wydaje się kwestia załamania światła. Jeśli mamy powietrze i wodę, to wszyscy wiemy, że gdy światło wpadnie do wody, załamie się. Jeśli popatrzymy na słońce pod wodą, to zobaczymy słońce na powierzchni w innym punkcie. Światło wybiera dłuższą drogę, ponieważ prowadzi ona do najkrótszego czasu. Pytanie: skąd światło wie, ile czasu trzeba na przemieszczenie się z punktu A do punktu B? Ciągle brak na nie odpowiedzi. Przypuszczalnie światło tak naprawdę nie wie, ile trzeba. Ale tak się składa, że można sformułować wiele praw fizyki w ten sposób, tak jakby przedmioty fizyczne rozwiązywały zadania optymalizacji. Skoro fizyka może rozwiązywać zadania optymalizacji, to dlaczego układ wzrokowy nie miałby tego robić?
260
Percepcja wzrokowa obiektów trójwymiarowych
Tu nasuwa się kwestia wyprowadzenia praw Kirchhoffa w układ elektryczny. Jeśli mam obwód elektryczny z dwoma opornikami, każdy wie, że wypływający prąd podzieli się w taki sposób, że stosunek natężeń prądów będzie odwrotny do stosunku wartości tych dwóch rezystorów. Otóż można wyprowadzić prawa Kirchhoffa zakładając, że prąd elektryczny minimalizuje ilość ciepła wydzielanego w rezystorach w całym układzie elektrycznym. I w ten sposób otrzymujemy prawa Kirchhoffa. Zbudujemy układ elektryczny, zamkniemy obwód elektryczny i w ciągu krótkiej części sekundy prąd się rozdzieli, rozwiąże zadania z optymalizacji, zminimalizuje ilość ciepła w całym układzie elektrycznym. To jest analogia, którą przyjął Köhler Uznał, że mózg to jeden wielki przewodnik, który stara się zminimalizować ilość wydzielanego ciepła – stan minimum mózgu. Jest to reprezentacja zasady minimum prostoty w percepcji. W 1951 r. Lashley, fizjolog, zrobił eksperyment z małpami. O ile wiemy, małpy mają taki sam układ wzrokowy, jak my i ich percepcja wzrokowa jest taka sama, jak u człowieka, w związku z tym wnioski z eksperymentów fizjologicznych przeprowadzanych na małpach można odnosić też do człowieka. Lashley uczył małpę rozpoznania wzrokowego jakiś przedmiotów i później otworzył mózg małpy. Przykrył go folią zrobioną ze złota, chciał zrobić zwarcie całego mózgu. Oczywiście to wygląda naiwnie, ale jeśli Köhler rzeczywiście miał rację i mózg jest jednym wielkim przewodnikiem, to gdy położymy folię ze złota, to powinno nastąpić wielkie zwarcie, które pozbawi małpę wzroku. Jednak małpa nie przestała widzieć, bez kłopotu rozpoznawała przedmioty. Wszyscy starali się jak najszybciej zapomnieć to, co głosił Köhler i również to, co twierdzili psychologowie postaci. Wyszła z mody psychologia postaci. W 1985 r. został opublikowany wspaniały artykuł przez Poggio i innych. Wynikało z niego, że można matematycznie pokazać, iż funkcjonowało wiele problemów obliczania minimum. Można zaprojektować układ elektryczny, który rozwiąże zadania optymalizacji. Tak więc układ elektryczny może być modelem fizycznym, a nie fizjologicznym, czyli jedyny błąd, który popełnił Köhler polegał na tym, że uznał obwód elektryczny za model fizjologiczny percepcji. Gdyby zrezygnował z modelu fizjologicznego i powiedział, że to model fizyczny albo matematyczny, to reszta pozostałaby bez zmian. Teraz wiemy, że tak naprawdę wszystkie modele percepcji są tak właśnie formułowane i nie ma powodów, żeby nie założyć, że obwody złożone z neuronów nie mogą realizować tego, co twierdził Köhler Neurony nie są opornikami, tylko stanowią trochę bardziej skomplikowane struktury niż oporniki. Istnieje spore zainteresowanie w neurofizjologii tym, jak sieci neuronowe mo-
Psychofizyka
261
głyby rozwiązywać zadania minimalizacji, które, według Köhlera, rozwiązuje układ wzrokowy. Psychologowie postaci nigdy nie sformułowali przekonujących argumentów, dlaczego zasada prostoty jest potrzebna. Nie wytłumaczyli, czy zasada prostoty okazuje się tak naprawdę korzystna dla obserwatora, czy prowadzi do realistycznej percepcji. Tak naprawdę psychologowie postaci unikali pytań na temat tego, czy percepcja stanowi realistyczne odzwierciedlenie rzeczywistości. W momencie wybuchu II wojny światowej przestało się mówić o psychologii postaci. Oczywiście większość psychologów postaci wyjechało z Ameryki do Niemiec. Przez kilka lat nie wiele się działo w nauce w czasie drugiej wojny światowej. Ale zaraz po II wojnie światowej mimo, że psychologowie postaci funkcjonowali, prowadzili badania, nie było to modne, tak naprawdę nikt się tym nie interesował. Za to działy się inne rzeczy. Pojawiły się prądy, które były dość ważne. Jeden z nich to transactional psychology Nazwa pochodzi z jakiejś mało znaczącej książki, w której autorzy zdefiniowali to pojęcie. Wydawało im się, że będzie ono bardzo istotne w percepcji. Odgrywało ważną przez 10-20 lat i tak naprawdę nie ma nic wspólnego z podstawowymi tezami tej teorii. Jeśli weźmiemy siedem prętów i zawiesimy je na sznurkach w skrzynce, dodamy jeden równoległobok i też zawiesimy na sznurkach, ale wykonamy to w taki sposób, że jeśli zrobimy otworek w tej skrzynce, w której to wszystko jest pozawieszane, to z jednego punktu widzenia na siatkówce oka obserwatora pojawi się obraz krzesła. Nie ma krzesła w tym pudełku, jest zestaw siedmiu prętów, które nie mają ze sobą nic wspólnego, nawet się nie dotykają, ale tak zostało to ustawione, że powstaje obraz krzesła. Przedstawiciele transactional psychology powiedzieliby, że oczywiście widzimy krzesło, gdyż widzieliśmy tyle krzeseł w życiu, że kiedykolwiek pojawi się obraz krzesła na siatkówce, niezależnie od tego, czy krzesło się tam rzeczywiście znajduje, czy nie, my dostrzegamy krzesło. Tu należy wspomnieć o sławnym Ames Room, którego prawdziwa realizacja istnieje w kilku miejscach, na przykład w Exploratorium w San Francisco. W pokoju tym występuje niezwykłe zniekształcenie percepcji rozmiaru. Pomieszczenie to nie ma nic wspólnego z prostokątnym pokojem. Podłoga jest trapezem, sufit nie jest poziomy. Pokój ten został skonstruowany tak, że z jednego punktu widzenia obraz na siatkówce okazuje się zgodny z obrazem normalnego pokoju. Ames i inni autorzy twierdzą, że w życiu widzieliśmy tylko prostokątne pokoje, więc jeśli obraz na siatkówce pozwala na taką interpretację, to wydaje się to ważniejsze niż widzenie członków rodziny we właściwych rozmiarach. Czyli ten efekt familiarity ma istnieć przy percepcji kształtu pokoju, a nie istnieje w percepcji kształtu przedmiotu. Ludzie, którzy konstruowali
262
Percepcja wzrokowa obiektów trójwymiarowych
ten pokój i znali jego faktyczny kształt, gdy zajrzeli przez dziurkę od klucza, też widzieli prostokątny przedmiot. Oczywiście można to wytłumaczyć w ten sposób, że prostokątna interpretacja jest najprostsza. Dwuoczne widzenie. Julesz w 1960 r. dokonał rewolucji w percepcji, pokazując, że jeśli wyeliminujemy wszystkie wskaźniki głębi i dwuoczne widzenie okaże się jedynym wskaźnikiem głębi, to dostrzeżemy relacje przestrzenne. Okazuje się, że wyników, które uzyskano w ciągu ostatnich 50 lat, używając stereogramów, nie można przenieść na nic innego, także można przypuszczać, że to była tylko strata czasu. Używanie. Oczywiście tak nie było, dużo dowiedzieliśmy się dzięki stereogramom o układzie wzrokowym. Nie ma jednak powodu przypuszczać, że mechanizmy, które są włączone przy interpelacji Random Dot Stereograms bywają używane w codziennym życiu. Złudzenia Gregory’ego. Gregory twierdził, że układ wzrokowy zachowuje się tak, jak badacz naukowy, gdy formułuje i testuje hipotezy, a bardziej prawdopodobne hipotezy zwyciężają. Zastąpił zasadę prostoty zasadą prawdopodobieństwa, co w sumie nie stanowi zbyt dużego przeskoku. Gregory skonstruował trójkąt, jednak jest niemożliwy. Gdy popatrzy w lewy róg, to widzimy, że ten trójkąt wygląda w jakiś sposób w przestrzeni, ale gdy patrzymy z innej strony, nagle się to zaczyna zmieniać widzimy, że taki trójkąt nie może istnieć. Gregory skonstruował ten przedmiot po prostu jako trójkąt, który nie jest zamknięty, ale otwarty. Jeśli obserwator stoi tak, że obrazy tych części pokrywają się na siatkówce, to widzi trójkąt, który w rzeczywistości nie istnieje. Stanowi to duży problem dla psychologii postaci. Nie jest bowiem łatwo wytłumaczyć, dlaczego w tym przypadku interpretacja fizycznie możliwa nie jest prostsza od interpretacji fizycznie niemożliwej. Kształt jest wielowymiarowy, dlatego też jest unikalny. Przechodzimy do metod psychofizycznych. Zaczynamy od psychofizyki Fechnera. Fechner był niemieckim fizykiem, który w pewnym momencie zmienił zainteresowania z fizycznych na filozoficzne i zajął się badaniem percepcji wzrokowej. Zdawał sobie sprawę, że percepcja to zjawisko psychiczne i postawił sobie za zadanie zmierzyć percepcję za pomocą narzędzi fizycznych. Wprowadził termin „psychofizyka”. Percepcja to akt psychiczny, który jest rezultatem łańcucha przyczynowo-skutkowego. Łańcuch zaczyna się od obiektu nazwanego distal stimulus, może być to trójwymiarowy przedmiot przed osobą badaną. Potem jest obraz na siatkówce – proximal stimulus, w systemie słuchowym byłby to rozkład ciśnienia w uchu wewnętrznym, w percepcji dotykowej byłby to rozkład ciśnienia na powierzchni skóry. Przedmiot i obraz na siatkówce opisany został w języku fizyki, w kategoriach energii światła. Obiekt
Psychofizyka
263
może być ciężki, długi itd. Potem odbywa się przetwarzanie energii w receptorach. I teraz mózg ma już do dyspozycji reprezentację w układzie nerwowym, która jest reprezentacją elektryczną. Czyli bodźce elektryczne są przesyłane i analizowane. Coś się dzieje w mózgu i to można określić jako procesy mózgowe. I na końcu mamy percepcję, która jest zjawiskiem psychologicznym, także występuje co najmniej trzy rodzaje zjawisk. Wielu naukowców marzy o tym, że gdy będziemy wystarczająco dużo rozumieć na temat mózgu i percepcji, to nie będziemy potrzebować języka zjawisk psychicznych i fizjologicznych. Wszystko zostanie wyrażane w języku zjawisk fizycznych. Czy tak będzie, czy nie, to pytanie otwarte. Ja mam swoje zdanie na ten temat. Fechner rozróżnił dwie psychofizyki: wewnętrzną i zewnętrzną. Dokonał tego rozróżnienia dlatego, że w XIX wieku ludzie tak naprawdę nie byli w stanie zająć się psychofizyką wewnętrzną. Psychofizyka wewnętrzna to związek między aktywnością mózgu i percepcją. Określamy to w percepcji jako mind-body problem. Jest to inny problem niż ten w filozofii, gdy stawia się pytanie: świat psychiczny i fizyczny? Jeśli istnieją oba, to jak się kontaktują? W percepcji problem mind-body jest dużo węższy i konkretniejszy. To po prostu pytanie o korelacje między zjawiskami w mózgu a percepcją. Psychofizyka zewnętrzna to zależności między cechami fizycznymi i genetycznymi bodźca a percepcją. To kwestia, którą badał Fechner i wielu psychologów. Skupię się właśnie na psychofizyce zewnętrznej. To nie znaczy, że mózg jest, ale ciągle niewiele wiemy o mózgu. Progi percepcji – Fechner wiedział o tym, że potrzebna jest jakaś minimalna ilość energii do tego, żeby spowodować percepcję i ten próg nazywa się absolute threshold. Określa się go skrótem AL (absolute limit). Przy bardzo słabych bodźcach, jeśli natężenie światła jest bardzo słabe, w pewnym momencie nic nie widzimy, gdy przekracza pewien próg, nagle dostrzegamy to światło. Tę teorię określa się mianem „klasycznej teorii progów”. kiedykolwiek państwo słyszą pojęcie klasyczna teoria znaczy, że jest to nieprawdziwa teoria. Już Fechner wiedział, że jest to zbyt uproszczona teoria, gdyż reprezentacja w mózgu jest zmienną losową. Próg przypuszczalnie to również zmienna losowa i ma najprostszą modyfikację. Jeśli pozwolimy, by próg był zmienną losową i podlegał rozkładowi Gaussa, to wtedy krzywa będzie miała kształt litery S. AL określa się jako medianę tej krzywej. Drugi próg to próg rozróżniania (difference threshold) – najmniejsza różnica w energii dwóch bodźców, która może być dostrzeżona (DL). Fechner uważał, że są to dwa kompletnie różne zjawiska. Teraz myślę trochę inaczej, że próg rozróżniania i próg spostrzegania to przypuszczalnie to samo zjawisko, tylko zachodzące w nieco innych warunkach eksperymentalnych. Czyli mamy
264
Percepcja wzrokowa obiektów trójwymiarowych
dwa bodźce, dwa ciężarki na dwóch rękach. Który jest cięższy? Jeśli wydają się bardzo podobne, to obserwator nie będzie w stanie powiedzieć, który jest cięższy. Trzeba, aby różnica okazała się wystarczająco duża, żeby obserwator był dość pewny tego, który jest cięższy. Robimy eksperyment w ten sposób, że jeden ciężarek zawsze tyle samo waży, wagę drugiego się zmienia i potem rysujemy wykres. W tym przypadku mediana krzywej to będzie waga testowego bodźca, który jest postrzegany jako równy bodźcowi pierwszemu. Natomiast próg rozróżniania definiuje się na przykład jako odchylenie standardowe tej krzywej. Prawo Webera. Weber rzeczywiście odkrył to prawo, ale go tak nie nazywał. To jest wskazówka dla wszystkich. Fechner określił to jako prawo Webera i tak już zostało. Prawo to mówi, że próg rozróżniania jest proporcjonalny do jednego z tych bodźców. Jeśli dam 50 g, to drugi ciężarek musi mieć 55 g, żeby był cięższy. Jeśli jeden ciężarek będzie ważył 500 g, to drugi musi mieć 550 g, żebym był równie pewny, że ten drugi jest cięższy. Ta stała nazywa się stałą Webera. To jedno z najbardziej uniwersalnych prawo w percepcji. Fechner zadał pytanie: jak mierzyć te progi? Klasyczne metody opisane przez niego to: Adjustment, Limits i Constant Stimuli. Pierwsza metoda jest stosunkowo prosta. Jeśli mierzymy próg różnicy, to dzieje się to następująco. Załóżmy, że chcemy mierzyć próg różnicy przy percepcji światła, czyli mamy dwa źródła światła: jakieś stałe źródło, dajemy osobie badanej pokrętło i prosimy, aby ustawiła to drugie źródło światła tak, żeby wyglądało identycznie jak pierwsze. Badana osoba robi to kilka razy i wartość średnia będzie odpowiadała tej subiektywnej równości, a odchylenie standardowe będzie miarą DL, czyli rozrzut tych ustawień będzie miarą percepcji. Odchylenie standardowe jest miarą DL. Wartość średnia jest miara subiektywnej równości (PSE). Odniosę się do eksperymentu na złudzenie Müller-Lyera, który dotyczy odróżnienia dwóch odcinków. Odchylenie standardowe to powinien być próg rozróżniania dwóch odcinków. Z grubsza wyglądają na równe, ponieważ było tylko dwadzieścia tych warstw ale taki jest rozkład. Referent line miała 1100 pikseli. Wartość średnia mojego ustawienia to 17 pikseli, to mniej więcej wielkość złudzenia Müller-Lyera. Odchylenie standardowe – 4 piksele. Zdolność układu wzrokowego do odróżnienia długości dwóch odcinków wynosi około 3%, tutaj – 4%, także to całkiem dobre przybliżenie. Drugą metodą jest Limits i używa się jej do mierzenia obu progów. Metoda jest stosowana w klasycznej postaci, prawie nigdy w zmodyfikowanych wersjach. Teraz osoba nie ma bezpośredniej kontroli nad bodźcem, tylko ekspe-
Psychofizyka
265
rymentator zmienia intensywność światła, czyli lewe światło posiada jakąś intensywność. Prawe jest dużo jaśniejsze niż lewe. I pytamy osoby badanej, czy prawe jest jaśniejsze od lewego. Osoba mówi: „tak”. Zmniejszamy trochę i znów pytamy, czy prawe jest jaśniejsze. Odpowiedź brzmi: „tak”. Następnie zmniejszamy intensywność światła tak, aż osoba powie: „Nie, prawe światło nie jest już jaśniejsze od lewego”. Ta zmiana odpowiedzi z „tak” na „nie” daje nam ocenę progu, jeśli mierzymy próg rozróżniania. Jeśli mierzymy próg percepcji, jest tylko jedno źródło światła i zmniejszamy aż osoba powie: „Nic nie widzę”. Wtedy zobaczymy przeskok z odpowiedzi „nie” na „tak” i robimy to wielokrotnie, uśredniamy ocenę progu. Oceny progów z tych dwóch metod są bardzo podobne. Często zależy od preferencji, czy wybieramy jedną, czy drugą opcję. Podsumowując: AL: osobie prezentuje się bodziec w kierunku wzrastającej albo malejącej intensywności. Osoba odpowiada, czy bodziec jest widzialny. Zmiana odpowiedzi z “tak” na “nie” (albo na odwrót) jest rejestrowana jako miara progu. DL: Osoba porównuje dwa bodźce – reszta tak samo, jak w AL. Najlepsza z tych trzech pod względem jakości estymatorów, które mamy od ocen progu, to metoda, która nazywa się Constant Stimuli. Używamy tylko kilku wartości bodźca, od pięciu i dziewięciu każdy jest powtarzany 100 razy. Rysujemy wykres. Na osi odciętych umieszczamy intensywność bodźca, jeśli mierzymy próg detekcji. Na osi rzędnych mierzymy proporcje odpowiedzi „tak”. Jeśli bodziec jest bardzo słaby, to proporcja odpowiedzi „tak” jest bardzo mała. Jeśli bodziec jest bardzo silny, to proporcja odpowiedzi ta jest bliska 100%. Dane pomiarowe aproksymuje się krzywą Gaussa (skumulowana). AL odpowiada wartości średniej. PSE też odpowiada wartości średniej, a DL odchyleniu standardowemu. Wtedy ta metoda nazywa się Profit. Jest to nieliniowa regresja. Istnieją standardowe programy do rozwiązywania tego problemu i wyniki wyglądają w ten sposób. Znowu bierzemy medianę tej krzywej jako ocenę progu detekcji. W przypadku difference threshold mediana jest oceną, a odchylenie standardowe – miarą progu zalety i wady tej metody. Metoda stałych bodźców daje lepsze estymatory niż pozostałe dwie metody. Jest bardziej obiektywna dlatego, że w każdej próbie, ponieważ my losowo mieszamy bodźce, osoba nie wie, który bodziec jest prezentowany. Jednym z podstawowych problemów tej metody jest to, że ona nie zawsze daje nam ocenę percepcji niezmodyfikowaną, niezakłóconą przez procesy decyzyjne. Tu wracamy do tego podstawowego problemu prywatności percepcji. Jesteśmy zainteresowani mierzeniem percepcji, ale nigdy nie widzimy percepcji osoby badanej my mierzymy ciśnienie guzika. I żadna z tych trzech metod nie daje
266
Percepcja wzrokowa obiektów trójwymiarowych
nam gwarancji, że progi, które będziemy mierzyć okażą się niezakłócone. W języku statystycznym byśmy powiedzieli: nieobciążone estymatory właściwych progów. One bardzo często będą obciążone przez procesy decyzyjne. Znowu odniosę się do eksperymentu dotyczącego detekcji krzywizny linii. W każdej próbie została pokazana linia, krzywa albo prosta. Zdaniem osoby badanej było odpowiedzieć, czy jest krzywa czy prosta. 20% prób zawierało linię prostą, 80% zawierało linię krzywą, przy czym było kilka rodzajów linii krzywej. Ocena progu detekcji przy użyciu którąkolwiek z metod prawie nigdy nie jest obiektywna, bywa zakłócona nastawieniem osoby badanej, jak często naciska guzik, żeby krzywa była prosta i trudno to kontrolować. Jedna osoba badana przed eksperymentem ma subiektywne nastawienie, że będzie naciskała ten guzik „linia prosta”. Często inna osoba nigdy go nie naciśnie, to spowoduje, że krzywa psychometryczna pojedzie albo kompletnie w lewo, albo kompletnie w prawo i mediana tej krzywej to ocena progu detekcji krzywizny. Wywnioskujemy, że różne osoby mają bardzo odmienne progi, podczas gdy jedyne, co było różne między tymi osobami to nastawienie subiektywne co do tego, jak często używać guzik „linia prosta”. Metodą, która wprowadziła rewolucję w percepcji detekcji była Metoda Detekcji Sygnałów, wymyślona zaraz po II wojnie światowej i rozwiązała problem, który zresztą zaistniał w czasie tej wojny. Osoba, która miała za zadanie śledzić ekran radaru i patrzeć, czy samoloty nieprzyjaciela nadlatują – było oczywiste, że jedna osoba wywołuje alarm niepotrzebnie, a druga osoba nie widzi, jak nieprzyjaciel przylatuje. W odpowiedzi na ten problem została sformułowana ta metoda. W tej metodzie używamy przez cały eksperyment dwóch bodźców. Ważne są dwie wartości bodźca S1 i S2. Z reguły są one przedstawione z prawdopodobieństwem 50 na 50, czyli połowę prób zawiera jeden z bodźców, połowę drugi. Są dwie możliwe reakcje i tworzymy taką macierz. Odpowiedź R tu jest prawidłową odpowiedzią na bodziec S. Tak naprawdę mierzymy cztery proporcje w eksperymencie, ale tylko dwie okazują się niezależne i najczęściej używane, to są False Alarms i Hits. Czyli jak osoba powie bodziec S2, kiedy w rzeczywistości to było S1 – False Alarm. Gdy osoba powie S2, kiedy to jest S2, to mamy Hit. Czyli w przypadku eksperymentu z krzywizną interpretacja jest oczywista. Jak to prześledzimy, trzy możliwe wyniki eksperymentu w takim wyniku. Czy ten eksperyment był łatwy dla tej osoby badanej? Tak, był łatwy, dlatego że, gdy był bodziec S1, to osoba prawie zawsze powiedziała R1, 48 z 50 i to samo tutaj. Tutaj oczywiście ta osoba tak naprawdę nie była w stanie rozróżnić bodźca S1 i S2. Z reguły naciskała przycisk R2, ale rozróżnienie było bardzo słabe, bo te
Psychofizyka
267
proporcje zdają się być identyczne. A tutaj, czy ta osoba była w stanie widzieć różnice między tymi dwoma bodźcami? Odpowiedź brzmi „tak”, tylko osobie pomieszały się guziki. Model percepcji w tej teorii jest następujący: oś x jest osią intensywności percepcji. W przypadku mojej krzywizny, jak ta krzywa wygląda? Jeśli ona jest prosta, moja percepcja będzie tutaj. Jednym z podstawowych nowych pojęć tej teorii było założenie, że nawet, jak nie ma żadnego bodźca, to percepcja istnieje, ponieważ istnieje szum w układzie nerwowym, stąd też, jeśli jest przedstawiona ta prosta, ona czasami wygląda jak krzywa nie dlatego, że osobie się pomyliło, tylko dlatego, że w danym momencie, kiedy bodziec był przedstawiony, istniało tyle szumu w układzie nerwowym, że reprezentacja linii prostej okazała się linią krzywą. Czyli mamy dwie krzywe. Krzywa czerwona po lewej to jest prawdopodobieństwo, że linia prosta wygląda jak krzywa. wygląda linia prosta. Obok jest rozkład prawdopodobieństwa, gdy krzywa wygląda jak linia krzywa, jest przesunięta w prawo w stosunku do lewej dlatego, że średnio krzywa daje w percepcji większą krzywiznę niż linia prosta. Żeby udzielić odpowiedzi osoba musi zdecydować się przed eksperymentem, jaka intensywność percepcji będzie klasyfikowana jako odpowiedzieć R2, a jaka R1. To jest subiektywny parametr k, którym my nie jesteśmy zainteresowani, ale on istnieje, ponieważ osoba musi nacisnąć prawy guzik. Jeśli linia krzywa jest bardzo zbliżona do linii prostej, pojawią się próby w eksperymencie, w których osoba będzie zupełnie niepewna, czy to jest linia prosta, czy krzywa, wtedy musi zdecydować, wybrać guzik. I jeśli percepcja okaże się bardzo słaba, osoba powie – linia prosta, jeśli percepcja będzie wystarczająco silna, to pojawia się odpowiedź R2. Tak liczymy te proporcje, gdybyśmy znali te krzywe. My ich nie znamy, one są teoretyczne, to tak byśmy policzyli poszczególne proporcje w tej tabeli. Odpowiedzi nie znamy teoretycznie, ale pod koniec eksperymentu mamy oszacowanie tych proporcji i to jest False Alarm, czyli pole pod czerwoną krzywą, na prawo od k. Pole pod krzywą niebieską na prawo od k to Hit. Z reguły zakładamy, że percepcja jest krzywą Gaussa. Czy tak jest, czy nie, to jedno z wielkich pytań. Większość eksperymentów wskazuje, że to założenie jest całkiem słuszne. Rozróżnienie między dwoma bodźcami jest zdefiniowane jako różnica między wartościami średnimi tych dwóch krzywych podzielona przez wspólny rozkład prawdopodobieństwa. Interesujące w definicji wskaźnika czułości d' jest to, że nie ma tu zmiennej k. Niezależnie, gdzie k jest umieszczone, w tym wzorze k nie występuje. W związku z tym d' ma szansę mierzyć percepcję niezakłóconą procesami decyzyjnymi. Teraz pojawia się taki problem, że chcemy znać d' po lewej stronie, a nie znamy ani M1, ani M2, ani sigma. To jest trudna
268
Percepcja wzrokowa obiektów trójwymiarowych
kwestia, mamy jedno równanie, cztery niewiadome, chcemy policzyć d'. Rozwiązujemy to w następujący sposób: bierzemy Hits i False Alarms z naszej tabeli. Zamieniamy to na zmienne, czyli ze skumulowanego rozkładu Gaussa i możemy z tabel rozkładu normalnego wyliczyć wartość z odpowiadającej dowolnej proporcji. Różnica między tymi dwiema wartościami to ocena naszego d', czyli d' = z(H) – z(F). Nie wydaje się trudne udowodnić, że to równanie jest matematycznie równoważnym mojej definicji d', przyjmując te założenia, o których wspomniałem. Także mając Hits i False Alarms, możemy oszacować d' z eksperymentu. W ciągu ostatnich 50 lat większość eksperymentów, gdzie eksperymentator jest zainteresowany mierzeniem progów percepcji, odbywa się przy użyciu tej metody. To metoda uniwersalna. Gdy problem w badaniu percepcji da się przedstawić w języku detekcji sygnałów, to sytuacja jest idealna. Jeśli się nie da, to może wystąpić problem dlatego, że d' nie zależy od decyzji, zawsze może być jakieś zakłócenie. Generalnie większe d' oznacza, że rozróżnienie było łatwiejsze. Czyli powiedzmy, jeśli mamy problem rozróżnienia krzywej rozróżnienia dwóch odcinków w złudzeniu Müller-Lyera i modyfikujemy w jednym eksperymencie te odcinki, na końcu te skrzydełka są dłuższe, w drugim krótsze, to d' będzie miało inną wartość, mimo że podstawowe odcinki miały taką samą długość, choć jeden wynosił 100, drugi 90. W jednym eksperymencie d' może być trzy, w innym może być 1,5 i wtedy wiemy, jak zależy możliwość rozróżniania długości odcinków jako funkcje długości skrzydełek na końcu odcinków. Tak się wykonuje praktycznie większość eksperymentów wzrokowych, jeśli tylko uda się problem badawczy przedstawić w języku detekcji sygnałów. Dość wcześnie okazało się, że istnieje takie zjawisko, jak wymiana szybkości na precyzję Speed-Accuracy Tradeoff. W latach sześćdziesiątych i siedemdziesiątych XX wieku przemysł samochodowy i firmy ubezpieczeniowe chciały oszacować, jak spożycie alkoholu wpływa na szybkość reakcji kierowcy. Dziesięć eksperymentów nie udało się udowodnić, że istnieje jakakolwiek zależność. Kierowca, który był kompletnie pijany, miał reakcje tak samo szybkie w takim prostym eksperymencie. Czyli pojawia się plamka na ekranie, ty masz nacisnąć guzik niezależnie od tego, ile wypiłeś reakcje są tak samo szybkie. I dopiero gdy zastosowano metodę mierzenia całej funkcji Speed-accuracy tradeoff function. Udało się pokazać, że oczywiście alkohol nie jest dobry przy prowadzeniu samochodu. Pijak może być szybki, tylko on nie wie, co robi. Czyli, aby zmierzyć wpływ alkoholu, musi być wymóg co do dokładności reakcji, nie tylko co do szybkości. Jak się przeprowadzi eksperyment typowy, eksperyment mierzenia funkcji jest następujący: osoba ma rozróżnić, czy linia jest
Psychofizyka
269
prosta czy krzywa, czy istnieje dyskryminacja krzywizny prostej, ale po bodźcu dajemy sygnał słuchowy i osoba ma nacisnąć guzik przed sygnałem. I w czasie całej sesji eksperymentu to opóźnienie sygnału jest stałe, także osoba badana bardzo szybko się uczy. W każdym możemy używać metody detekcji sygnałów, mierzymy d' i rysujemy d' jako funkcje czasu reakcji i teraz tworzymy jakąś krzywą, często ta środkowa część w zależności to linia prosta i nachylenie tej linii jest miarą, jak łatwe jest zadanie, poszczególny czas reakcji. W większości eksperymentów z czasem reakcji prosimy osobę badaną, żeby odpowiedziała jak najszybciej, ale bodźce są takie, że osoba badana praktycznie zawsze udziela poprawnych odpowiedzi, czyli większość eksperymentów z mierzeniem czasu reakcji operuje na tej części krzywej. Jest to niebezpieczne z następującego powodu, że bardzo mała zmiana subiektywnego kryterium osoby badanej będzie powodowało duże zmiany czasów reakcji. Jednocześnie, tak naprawdę, proszenie osoby, żeby była dokładna i szybka to sprzeczne wymagania i osoba tak naprawdę może nie wiedzieć, o co chodzi i czego się od niej oczekuje. Tak więc metoda mierzenia całej funkcji zajmuje bardzo dużo czasu, stąd nie jest używana zbyt często, ale przynajmniej warto sobie uświadomić, że ta funkcja istnieje. Jeśli ktoś jest zainteresowany mierzeniem szybkości procesów percepcyjnych, to mierzenie całej funkcji wydaje się najlepszym wyjściem, oczywiście problem tkwi w tym, że zajmuje to bardzo dużo czasu, nie każda osoba badana to wytrzyma, ale jeśli da się to zrobić, to warto. Prześledźmy wobec tego, co się działo po II wojnie światowej z percepcją kształtu, także teraz mamy takie podsumowanie metod eksperymentalnych i teraz będziemy widzieć, jak te metody są używane. Jest taka książka Brindley opublikowana w 1960 r., w której autor twierdzi, że wszystkie doświadczenia psychologiczne, percepcyjne dają się podzielić na dwie grupy. Rozróżnia się dwie klasy eksperymentów: A i B. Z pewnych przyczyn, które Brindley wyjaśnia, klasa A to są wszystkie eksperymenty, kiedy mierzone są progi percepcji: próg detekcji, próg rozróżniania. Także większość interesujących problemów badawczych od razu klasyfikuje się w tej drugiej grupie. Brindley twierdził, że jeśli uda się przetłumaczyć eksperyment klasy B na klasę A, to jest to znakomity układ. Nasza wiedza o percepcji pochodzi prawie zawsze z eksperymentu klasy A, czyli mierzenia progów i wyniki klasy B eksperymentu zawsze będzie można poddać w wątpliwość. Z doświadczeń Brindley i moich wynika, że rzeczywiście 90% problemów badawczych percepcji daje się przedstawić i przetłumaczyć na eksperyment, którym mierzy się progi. Istnieją eksperymentalne
270
Percepcja wzrokowa obiektów trójwymiarowych
problemy, których się nie da przetłumaczyć i wtedy po prostu nie ma rady, ale jeśli się da, to warto dołożyć wysiłku. Rewolucja kognitywistyczna zaraz po II wojnie światowej była stymulowana co najmniej przez cztery wydarzenia, które pojawiły się w bliskim sąsiedztwie czasowym. Teoria komputera przed II wojną światową i zbudowanie pierwszego komputera. Pierwszy patent pojawił się w Niemczech, dalej w kolejności: komputery na dwóch uniwersytetach w Stanach Zjednoczonych, sformułowanie teorii informacji przez Shannona, sformułowanie podstaw cybernetyki systemów sterowania przez Wienera i neurofizjologia Talbota oraz Marshalla. W czasie II wojny światowej elektronika poprawiła się zdecydowanie. Wzmacniacze były na tyle dobre, że można było mierzyć odpowiedzi pojedynczych neuronów z mózgu małpy. Publikacja Talbota i Marshlla (1941 rok) to pierwsza praca, gdzie rejestracje z pojedynczych neuronów kory wzrokowej małpy były mierzone rzeczywiście. Pierwszy eksperyment, który został zbudowany w oparciu o pojęcie teorii kognitywistycznej, to eksperyment Hochberga i McAlistera z 1953 r. Wykorzystali do eksperymentu przezroczyste sześciany. Ich wnioski były następujące: jeśli potrzeba dużo informacji do opisania dwuwymiarowego rysunku na siatkówce oka, to istnieje duża szansa, że percepcja jest trójwymiarowa. Jeśli zaś obraz na siatkówce okazuje się bardzo prosty i potrzeba bardzo mało informacji do opisania go, to percepcja będzie dwuwymiarowa. Nie zaproponowali żadnego modelu matematycznego, ale konkluzja okazała się bardzo trafna. Ich praca stanowi jedną z najczęściej cytowanych, jeśli chodzi o zastosowanie metody prostoty w percepcji wzrokowej. Później sześciany zamieniono na losowe wielościany z takim samym rezultatem. Pracę na ten temat napisali: Hochberg ze swoją żoną Brookes (1960). Fred Attneave w 1969 r. przeprowadził podobny eksperyment do Hochberga. Trzeba było 16 lat, żeby kolejny badacz (Attneave) zajął się badaniem roli prostoty w percepcji trójwymiarowych przedmiotów. To, co Attneave zrobił, przedstawia się następująco. Mamy rysunki skrzynek, wszystkie trzy skrzynki są prostopadłościanami, ale to obraz w rzutowaniu geograficznym, czyli kąty są równe, wszystkie odcinki są równe. Interpretacja jednego rysunku jest najprostsza w trzech wymiarach, interpretacje kolejnego rysunku okazuje się najbardziej skomplikowana w trzech wymiarach w porównaniu z innymi. W dwóch wymiarach jest na odwrót. Osoba badana wzięła pręt, trzymała go w ręce i miała za zadanie ustawić kąt tego pręta tak, żeby był identyczny w trzech wymiarach z postrzeganą orientacją brzegu prostopadłościanu. Attneave ro-
Psychofizyka
271
zumował, że tam, gdzie prostota w trzech wymiarach pomaga układowi interpretacji, tam percepcja jest najlepsza. Następny eksperyment przeprowadzony został przez Perkinsa. Bronił on doktoratu w momencie, kiedy Attneave wprowadził swój eksperyment. Przypuszczalnie obaj wiedzieli o, tym, że zajmowali się tym samym problemem Istniał drobny antagonizm między nimi. Gdy popatrzymy na rysunek sześcianu, czyli rysunek bryły, która ma wszystkie kąty proste w trzech wymiarach, widzimy to jako sześcian. Perkins zadał pytanie: czy układ wzrokowy zawsze będzie szukał tej interpretacji prostej, nawet gdy okazuje się niemożliwa? Perkins pokazywał wiele takich rysunków osobom badanym i pytanie dotyczyło kąta, czy jest prosty, czy nie. Okazało się, że osoby były praktycznie bezbłędne w tym zadaniu. Ale pytanie dotyczyło trójwymiarowego rysunku, jest dwuwymiarowy. Istnieje nieskończenie wiele trójwymiarowych interpretacji tego rysunku, w których ten kąt okazuje się prosty lub nie. Czyli ten rysunek ma wiele interpretacji albo z kątem prostym, albo bez ten, nie ma interpretacji kąta prostego i pojawia się pytanie: czy układ wzrokowy człowieka jest w stanie użyć metody geometrii rzutowej do rozwiązania tego problemu? Perkins był pierwszym, który potem w 1976 r. zrobił następny eksperyment. Tu pytania były bardziej szczegółowe, osoba tak naprawdę opowiadała, jakie są poszczególne bryły, niekoniecznie chodziło o bryły prostopadłościenne. Osoby badane były bliskie perfekcji w ocenie kątów. Ocena kątów dotyczyła trzech wymiarów, nie siatkówki oka. Perkins potem konkludował, że układ wzrokowy używa symetrii prostopadłości i też stwierdził, że prostota i prawdopodobieństwo to mogą być dwie strony jednego medalu, czyli dwie strony tego samego problemu. Rzeczywiście można to dostrzec. Czyli pojawia się ta odwieczna dyskusja: czy układ wzrokowy wybiera interpretację, która jest najprostszą czy najbardziej prawdopodobną. Biorąc pod uwagę całe nasze doświadczenia, można argumentować, używając metody matematycznej, że te dwie odpowiedzi są równoważne, że to, co proste jest prawdopodobne i to, co prawdopodobne jest proste. Ta równoważność została uzasadniona w latach siedemdziesiątych XX wieku. Także miało to duży wpływ na formowanie teorii w percepcji. Okazało się, że ta odwieczna kłótnia jest być może bezcelowa. Dla Sheparda było oczywiste, że percepcja przedmiotów trójwymiarowych jest trójwymiarowa, nawet z jednego obrazka, nie zastanawiał się nad tym, żeby to udokumentować. On po prostu poprosił osoby badane o dokonywanie rotacji umysłowych i osoby badane widocznie nie miały z tym problemu. Biederman, rok 1993 – teoria geonów. Biederman chciał wytłumaczyć, jak to się dzieje, że na jednym obrazku osoba badana widzi trójwymiarowy rysu-
272
Percepcja wzrokowa obiektów trójwymiarowych
nek, podczas gdy jest to dwuwymiarowy rysunek. Badacz założył, że każdy przedmiot skomplikowany, taki jak np. stół, składa się z pewnej małej liczby podstawowych kształtów elementarnych, takich jak: pręt, pudełko, elipsa. Łatwo zrekonstruować te najprostsze części. Problem polega tylko na poskładaniu ich w całość i wtedy mamy percepcję trójwymiarową. Rzeczywiście Biederman udowodnił, że jeśli pokaże się osobie badanej taki przedmiot z jednej strony, potem obróci o 90˚, to osoba nie ma najmniejszego problemu ze zorientowaniem się, że był to ten sam przedmiot, tylko ukazany z innego punktu widzenia. Czyli eksperyment Biedermana był tak naprawdę pierwszym poprawnie wykonanym eksperymentem nad stałością percepcji kształtu przy użyciu obrazków dwuwymiarowych. Nie została ta teoria jednak zbyt dobrze przyjęta. Biederman uwikłał się w różne dyskusje, próbował się kłócić z Shepardem o to, czy rotacja umysłowa istnieje, czy nie. Wydaje mi się, że było to niepotrzebne, bo wiemy tak naprawdę, że rotacja umysłowa istnieje. Czy ona jest potrzebna do rozwiązywania problemu w tym przypadku, to inny rodzaj pytania. Zrobiło się dużo szumu wokół problemu, który był interesujący i uwaga badaczy tak naprawdę odwrócona została od ważnego problemu na co najmniej 20 lat i przesunęła się na kłócenie się o to, czy rotacja umysłowa istnieje, czy nie i czy prezentacja jest trójwymiarowa, czy nie. Edelman i Bulthoff w 1992 r. zrobili eksperyment, który miał wszystkich przekonać, że percepcja obiektów trójwymiarowych jest dwuwymiarowa. Jak się weźmie spinacz i się go powygina na różne strony, to taki przedmiot się otrzyma w tym eksperymencie. Obrócenie tego spinacza w trzech wymiarach nawet o 30o powoduje, że osoba nie wie, czy to jest ten sam spinacz, czy nie. Jedyną metodą rozpoznania, czy to ten sam spinacz to spojrzeć na ten spinacz pod wieloma różnymi kątami widzenia i zapamiętać wszystkie dwuwymiarowe obrazy na siatkówce i wtedy przy kolejnym pokazaniu spinacza osoba badana może porównać obraz na siatkówce w tej próbie do tych wielu obrazów, które zostały nauczone. Użyli też tych przedmiotów, które oni nazwali, to są ameby. Konkluzja z tego była taka, że Helmholtz miał rację. Percepcyjne reprezentacje obiektów trójwymiarowych w umyśle są niepotrzebne, bowiem osoba nie jest w stanie nawet po małym obrocie rozpoznać przedmiotu. Teraz wiemy, że ten wynik z rolą uczenia w percepcji przedmiotów trójwymiarowych można udokumentować, używając tylko dwóch figur. Jak się użyje każdego innego przedmiotu, uczenie nie jest potrzebne, czyli znowu na 10-15 lat nastała duża dystrakcja w badaniach nad percepcją kształtu, kompletny brak stałości percepcji kształtu.
Psychofizyka
273
Pojawiało się strasznie dużo eksperymentów z bodźcami. Bardzo łatwo stworzyć tu model do tego. Po prostu, jeśli model nie działa, to jest dobry model. ponieważ osoby nie potrafią rozpoznać przedmiotów, model nie potrafi rozpoznać przedmiotów. Brzmi to jak żart, ale jest w tym jakieś ziarno prawdy. Ten rodzaj przedmiotów tak naprawdę nie zmusza teoretyka do wymyślania czegoś, nie stanowi wystarczającego wyzwania do zastanowienia się, jak to się dzieje, że percepcja w trzech wymiarach może być dokładna w przypadku normalnych przedmiotów i marna. Kontrowersje – każdy sprzecza się z każdym w latach dziewięćdziesiątych XX wieku. Były to podstawowe problemy, z którymi wszyscy próbowali się uporać: czy percepcyjna reprezentacja jest dwuwymiarowa czy trójwymiarowa, czy układ wzrokowy w ogóle realizuje stałość percepcji kształtu. Wiele osób twierdziło, że najlepiej zapomnieć o tym zjawisku, po prostu nie istnieje stałość percepcji kształtu i już. Czy umysł jest w stanie dokonywać rotacji w trzech wymiarach, czy rozpoznawanie kształtu zależy od kąta patrzenia? Jak ważne bywa uczenie? Jak ważne są ograniczenia, takie jak prostota czy prazasada prostoty? W drugiej połowie lat dziewięćdziesiątych XX wieku zaczęto badać ten problem, postanowiliśmy rozstrzygnąć przynajmniej, niektóre z tych kontrowersji. Ponownie wykonamy eksperyment. Generujemy takie przedmioty w trzech wymiarach. Czyli to są wielościany, każdy wielościan ma szesnaście wierzchołków i pokazujemy je osobie badanej. W eksperymencie są one stacjonarne i pokazujemy z jednego kąta widzenia. Potem obracamy o 90o, pokazujemy z drugiego kąta widzenia. Pytanie: czy jest to ten sam kształt w pierwszej połowie prób i w drugiej połowie prób? W drugim warunku eksperymentalnym użyliśmy dokładnie tych samych szesnastu wierzchołków, ale zamiast pokazać osobie brzegi wielościanu, to połączyliśmy te wierzchołki w losowej kolejności, żeby stworzyć bodziec, taki jak ten, czyli zdaje się to podobne do tego, co zrobili Edelman i Bulthoff. Wygląda właśnie jak powyginany spinacz. Jest dokładnie 16 punktów z tamtego wielościanu tyle tylko, że to nie wygląda jak wielościan, ale jak linia. Trzeci warunek eksperymentalny: pokazaliśmy same wierzchołki znowu stacjonarne, jedna prezentacja – obracamy o 90o, druga prezentacja – te same 16 punktów albo zupełnie inne 16 punktów. Zrobiliśmy wielościan, w którym niektóre ściany nie były planarne, czyli były takie trochę powyginane. Lewa i prawa strona są symetryczne. Jeśli symetria jest ważna, powinniśmy to widzieć w wynikach. Końcowy, szósty warunek eksperymentalny: wielościan nie jest symetryczny i ściany nie są planarne. Zadanie w każdym przypadku jest takie samo, pokazujemy dwa bodźce tego samego typu 16 punktów, czyli sześć sesji eksperymentalnych. Wykorzystu-
274
Percepcja wzrokowa obiektów trójwymiarowych
jemy metodę detekcji sygnałów. Zainteresowani jesteśmy tym, jak układ wzrokowy postrzega kształty. Udało nam się przetłumaczyć język eksperymentu z opartej na detekcji teorii sygnału. Badaliśmy trzy osoby, które nic nie wiedziały o celu tego eksperymentu. Sprawdzaliśmy widzenie jednooczne i dwuoczne. Gdy kształt spełnia pewne warunki regularności (symetria, planarność ścian) i wszystko jest klarowne, wtedy wyniki okazują się znakomite. Czyli stałość percepcji kształtu osiąga się wtedy, gdy kształty są symetryczne, kontury planarne i reakcje topologiczne na obrazie wskazują, gdzie jest objętość obiektu. Gdy jeden lub więcej z tych ograniczeń jest usunięty, występuje kompletny brak stałości percepcji kształtu. Jeśli wyniki z danych przy widzeniu jednoocznym nie okażą się równie dobre przy widzeniu dwuocznym, to wynika z tego, że informacja a priori, taka jak: symetria, planarność ścian, może być ważniejsza niż dane czuciowe. Kilka obrazków tego samego obiektu nie zastąpią prostoty obiektu. Wydaje się, że najważniejsze kontrowersje są rozstrzygnięte. Percepcyjna reprezentacja obiektów trójwymiarowych jest trójwymiarowa, układ wzrokowy realizuje stałość percepcji kształtu, rola uczenia przypuszczalnie jest minimalna, ograniczenia a priori są krytyczne, zasada minimum działa, układ wzrokowy rzeczywiście realizuje percepcję, która jest najprostsza z możliwych. Badaliśmy to samo w przypadku sześcianów z użyciem różnych wskaźników głębi. Bodźce: użyliśmy tekstury, cieniowania, podkreśliliśmy kontury tego sześcianu i włączyliśmy albo wyłączyliśmy dwuoczne widzenie. Czyli w jednym przypadku dwuoczne widzenie prowadzi do głębi, w drugim są dwa identyczne, także tak naprawdę dwuoczne widzenie nie prowadzi do głębi, czyli mamy osiem warunków eksperymentalnych, wszystkie możliwe kombinacje i zadanie jest takie samo, jak przedtem. Pokazujemy przedmiot losowy – wielościan na pół sekundy, potem go zabieramy, obracamy o 90o potem pytamy, czy to jest ten sam kształt, czy nie. Wyniki są następujące. Znowu dwuoczne widzenie okazuje się trochę lepsze niż jednooczne, ale rola tekstury i cieniowania wydaje się być minimalna. W przypadku, gdy mamy teksturę albo samo cieniowanie, wyniki są takie same albo trochę gorsze niż w przypadku, gdy występują podkreślone brzegi. Gdy połączymy cieniowanie z teksturą, wyniki się nie polepszą, gdy połączymy cieniowanie z brzegami, wyniki okazują się prawie najwyższe. Wyniki trochę się poprawią, kiedy dodamy teksturę, ale niewiele. Gdy mamy wszystkie trzy bodźce, to tak jakby było za dużo informacji, bo dość symetrycznie wyniki osoby są troszkę słabsze. Wypływają z tego dwie podstawowe konkluzje, że cieniowanie i tekstura to nie są wskaźniki głębi, ale wskaźniki konturów na obrazie. Druga interesująca obserwacja przestawia się
Psychofizyka
275
następująco: niezależnie od tego, jak prowadzimy eksperymenty, widzenie dwuoczne i jednooczne są zawsze skomplikowane, to sugeruje, że mechanizmy percepcji kształtu dwuoczne i jednooczne okazują się bardzo bliskie sobie, być może nawet identyczne. Większość teorii dwuocznych nie jest w stanie wytłumaczyć nic z widzenia jednoocznego, to jest tak, jakby istniały dwa systemy w mózgu dla jednego oka i dla dwóch oczu. Ja nigdy nie doświadczam jakiejś dramatycznej zmiany algorytmu jednoocznego na dwuoczny albo w drugą stronę. To przejście okazuje się bardzo ciągłe i wyniki wykazują, że potrzebna jest teoria, która by to wytłumaczyła. W 1988 r. przeprowadzony został eksperyment przez Stevensa i Brookesa. Dotyczył konfliktu między wskaźnikami głębi a symetrią. Informacja dwuoczna informuje układ wzrokowy, że patrzymy na płaszczyznę, tak jak na powierzchnię stołu, która jest nachylona. Informacja jednooczna mówi, że patrzymy w symetryczny tunel. W sytuacji, kiedy jednooczna informacja o symetrii tego tunelu jest postawiona w konflikcie z informacja dwuoczną, informacja dwuoczna jest kompletnie eliminowana. Zrobiliśmy sekwencję eksperymentów, które to ilustrowały. Podstawowy wniosek z nich przedstawia się następująco. Jeśli informacja a priori (constraints) jest sprzeczna z informacją otrzymaną ze wskaźników głębi (binocular disparity, motion parallax), to wskaźniki głębi są ignorowane.
Część III
Modele symulacyjne Prezentacja wybranych modeli do badania percepcji wzrokowej
Psychologowie postaci zdecydowanie mieli intuicję co do tego, że zasada prostoty w układzie wzrokowym jest krytyczna, czyli że z tych nieskończenie wielu interpretacji obrazu na siatkówce układ wzrokowy z reguły wybiera tylko jedną, najprostszą i problem polega na tym, jak zdefiniować tę prostotę. Już wiemy w tym momencie, że symetria nie może być jedynym czynnikiem definiującym prostotę. Oczywiście było dużo dyskusji w historii na temat postrzegania powierzchni. Niektórzy uważali, że postrzegamy przedmioty, kształty za pośrednictwem powierzchni, wydaje się, że ma to sens dlatego, że rzeczywiście światło odbija się od powierzchni, możemy ją dotknąć. Koenderink mierzył percepcję powierzchni, używając tej metody eliptycznej próbki, gdzie osoba badana miała za zadanie ustalić orientację i proporcje elipsy tak, żeby to wyglądało, że to jest małe kółeczko, które leży na powierzchni, najwidoczniej to zadanie wydaje się łatwe dla osoby badanej i szybko można to robić. Więc Koenderink był przekonany, że to wystarcza do uzasadnienia stwierdzenia, że my właśnie postrzegamy obiekty i kształty poprzez mierzenie powierzchni w wielu punktach. Czy tak jest, czy nie? My prowadziliśmy eksperyment, który pokazał, że prawie na pewno tak nie jest. Pokazaliśmy rysunek skrzynki i w jednej sesji osoba badana używała metody Koenderinka z tą próbką. Jak zmierzymy proporcje i nachylenie elipsy tych trzech ścian, to możemy zrekonstruować to pudełko z tych trzech pomiarów. I wtedy możemy pokazać osobie to pudełko obracające się, żeby powiedziała, czy to, co policzyliśmy, trójwymiarowy obiekt tych dwuwymiarowych pomiarów, czy to jest to, co osoba naprawdę widzi, gdy patrzy na ten rysunek. I osoba prawie zawsze mówi, że są to dwie różne rzeczy. W innej sesji osoba
Modele symulacyjne
277
ma za zadanie ustalenie proporcji kształtu równoległoboku tak, żeby ten równoległobok przedstawiał kształt tej ściany, mając te trzy pomiary możemy zbudować przedmiot trójwymiarowy. Pytanie dotyczy tego, czy percepcja kształtu ścian jest zbliżona do percepcji kształtu trójwymiarowego bardziej niż percepcja nachylenia ścian. I odpowiedź jest pozytywna. Okazuje się, że przy założeniu Koenderinka, że my widzimy trójwymiarowe przedmioty za pośrednictwem powierzchni, powstają przedmioty, które są niezgodne z obrazem siatkówkowym, w związku z tym prawie na pewno rekonstrukcje przedmiotu w oparciu o rekonstrukcje powierzchni to nie jest to, co układ wzrokowy robi. Z innych eksperymentów wynika, że układ wzrokowy może policzyć powierzchnię, mając najpierw kształt trójwymiarowy, czyli w odwrotnej kolejności. Nie tak, jak chciał Mach, żeby trójwymiarowy kształt policzony był z powierzchni, tylko powierzchnię można policzyć z trójwymiarowego kształtu, oczywiście istnieją wskaźniki głębi, takie jak: cieniowanie, tekstura, które można lokalnie policzyć. Także powierzchnia ma tak jakby podwójny status w percepcji, możemy postrzegać powierzchnię w oparciu o lokalne wskaźniki głębi albo wnioskować o tym, jak powierzchnia wygląda po zrekonstruowaniu trójwymiarowego kształtu. Tu pojawia się taki przykład, który zilustruje główny punkt. Patrzymy na krzesło i widać, że jest symetrycznym obiektem. Na siatkówce ten obraz nie jest symetryczny. Układ wzrokowy ma teraz dwie drogi. Może przyjąć ten obraz na siatkówce, wtedy będziemy widzieć symetryczne krzesło. Albo używając wskaźników głębi, możemy zrekonstruować powierzchnię tego przedmiotu. Istnieje wiele danych w literaturze, które mówią, że rekonstrukcja powierzchni ze wskaźników głębi nigdy nie jest dokładna, zawsze pojawia się błąd systematyczny, widzimy powierzchnię bliższą. Także, jeśli układ wzrokowy rekonstruowałby powierzchnię tego krzesła, używając wskaźników głębi, to nie mielibyśmy krzesła symetrycznego. Jeśli układ wzrokowy w codziennym życiu budowałby percepcję trójwymiarową przedmiotów w oparciu o powierzchnię, to żaden przedmiot nie wyglądałby symetrycznie. Jeśli istnieje już jakaś informacja w obrazie o symetrii przedmiotu, to dlaczego nie użyć tej symetrii jako założenia przy rekonstrukcji przedmiotu, raczej niż odbudowywać tę symetrię. Istnieje więcej niż jeden argument przemawiający za tym, że kształt nie jest spostrzegany za pośrednictwem powierzchni. Zrobiliśmy kilka eksperymentów dotyczących tego, jak osoby badane są w stanie tak naprawdę stwierdzić, czy obiekt jest symetryczny, czy też nie. Wygenerowaliśmy przypadkowe wielościany, niektóre były symetryczne, inne niesymetryczne. Typowy eksperyment z dyskryminacją symetrii. W każdej próbie był pokazany jeden obraz i pojawiało się pytanie: czy to obraz przed-
278
Percepcja wzrokowa obiektów trójwymiarowych
miotu symetrycznego? Z geometrii wiemy, że każdy obraz symetrycznego obiektu jest zgodny z interpretacja symetryczną, ale i niesymetryczną. Gdy mamy obraz sześcianu na siatkówce, to można wziąć jeden wierzchołek sześcianu i przesunąć go dowolnie w głębi, nie zmieniając jego obrazu na siatkówce, ale produkując całkiem inny kształt, już niesymetryczny. I też na odwrót. W przypadku wielu przedmiotów niesymetrycznych, gdy zrobimy obraz na siatkówce czy fotografię, to nie mamy do czynienia z symetryczną interpretacją. Także zadanie rozróżniania przedmiotów trójwymiarowych pomiędzy symetrycznymi i niesymetrycznymi w oparciu o jeden obraz z matematycznego punktu widzenia jest bardzo skomplikowanym zadaniem. To niezwykle trudny problem obliczeniowy, którego do niedawna nie umiano rozwiązać. Było 400 prób z obrazem niesymetryczny. Także osoba tak naprawdę nie miała większego problemu z dyskryminacją w tym przypadku i myśmy to robili, stosując różnego rodzaju asymetrie. Tu są przedstawione d' jako funkcje, trzy krzywe odpowiadają różnym rodzajom zniekształcenia symetrii, oś odciętych odpowiada stopniowi asymetrii. Oczywiście, gdy jak asymetria jest większa, łatwiej to zróżnicować. Także osoby nie mają problemu w tym zadaniu. Czyli my wiemy, że w oparciu o jeden obraz osoba z dużą pewnością jest w stanie stwierdzić, czy to obiekt symetryczny, czy nie. Jeśli tak to wygląda, to dlaczego nie użyć wtedy symetrii jako informacji a priori w rekonstruowaniu tego przedmiotu. Omówiliśmy metody psychofizyczne i kilka aspektów roli zasady prostoty. Rola zasady prostoty ma długą historie w nauce. W percepcji pojawia się po raz pierwszy z końcem XIX wieku. Psychologia postaci położyła duży nacisk na to i teraz mamy do dyspozycji wiele wyników eksperymentalnych, które rzeczywiście wskazują na to, że ten trudny problem interpretacji trójwymiarowej przestrzeni w oparciu o jeden obraz znowu przypomina o sobie. Jeden dwuwymiarowy obraz pozwala na nieskończenie wiele trójwymiarowych interpretacji. Układ wzrokowy wybiera tylko jedną. Nasze doświadczenie codzienne wskazuje, że wybiera zawsze właściwą. Rosnąca ilość wyników wskazuje, że kluczem do wiernej, realistycznej percepcji jest zasada prostoty. Ale ciągle nie wiemy, co w tej prostocie tkwi. Możemy powiedzieć, że były cztery ważne teorie percepcji kształtu trójwymiarowego. Pierwszy to teoria Gibsona, początek 1950 r. Badacz zaproponował pojęcie bezpośredniej percepcji, które nigdy nie zdało egzaminu. Gibson miał nadzieje, że się uda udowodnić, że nie potrzebna jest żadna prezentacja trójwymiarowa w mózgu, żadne obliczenia. Według niego istnieje tak dużo informacji na siatkówce oka, że my błyskawicznie widzimy trójwymiarową prze-
Modele symulacyjne
279
strzeń taką, jaka jest i tak naprawdę nie trzeba nic liczyć. To się nigdy nie sprawdziło. Był przekonany, że niezmienniki geometrii rzutowej zapewnią właściwe wytłumaczenie stałości percepcji kształtu. Definicja niezmienników w geometrii zupełnie nie pasuje do stałości percepcji kształtu. Mimo, że na pierwszy rzut oka wyglądają bardzo podobnie, bo stałość percepcji kształtu mówi, że kształt jest stały i percepcja również, mimo że istnieją jakieś transformacje niezmienników geometryczne. Przesuwamy przedmiot, ale jego kształt się nie zmienia. Okazuje się, że te dwa pojęcia są dość odległe od siebie i nie da się użyć niezmienników geometrycznych do wyjaśnienia stałości percepcji kształtu. Było naprawdę bardzo dużo prac na temat niezmienników geometrycznych. Jednym z niezmienników w geometrii rzutowej jest to, że linia styczna do innej linii albo do powierzchni musi zostać styczna na każdym obrazie perspektywicznym. Linia styczna w dwóch miejscach do przedmiotu pozostanie linią styczną w dwóch miejscach w każdym obrazie perspektywicznym. Następne twierdzenie mówi, że ten obraz niezależnie od tego, gdzie się znajduje, w której części peryferii, to jest dwuwymiarowy obraz perspektywiczny trójwymiarowej bryły. Te dwa obrazy, każdy z nich jest dwuwymiarowy, są ze sobą związane dwuwymiarowym przekształceniem projekcyjnym. Jeśli znajdują się tutaj dwie linie, które są styczne w dwóch punktach, to muszą się przeciąć na linii, która jest obrazem osi symetrii trójwymiarowego przedmiotu. Takich linii, które są styczne w dwóch miejscach możemy narysować kilka, bo przedmiot wydaje się dość skomplikowany. Wszystkie linie przecięcia par takich dwóch stycznych będą na projekcji osi symetrii i teraz możemy policzyć dwustosunek punktów na prostej jako niezmiennik geometrii projekcji. Wygląda to skomplikowanie, ale da się to zrobić. Niestety nie zawsze istnieje gwarancja, że przedmiot, który mamy, pozwoli nam na wyrysowanie takich linii. Niezmienniki geometryczne mogą być zastosowane do jednego przedmiotu, a do tego już nie. Musimy używać innych niezmienników. Jedna z ważniejszych teorii została stworzona przez Biedermana. Podstawowy błąd, który popełnił Biederman to założenie, że istnieje tylko 20 lub 30 prostych części geonów, z których można zbudować każdy przedmiot. Okazuje się, że w rzeczywistości części te są niekoniecznie tak proste, jak Biederman przypuszczał i po 10-15 latach wiele laboratoriów komputerowego widzenia starało się zaimplementować teorię Biedermana. Była bowiem bardzo obiecująca. Stanowiła pierwszą teorię tak naprawdę w historii, która pozwalała mieć nadzieję, że to może działać nie udało się tego zrobić. Nikt nie pokazał jak można znaleźć geony na obrazie dwuwymiarowym. Ale Biederman na pewno
280
Percepcja wzrokowa obiektów trójwymiarowych
trafił w dziesiątkę, ponieważ wszystkie jego geony były bardzo symetryczne. Wiedział jednak o tym, że nadużył zasady symetrii w bardzo dużym stopniu i to, że ta teoria tak dobrze wygląda dlatego właśnie, że te części pojedyncze mają tyle prostoty geometrycznej w sobie i dlatego każdy przedmiot zbudowany z geonów tak łatwo dostrzec nawet z pojedynczego rysunku. Następna rekonstrukcja z powierzchni to teoria Davida Marra. I znowu matematycznie można wyprowadzić kształt z powierzchni, ale układ wzrokowy tak nie działa i w przypadku błędów pomiarów nigdy by to nie doprowadziło do niczego, co ma sens. I tak naprawdę z reguły nie ma informacji, że tu jest obraz. Teoria zapoczątkowana przez Helmholtza, Poggio i Edelmana w 1990 r. dotyczyła ponownie zapamiętywanie obrazów. My potrafimy zapamiętywać obrazy. Jeśli nic innego nie działa, to jesteśmy w stanie to zrobić, ale nie ma powodu myśleć, że tak układ wzrokowy działa na co dzień. Żadna z tych głównych teorii nie prowadzi do modelu, który byłby w stanie spostrzegać kształty tak dobrze, jak człowiek. Temat percepcji kształtu trójwymiarowego okazuje się szczególny w tym znaczeniu, dlatego że z punktu widzenia matematycznego jest niezwykle trudny. Jeśli pokażę jeden dwuwymiarowy obraz i zapytam, jak wygląda przedmiot trójwymiarowy, to niezwykle trudny problem obliczeniowy. Do tej pory nikt nie wie, jak to się dzieje. Natomiast mózg człowieka robi to znakomicie. Minie 100 lat zanim dowiemy się, jak to działa. Ale z punktu widzenia metodycznego ma to zaletę, gdyż pracując nad modelami percepcji, nigdy nie będziemy musieli zastanawiać się, czy model A albo model B wydaje się bardziej prawidłowy. W tym momencie próbujemy znaleźć jakikolwiek model, który choćby trochę przybliżył się do tego, jak wspaniale robi to układ wzrokowy człowieka. Nie musimy porównywać pięciu modeli między sobą, tylko porównujemy model do tego, jak osoba widzi. Osoby badane widzą kształty tak wspaniale i dokładnie, że to stanowi tak naprawdę cel, który będzie trudno osiągnąć, ale upraszcza pracę badacza, ponieważ nie musimy zwracać uwagi na nieważne szczegóły. Podstawowe pytanie jest następujące: jak obliczyć przedmiot trójwymiarowy, który będzie miał jakikolwiek sens? Ciągle nie ma modelu, który byłby w stanie opisać to, co robi student matematyki, utwierdzając twierdzenia matematyczne albo student fizyki, rozwiązując zadania tekstowe z fizyki. To dość szczególna sytuacja z punktu widzenia eksperymentalnego i teoretycznego. Percepcyjna prezentacja jest trójwymiarowa. Myślę, że w tym momencie możemy zamknąć ten rozdział i zapomnieć o tym, że nie ma trzech wymiarów w umyśle. Te trzy wymiary tam są i tam chyba pozostaną. Informacja a priori jest krytyczna. Pytanie: co oprócz symetrii bywa używane? Informacja a priori
Modele symulacyjne
281
na pewno bywa używana. Kształty są spostrzegane w oparciu o pojedynczy obraz. Dodatkowa informacja, otwarcie drugiego oka albo ruch może być ale nie musi okazać się użyteczne w zależności od tego, jak wygląda eksperyment i powierzchnia obiektów, wydaje się, że jest wtórna względem kształtu. Zmieniamy podejście do percepcji wzrokowej. Wróćmy do tych klasycznych teorii. Informacja a priori nie ma naturalnego zastosowania w podejściu Fechnerowskim. W łańcuchu przyczynowo-skutkowym u Fechnera występuje obiekt, obraz na siatkówce, percepcja. Przetwarzanie informacji odbywa się w jedną stronę. Ten model nie nadaje się zupełnie do naszych rozważań, dlaczego? Gdyż obiekt jest trójwymiarowy, obraz dwuwymiarowy, a percepcja – trójwymiarowa, tu nie ma przyczyny i skutku. Nie wystarcza przyczyna i skutek, nie wystarcza, że w mózgu istnieje sekwencja „popchnięć” – cząsteczka X popchnie cząsteczkę Y, Y popchnie Z i na końcu percepcja wyskoczy. Tak to nie działa, ponieważ mamy tutaj mapowanie z dwóch wymiarów do trzech wymiarów, to jest mapowanie z jednego do wielu i to nie da się tego zrobić metodą łańcucha przyczynowo –skutkowego. Problem okazuje się bardziej interesujący niż Fechner uważał. W przypadku prostych cech , takich jak: porównywanie ciężarków czy porównywanie jasności światła, to podejście do percepcji okazuje się zupełnie wystarczające. Ale wydaje się mniej jasne, jak układ wzrokowy potrafi mierzyć kształt na siatkówce. Tu znowu odwołujemy się do sześcianu. Jeśli my widzimy sześcian i istnieje nieskończenie wiele trójwymiarowych interpretacji, my zawsze widzimy sześcian i nie wiadomo, co układ wzrokowy miałby mierzyć na siatkówce, żeby powstała percepcja sześcianu. Fechnerowi wydawało się, że percepcja sprowadza się do niczego innego, jak tylko do mierzenia pewnych rzeczy na siatkówce, a potem reszta sama z siebie się pojawi. Tutaj zmierzymy wszystkie odcinki, kąty i ciągle nie ma sześcianu. Także podejścia, które na razie założymy, że wszystkie cechy są dokładnie zmierzone, ciągle nie możemy wyjaśnić. Percepcja odpowiada tylko jednemu właściwemu obiektowi. Żeby uniknąć teoretycznych i praktycznych trudności związanych ze słabościami tego podejścia, trzeba je zmienić. I to stanowi powód do przypuszczenia, że przez dużą część XX wieku badacze zajmowali się właśnie takimi problemami percepcji, nie innymi tylko dlatego, że nie wiedzieli, jak wyjść z tego podejścia Fechnerowskiego. Badania percepcji w XX wieku były zdominowane badaniem prostych rzeczy, np. orientacja odcinka, krzywizna krzywej. Nie wiedziano, jak podejście Fechnerowskie zastosować do problemu stałości percepcji kształtu, więc tego nie badano. Bardzo interesujące z filozoficznego punktu widzenia teoretyczne
282
Percepcja wzrokowa obiektów trójwymiarowych
założenie, jak system działa, powoduje, że eksperymentator jest ograniczony w formułowaniu problemów badawczych. Nowe podejście zaczyna się tak naprawdę wraz z artykułem Poggio z 1985 r. Musimy rozbić łańcuch przyczynowo-skutkowy na dwie części, nie ma innej rady. Pierwsza część to formowanie obrazu na siatkówce, z tym nie ma problemu, optyka geometryczna potrafi to wyjaśnić. Robimy zdjęcie i wiemy, jak się formułuje obraz na siatkówce. To jest problem wprost. Większość problemów wprost w fizyce, chemii, wszystkich naukach przyrodniczych i inżynierskich jest łatwych w tym znaczeniu, że są dobrze postawione i dobrze uwarunkowane. Co więcej, badacz z reguły nie musi się martwić problemem wprost, bo jest on rozwiązany tak jakby przez prawa fizyki. Obraz na siatkówce stworzony zostaje przez światło, więc mózg nie musi się tym martwić. To, co mózg musi rozwiązać, to problem odwrotny. Czyli powinien w oparciu o dwuwymiarowy obraz na siatkówce wyliczyć, jak przedmiot wygląda. Teoria problemów odwrotnych została sformułowana dopiero w latach sześćdziesiątych XX wieku. Grupa radzieckich matematyków formalnie zdefiniowała, co to jest problem odwrotny. Zajmowała się tym, w jakim znaczeniu problemy bywają źle postawione, uwarunkowane i co trzeba zrobić, aby zmienić źle uwarunkowany problem odwrotny w dobrze uwarunkowany problem odwrotny, a następnie go rozwiązać. Psychologowie postaci nie mieli tego aparatu, nie byli w stanie sformalizować swoich pomysłów. X to punkt w trójwymiarowej przestrzeni i Y to punkt na siatkówce. Perspektywę można prezentować macierzą i policzenie Y z X jest proste dlatego, że przechodzimy z trzech wymiarów do dwóch. Mózg musi policzyć X z Y. Gdyby problem był dobrze postawiony i dobrze uwarunkowany, to by sprowadziło się tylko do podliczenia macierzy odwrotnej. Jeśli pomnożymy obie strony pierwszego równania macierzowego przez odwrotność A, to otrzymujemy drugie równanie, które jest rozwiązaniem. Problem polega na tym, że A nigdy nie jest jednoznacznie określone, ponieważ A nie stanowi macierzy kwadratowej, a to z tego powodu, że przestrzeń jest trójwymiarowa, a obraz dwuwymiarowy. Odwrócić tej macierzy się nie da, a jeśli ją odwrócimy, to nie będzie jednoznacznie określona. Jedyna metoda to nałożenie ograniczeń a priori. Jeśli wiemy, jak ma rozwiązanie wyglądać, wtedy możemy to rozwiązać. Musimy wiedzieć, jak przedmiot ma wyglądać, nie oznacza to, że wtedy pojawi się jednoznaczne rozwiązanie, ale jeśli zgrabnie i sprytnie wybierzemy ograniczenia, to rozwiązanie będzie istniało. Jeśli założymy, że szukamy wieloboków symetrycznych, jesteśmy w stanie przewidzieć, jak będzie wyglądała percepcja. Niestety matematyka nie była wystarczająco rozwinięta w latach 30-
Modele symulacyjne
283
tych XX wieku. Kilku kwestii brakowało psychologom postaci, nie było problemów odwrotnych. Teoria informacji, potrzebna do mierzenia prostoty informacji, ilości informacji nie istniała i nie było komputerowych symulacji, w których można rozwiązywać różne zadania optymalizacji. Także po prostu psychologowie postaci przyszli za wcześnie, a potem zniknęli ze sceny. Max Wertheimer zmarł w 1941 r., dość młodo. Kaffka popełnił samobójstwo w 1943 r. Köhler żył do 1967 r. Także patrząc na te daty, Köhler miał szansę dokonać tego przeskoku, ale nigdy już się nie załapał na to nowe podejście kognistywistyczne Köhler był tak zajęty tymi prawdami w mózgu, że nie zwracał uwagi na rewolucję kognitywistyczną, na teorię informacji. Oczywiście nie miał dostępu do teorii problemów odwrotnych. Pierwsza praca na temat problemów odwrotnych w języku angielskim pojawiła się w późnych latach siedemdziesiątych XX wieku, także zajęło to prawie 15 lat zanim informacja z języka rosyjskiego została przetłumaczona na angielski. Ta grupa matematyków pracowała w Moskwie, publikowali w rosyjskich czasopismach i nie interesowało ich, co ludzie robią na świecie. Przykład regularyzacji. Widzimy koło. W skończonej ilości punktów na okręgu jest pomiar informacji, trochę więcej niż tych punktów, ale ciągle to skończona ilość punktów na okręgu. Tak naprawdę mózg otrzymuje taką informację, bo receptory na siatkówce nie są regularne, więc te receptory, które widzą kawałek konturu, utworzą taki obraz. Z tego wynika, że percepcja kółka nie przedstawia się po prostu tak, że jest kółko na siatkówce. Układ wzrokowy musi zrobić dużo obliczeń zanim pojawi się kółko w percepcji i wydaje się, że to, co układ wzrokowy robi, to znajduje minimum tej funkcji. Można postawić pytanie: jaka krzywa zamknięta zapewnia najlepszą aproksymację tych punktów pomiarowych i jednocześnie jest maksymalnie gładka? Pierwszy człon, czyli to jest funkcja celu. Percepcja składa się z dwóch członów. To tak, jak wygląda każda teoria, każdy model regularyzacji w tym momencie, kiedy używa się informacji a priori i danych zmysłowych. Pierwszy człon opisuje dane zmysłowe. W tym przypadku Y to te dyskretne dane pomiarowe na siatkówce, X to jest to, co chcemy policzyć, interpretacja percepcyjna, ciągła krzywa. Jeśli użylibyśmy tylko tego członu, to zawsze możemy znaleźć krzywą na siatkówce, która przechodzi przez każdy punkt perfekcyjnie, czyli nie ma żadnego błędu. Pierwszy człon mierzy odległość krzywej od najbliższego punktu, czyli jeśli byśmy chcieli wpasować kółko tutaj, to ono nie przejdzie przez każdy punkt i będzie błąd pomiędzy percepcją a siatkówką. Jeśli percepcja chciałaby dopasować siebie do siatkówki maksymalnie, jeśli tylko ten człon by istniał, to krzywa byłaby jakaś taka skomplikowana, która prze-
284
Percepcja wzrokowa obiektów trójwymiarowych
szłaby przez każdy punkt tak. Naprawdę jest nieskończenie wiele krzywych, które przechodzą przez każdy punkt. Ale mamy drugi człon, kappa. Tutaj jest krzywizna, która stanowi odwrotność promienia stycznego do krzywej w danym punkcie. Jak kappa jest mała, to linia okazuje się bardzo bliska linii prostej. Gdy kappa jest duża, to i krzywizna jest duża. W tym momencie liczymy pierwszą pochodną krzywizny, czyli mierzymy, jak bardzo krzywizna się zmienia, bo my w linii prostej chcemy widzieć kółko, mierzymy, jak bardzo krzywizna się zmienia. Krzywizna jest stała dla całego koła. Ma tą samą wartość. Czyli w tym przypadku mierzymy zmianę krzywizny, podnosimy do kwadratu, chcemy, żeby każda zmiana krzywizny wchodziła do funkcji celu i teraz minimalizujemy sumę tych dwóch szukanych krzywej, która jest maksymalnie gładka i jednocześnie jak najbliższa punktom pomiarowym. Rozwiązaniem może być kółko. Wszystko zależy od tego, jaki będzie współczynnik regularyzacji. To wielka niewiadoma. Jeśli lambda jest bliska 0, to powstanie krzywa, która nie będzie zbytnio gładka, ale za to bliska każdemu punktowi. Jeśli lambda będzie bardzo duża, to krzywa będzie bardzo gładka, ale może być bardzo daleko od punktów pomiarowych. Musi zaistnieć kompromis. Lambda tak naprawdę wyraża stosunek pomiędzy wiarygodnością danych czuciowych i prawdopodobieństwem, że informacja a priori jest wiarygodna z matematycznego punktu widzenia. Układ wzrokowy potrafi zmierzyć te dwie rzeczy, czyli jeśli obraz na siatkówce ma dużo szumu, to układ wzrokowy by powiedział, że używać dużego lambda, gdyż dane są mało wiarygodne. Jeśli natomiast pojawia się informacja z siatkówki, że dane są dość precyzyjne, wtedy przesuwamy ciężar w kierunku danych. Zamiast tego parametru możemy użyć innego, który po angielsku nazywa się compactness. Dwuwymiarowy compactness po polsku to zwartość. Liczę pole powierzchni krzywej, w tym momencie okręgu i dzielę przez kwadrat długości obwodu. Koło jest krzywą dwuwymiarową, która ma największą zwartość ze wszystkich istniejących krzywych. Kwadrat też ma bardzo dużą zwartość. Z kolei bardzo skomplikowana krzywa będzie miała bardzo małą zwartość dlatego, że pojawi się dużo tego obwodu i stosunkowo mało powierzchni. Jeśli zamiast miary gładkości wstawimy odwrotność dwuwymiarowej zwartości, otrzymamy to samo rozwiązanie, czyli używając bardzo globalnych informacji a priori, mamy powierzchnię i obwód, nie posiadamy żadnej informacji o kształcie obwodu, jesteśmy w stanie otrzymać niezwykle proste rozwiązanie, czyli dwuwymiarowa compactness. Zwartość ma coś wspólnego z prostą. Koffka pisał, że koło jest najbardziej idealną figurą dwuwymiarową, a kula to naj-
Modele symulacyjne
285
doskonalszy przedmiot, gdyż ma największą zwartość i jednocześnie są najbardziej symetryczne. Istnieją twierdzenia w dziale matematyki, który zajmuje się zwartością, nazywa się je nierówności izoperymetryczne – dość stara dziedzina rachunku wariacyjnego. Udowadnia się, że jeśli przekształcimy figurę z mniej zwartej na bardziej zwartą, to figura stanie się bardziej symetryczna, czyli dodawanie więcej objętości przedmiotu powoduje, że ona jest bardziej regularna. Istnieje statystyczna wersja tych twierdzeń. Możemy wziąć pod uwagę twierdzenie Bayesa. Jeśli to są prawdopodobieństwa warunkowe: X uwarunkowane Y, Y uwarunkowane X, to jest prawdopodobieństwo a priori, to twierdzenie Bayesa wygląda w ten sposób. Jeśli Y to nasze dane pomiarowe na siatkówce, a X to interpretacja (my chcemy widzieć koło), to torowanie może być użyte w tym przypadku, wówczas prawdopodobieństwo opisze, jaki jest rozrzut obrazu koła od punktów pomiarowych. Jest to informacja a priori, jak gdyby obserwator mógł wiedzieć, jak prawdopodobne są w przyrodzie kółka w odróżnieniu od innych krzywych. Można pominąć to w zadaniu optymalizacji, wówczas stała, która nie bierze udziału (prawdopodobieństwo a posteriori) określa teraz, jakie jest prawdopodobieństwo. Patrzymy na krzywą numer jeden, dwa, trzy, cztery, zakładając, że dane są Y i to twierdzenie Bayesa, bardzo podstawowe, zawsze jest prawdziwym w matematyce. Gdy wstawimy za te prawdopodobieństwa właściwą interpretację, mianowicie likelihood wstawimy a priori informacje o obiektywach w trzech wymiarach, to jesteśmy w stanie policzyć tę funkcję a posteriori i ta metoda nazywa się maximum a posteriori estimate – MAP. Bierzemy informację, która ma największe prawdopodobieństwo. Kiedyś wydawały się niezgodne ze sobą. Tak samo można by powiedzieć, że formowanie Bayesa i formowanie przy użyciu funkcji celu są jak gdyby niezgodne, bo jedna używa informacji deterministycznej, druga informacji proglistycznej. Matematycznie nie ma różnicy, jeśli weźmiemy naszą funkcję celu, tak jak w przypadku tego koła i P reprezentuje prostotę rozwiązania, jeśli napiszemy równanie Bayesa, zlogarytmujemy je ze znakiem ujemnym, to tak naprawdę matematycznie można ten człon są identyczne i minimalizacje funkcji dają identyczne rozwiązania, także percepcja jest rozwiązaniem problemu optymalizacji. Wspomniałem już, że to ma dużo wspólnego z zasadą Ockhama. Równoważność tych równań daje nam nadzieję na to, że najprostsza interpretacja rzeczywiście ma szansę być najwłaściwszą, najbardziej prawdopodobną. I znowu przykład Macha z jego publikacji. Jeśli na siatkówce jest linia, odcinek prosty, jedna hipoteza mówi, że odcinek jest dłuższy, jakoś odrzucony w trzech
286
Percepcja wzrokowa obiektów trójwymiarowych
wymiarach i na siatkówce pojawia się właśnie taki obraz. Ale możliwe, że my patrzymy na kółko tylko z brzegu. Mach powiedział, że ta interpretacja jest geometrycznie prostsza, ponieważ linia prosta jest geometrycznie prostsza od okręgu mniej parametrów potrzeba, więc jeśli układ wzrokowy stosuje zasadę prostoty, to mając odcinek na siatkówce powinien się widzieć jej odcinek w trzech wymiarach, nie okrąg, bo to jest prostsze z punktu widzenia prawdopodobieństwa. Jeśli weźmiemy odcinek w trzech wymiarach i zaczniemy go obracać, to większość pozycji tego odcinka w trzech wymiarach spowoduje odcinek na siatkówce, tylko jeden spowoduje punkt. Gdy weźmiemy okrąg i zaczniemy obracać w trzech wymiarach, większość kierunków widzenia spowoduje elipsę, tylko jeden punkt widzenia prawdopodobieństwa. Jeśli mamy odcinek prosty na siatkówce, jest dużo bardziej prawdopodobne, że patrzymy na odcinek prosty niż na okrąg. Według Macha, zasada prostoty i zasada prawdopodobieństwa to dwie strony tego samego medalu. Z matematycznego punktu widzenia ma to głęboki sens. Jeśli zrobimy fotografię sześcianu z dowolnego punktu widzenia i zapytamy: jaki przedmiot trójwymiarowy, który jest zgodny z tym obrazem, ma najwięcej symetrii w trzech wymiarach, to padnie odpowiedź: sześcian. Czyli nie potrzeba nic poza maksymalizacją z ilości symetrii, żeby przewidzieć, jak będzie wyglądała percepcja. W życiu jednak przedmioty są mniej regularne niż sześcian, więc pojawia się pytanie: czy to ma zastosowanie do obiektów z naszego otoczenia? Odpowiedz brzmi: tak, ponieważ kształty są cechami wielowymiarowymi i mają na tyle regularności w sobie, że jeśli sprytnie sformułujemy tę zasadę prostoty, to powinno to działać. Dwa różne obiekty nigdy nie dają takich samych obrazów na siatkówce, ponieważ kształty są wielowymiarowe i tutaj jeśli tylko namaluje kontury tych przedmiotów, widzimy je bez kłopotu i mamy nadzieję, że stosując zasadę prostoty będziemy w stanie przewidzieć percepcje trójwymiarową. Rola prostoty – dlaczego prostota i symetria? Co się za tym kryje, jeśli widzimy to jako trójwymiarowy przedmiot. Teraz znowu pokażę powyginany spinacz i zrobię ten spinacz w taki sposób, że połączę wierzchołki sześcianu w losowej kolejności odcinkami, czyli narysuję taki zygzak w trzech wymiarach, to nie będzie percepcji trójwymiarowej. Niewiele zmieniłem, te same osiem wierzchołków, tylko są połączone w innej kolejności, po lewej stronie jest percepcja trzech wymiarów, po prawej nie ma. Jeśli wyeliminujemy wszystkie ślady symetrii z obrazu na siatkówce albo przedmiotu, to nie będzie percepcji trójwymiarowej. Przypuszczalnie w tym przykładzie po prawej stronie przedmiot jest tak nie regularny, że żadna wersja zasady prostoty nie daje
Modele symulacyjne
287
się zastosować. Układ wzrokowy rezygnuje z rozwiązywania zadania otwartego. Widzimy dwuwymiarową krzywą. Wydaje mi się, że to jest ważna obserwacja, że przez większość czasu na co dzień układ wzrokowy podejmuje zadanie problemu odwrotnego i go rozwiązuje. W sumie nie wydaje się trudne, by z laboratorium skonstruować bodźce w taki sposób, że zasada prostoty spowoduje zmiany źle postawionego problemu na dobrze postawiony problem z matematycznego punktu widzenia i wtedy układ wzrokowy rezygnuje, nie rozwiązuje problemu odwrotnego. Percepcja zgadza się z obrazem na siatkówce, to jedyny przypadek, w którym my widzimy swoją siatkówkę. Kolejny przykład jest trochę bardziej subtelny. Krzywa po prawej nie jest symetryczna w trzech wymiarach, ale wydaje się wystarczająco symetryczna. Jeśli obraz na siatkówce daje wystarczająco informacji, gdzie jest symetria przynajmniej cząstkowa w trzech wymiarach, jeśli topologia obrazu na siatkówce okazuje się wystarczająco bogata i informacje sformułują wierzchołek w trzech wymiarach, w szczególności, jeśli topologia jest wystarczająco bogata, by poinformować układ wzrokowy o ty, gdzie znajduje się objętość, środek przedmiotu, wewnątrz w opozycji do zewnątrz przedmiotu, wtedy widzimy przedmiot trójwymiarowy. Rola symetrii jakoś nie została dostrzeżona przez psychologów. Trudno jest znaleźć wokół siebie pojedynczy przedmiot w naszym otoczeniu, który nie wydaje się symetryczny. Wszystkie zwierzęta są symetryczne. Symetria nie musi być perfekcyjna, ale trudno znaleźć przedmiot zdecydowanie niesymetryczny. Symetria jest wszędzie. Występuje kilka jej rodzajów, np. symetria obrotowa, lustrzana, spiralna, translacyjna. Wydaje się, że lustrzana symetria jest najważniejsza dla człowieka. Istnieją pewne doświadczenia, które sugerują, że układ wzrokowy nie używa symetrii obrotowej jako informacja a priori, natomiast symetrii lustrzanej i translacyjnej na pewno. Skoro symetria jest wszędzie, to po co rekonstruować symetrię z danych zmysłowych? Jeśli wszystkie przedmioty są trójwymiarowe, to po co szukać na obrazie siatkówkowym informacji, że są trzy wymiary? My wiemy, że istnieją trzy wymiary w otoczeniu dlatego, że takie otoczenie było zawsze w ewolucji. Nie ma przedmiotów dwuwymiarowych. Także szukanie symetrii w danych zmysłowych i objętości jest niepotrzebne, te dwa parametry znajdują się zawsze w obiektach. Vetter i Poggio w 1994 r. opublikowali to artykuł, w którym pokazali, jak symetria może być użyta jako informacja a priori. Poggio był przekonany, że przypadek symetrycznego obiektu jest taki szczególny, że nie warto sobie tym głowy zawracać, że trzeba zbudować teorię, która wyjaśni dużo bardziej ogólny przypadek, ale symetria to jest ten ogólny przypadek, bo nie ma przedmiotów
288
Percepcja wzrokowa obiektów trójwymiarowych
niesymetrycznych. Także w ciągu ostatnich 10 lat można zaobserwować dużo ruchu w dziedzinie używania symetrii jako informacji a priori, zarówno w komputerowym widzeniu, jak i w ludzkim widzeniu. Jeśli mamy przedmiot, który ma zwierciadlaną symetrię, mamy jeden obraz przedmiotu, może być twarz ludzka. Z matematycznego punktu widzenia to jest tak samo, jakbyśmy mieli dwa różne obrazy połowy twarzy ludzkiej. Bo połowa to po prostu odbicie drugiej połowy. Jeśli mamy trzy obrazy trójwymiarowe przedmiotu, to pozwalają na policzenie tego przedmiotu. Jak mamy dwa to rozwiązanie nie jest jednoznaczne, ale prawie jednoznaczne dlatego, że dwa obrazy dowolnego przedmiotu trójwymiarowego określają kształt tego przedmiotu, jego parametry, za wyjątkiem jednego – kąta nachylenia płaszczyzny symetrii. Ta jedna niewiadoma występuje, gdy rekonstruujemy przedmiot z dwóch obrazów. Jeśli mamy jeden obraz symetryczny, to tak, jak dwa obrazy połówki, czyli od razu wiemy, że z matematycznego punktu widzenia, niezależnie od tego, jak skomplikowany jest przedmiot, czy ma 1000 czy 1 000 000 punktów. Jeden obraz, wracając do argumentu Berkeleya, jeśli mamy 1000 punktów jest 1000 niewiadomych, jeśli 1 000 000 punktów – 1 000 000 niewiadomych. Dla każdego punktu trzeba policzyć głębię, ale jeśli wiemy, że te miliony punktów tworzą symetryczną konfigurację w trzech wymiarach, to jest tylko jedna niewiadoma do policzenia wszystkie inne 999 999 wynikają z symetrii. Symetria na pozór w jakiś sposób umknęła uwadze dlatego, że jest takie założenie, że symetria jak gdyby redukuje ilość informacji przez czynnik drugi, bo musimy tylko opisać lewą stronę, a prawa to już odbicie jak gdyby. Koszt jest dwukrotny w przypadku rekonstrukcji trójwymiarowego przedmiotu z jednego obrazu. Zysk nie okazuje się dwukrotny, zysk może być 1000-krotny, 1000000-krotny, im bardziej skomplikowany przedmiot, tym większy zysk. Jeden parametr do oszacowania, czyli teraz nasze zadanie jest dużo prostsze. Jeśli zdecydujemy, że używamy symetrii jako informacji a priori, to musimy oszacować tylko jeden parametr dowolnego kształtu. Czyli wracamy do stwierdzeń psychologów postaci. Rekonstrukcja kształtu skomplikowanego przedmiotu może być łatwiejsza od rekonstrukcji pojedynczego punktu albo dwóch punktów. Ostatnia rzecz, którą układ wzrokowy mógłby zrobić, to rekonstrukcja przedmiotu poprzez rekonstrukcję poszczególnych jego elementów. Trzeba zrobić wszystko na raz, mając symetrię. Symetria jest globalną informacją. Żadna z istniejących teorii tego nie wyjaśni. Całość nigdy nie jest równa sumie składników w przypadku percepcji kształtów trójwymiarowych z rolą symetrii. I to tak naprawdę zmienia podejście do percepcji dość dramatycznie.
Modele symulacyjne
289
Rozważmy dwa punkty, które są symetryczne w tym momencie. Istnieją trzy wymiary, ale patrzymy na to z góry, czyli oś Z to byłaby oś głębi, a to jest siatkówka, mamy dwa punkty i załóżmy, że one są symetryczne względem tej płaszczyzny, która tutaj jest prostą. Załóżmy też dla prostoty, że ta płaszczyzna tworzy kąt 45˚ z siatkówką, tak nie musi być, ale to najprostszy przykład. Jeśli to obraz siatkówkowy tego punktu, to symetryczną konfigurację w trzech wymiarach oblicza się w następujący sposób. Głębia tego punktu jest pozycja na siatkówce tego punktu i mamy rozwiązanie w trzech wymiarach, jest symetryczne względem tej osi symetrii. I tak zawsze możemy zrekonstruować dowolny obiekt symetryczny zakładając, że płaszczyzna symetrii tworzy kąt 45o, jeśli tworzy inni kąt, obliczenia okazują się bardziej skomplikowane, ale niedużo. Jeśli zmienimy, to tak naprawdę musimy zgadnąć, jaki jest kąt płaszczyzny symetrii. Jeśli zmienimy ten kąt, to zmienią się proporcje zrekonstruowanego trójwymiarowego przedmiotu. Układ wzrokowy wybiera interpretację, która ma najwięcej objętości przy danym polu powierzchni. Maksymalizuje trójwymiarową zwartość. W większości przypadków to właściwa rekonstrukcja, czyli interpretacja między statystycznymi aspektami tego, że jest w sumie losowa, kąt widzenia jest losowy. Gdy patrzę na poszczególny obiekt, to nie wiem, z którego kąta patrzę, ale zakładamy, że ten kąt patrzenia został losowo wybrany. Interpretacja pomiędzy losowością kąta widzenia a symetrią okazuje się taka sprytna, że wybierając maksymalnie zwarty obiekt, to 95% czasu to właściwa rekonstrukcja. Mamy kilka przykładów na to, jak to działa w praktyce. Istnieją a priori ograniczenia, które wprowadzają drobną korekcję: maksymalna symetria, maksymalna planarność, maksymalna zwartość i minimalne pole powierzchni. Wiemy z wielu doświadczeń, że jeśli krzywa może być spostrzegana jako planarna, to taka jest. Nie chcemy być zależni od rozmiaru przedmiotu. Modyfikujemy tę proporcję, dając lekkie obciążenie w kierunku minimalizowania powierzchni. Jedyna sytuacja, w której zastosowanie maksymalnej zwartości w kombinacji z symetrią doprowadzi do dużych błędów, jeśli przedmiot jest bardzo wydłużony. Jeśli patrzę z takiego punktu widzenia, że obraz na siatkówce okazuje się bardzo zwarty, to wtedy ten model spowoduje, że zrekonstruowany przedmiot będzie dużo krótszy niż powinien być. Jednak prawdopodobieństwo, że ja będę patrzył z punktu widzenia jest stosunkowo małe. Animacja jest policzona na wydłużony ekran, po prawej stronie mamy trójwymiarowy wielościan. Tworzymy go losowo i potem losowo wybieramy kąt patrzenia. To obraz, który jest jednym z możliwych obrazów tego przedmiotu. To, co widzimy, patrząc na ten przedmiot pewnie nie wydaje się bardzo
290
Percepcja wzrokowa obiektów trójwymiarowych
odległe od tego przedmiotu w rzeczywistości, z czego wynika, że nasz układ wzrokowy jest w stanie odtworzenia trójwymiarowego kształtu z jednego obrazu. Model bierze opis obrazu na siatkówce, błędne informacje, które cechy były odpowiadające sobie w trzech wymiarach, tworzy jednoparametryczną rodzinę trójwymiarowych kształtów, które są symetryczne i zgodne z tym obrazem, wybiera przedmiot, który ma maksymalną zwartość w trzech wymiarach i otrzymuje kształt zrekonstruowany, który jest praktycznie identyczny z kształtem symulowanym. Co więcej, model potrafi policzyć cały kształt wyłącznie z tym, co jest schowane po drugiej stronie. Następny przykład, ten sam przedmiot, tylko inny model krzesła trójwymiarowego. Zastosowaliśmy jeden z algorytmów do znalezienia konturów tego krzesła. To jest dwuwymiarowy obraz, my stosujemy nasz algorytm, a model jest stosowany do konturów i rekonstruuje kontury w trzech wymiarach. Jedna część krzesła jest niewidoczna na obrazie, ale my ja rekonstruujemy. Gdy kontury są zrekonstruowane w trzech wymiarach, to stosujemy symetrię i z jednoparametrycznej rodziny wybieramy krzesło. Kontury nie mają żadnej objętości, to jak zastosować maksymalną zwartość w trzech wymiarach do takiego przedmiotu? Maksymalizujemy w tej rodzinie jednoparametrycznej trójwymiarową zwartość tego, co się nazywa wypukłą otoczką. Konstrukcja jest stosunkowo prosta. Wyobraźmy sobie, że mamy trójwymiarowy przedmiot, bierzemy dużą płaszczyznę i przykładamy ją do wszystkich części wkoło i to, co wyniknie, to będzie wypukła otoczka. Wypukła w tym znaczeniu, że ten przedmiot geometrycznie jest wypukły, według klasycznej definicji wypukłości, ale teraz mamy powierzchnię i objętość w środku, czyli tworzymy trójwymiarową wypukłą otoczkę tych konturów. Wybieramy tę informację, która ma maksymalną zwartość i kontury, które wynikają z tego, to całkiem dobra rekonstrukcja. Mamy teraz ciężarówkę, znowu model trójwymiarowy. Rysujemy tylko widoczne kontury, a rekonstruujemy cały przedmiot. Niby wiadomo, gdzie jest objętość, ale tylko kontury są obecne. Trudno zgadnąć, gdzie znajduje się objętość, ale jeśli policzymy tą trójwymiarową otoczkę, to problem powinien zostać rozwiązany. Weźmiemy teraz ptaka. Znowu robimy wszystko to samo i otrzymujemy zrekonstruowany przedmiot z jednego obrazu. W tym momencie możemy ocenić, że ta rekonstrukcja jest tak naprawdę bliska prawdziwej. Czyli tezę Berekleya co do tego, że układ wzrokowy nigdy nie będzie w stanie zrekonstruować głębi możemy włożyć między bajki. Trójwymiarowy kształt jest odtworzony z jednego obrazu w oparciu o informacje a priori – głównie symetria i compactness. Odtwarzanie kształtu pro-
Modele symulacyjne
291
wadzi z reguły do poprawnej interpretacji. Mamy eksperymenty psychofizyczne, model i osoby badane, którym przedstawiliśmy takie same obrazy i poprosiliśmy je o zrekonstruowanie kształtów trójwymiarowych, używając metody Adjustment. Osoby badane zrekonstruowały model, mierzyliśmy, jak się do siebie mają te modele i jak się mają do prawdziwych kształtów. Wszystko się zgadza. Powstaje pytanie: jeśli to tak dobrze działa z jednego oka, po co dwoje oczu? Wszystkie kręgowce mają dwoje oczu, wszystkie naczelne mają oczy z przodu głowy, może drugie oko to jest zapasowa część, skoro wszystko można zrobić przy pomocy jednego. Otóż są interesujące spostrzeżenie na ten temat. W ostatnich latach zmierzyliśmy psychofizycznie, jak osoby badane rekonstruują kształty dwuocznie w porównaniu z jednoocznymi i uwzględniliśmy warunki widzenia, które są stosunkowo bliskie tym kierunkom, gdzie jest bardzo mało informacji z symetrii. Tak naprawdę pozostaje kombinacja z symetrii i compactness. Spowodowałaby, że zrekonstruowany kształt byłby bardzo cienki, model robi takie błędy i osoby robią je również. Jeśli się pozwoli osobie patrzeć dwojgiem oczu, nawet te błędy znikają. Dwuoczny obserwator widzi trójwymiarowe kształty bez żadnego ograniczenia. Już na kąt widzenia nie ma żadnych błędów, o ile odległość od przedmiotu wynosi metr, dwa metry i te obrazy na siatkówce dwóch oczu są wystarczająco różne. Połączenie tej informacji dwóch oczu z symetrią. Wiemy, że osoby badane są w stanie oceniać kolejność punktów w głębi, to się nazywa stereoacuity. Precyzja tej oceny jest 10 razy lepsza niż odległość receptorów na siatkówce. Biorąc pod uwagę fakt, że osoba jest w stanie ocenić kolejność punktów w głębi tak dobrze, nasuwa przypuszczenie, że to wcześniej czy później powinno być zastosowane do jakiegoś poważnego problemu. Myśmy znaleźli sposób, jak połączyć ten rodzaj percepcji dwuocznej z symetrią, żeby tak naprawdę wyjaśnić to zachowanie osób badanych. W rekonstrukcji kształtu dwuocznie osoby badane tak naprawdę nie robią żadnych błędów. Teraz przy dwuocznym widzeniu model nie robi żadnych błędów i my wiemy, jak to się dzieje. Załóżmy, że obserwator jest z prawej strony, patrzmy z góry, ten ruch pokazuje całą tą jednoparametryczną rodzinę trójwymiarowych kształtów. Widzimy, że każdy kształt jest symetryczny, tylko płaszczyzna zmienia kąt i proporcje kształtu się zmieniają. Zmieniając proporcje kształtu, zmieniamy kolejność punktów w głębi, czyli układ wzrokowy jest w stanie tworzyć kolejność punktów w głębi. Kolejność punktów w powiązaniu z informacją o symetrii daje niezwykle precyzyjną konstrukcję metryczną cech kształtu. Dwuoczne widzenie ma więc dwie funkcje: percepcja odległości (nieprecyzyjna) i percepcja kolejności w głębi (niezwykle precyzyjna).
292
Percepcja wzrokowa obiektów trójwymiarowych
Podsumowanie całości. Mieliśmy 1000 lat historii, widzimy kształty takimi, jakie są, percepcja kształtu wymaga stosowania informacji a priori. Kształt jest wyjątkowy, bo jest wielowymiarowy. Nie ma możliwości, z matematycznego punktu widzenia, zrobienia żadnej z tych sztuczek w przypadku koloru czy percepcji, rozmiaru, wagi, prędkości, to może tylko wyjść w przypadku cech. Percepcja powinna być modelowana jako zadanie optymalizacji.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego