Koncsag Elล d
Biometria madรกrtรกvlatbรณl
„A statisztikus gondolkodásmód egyszer majd ugyanolyan létszükséglet lesz, mint az, hogy valaki írni és olvasni tud.” (H. G. Wells)
Kutatómunkájához ajánlja a Studium Alapítvány
Koncsag Előd
Biometria
ól
madár távlatb
Studium Kiadó Marosvásárhely, 2006
C�tre
Biometria madártávlatból EDITURA STUDIUM KIADÓ Szerző Koncsag Előd, Marosvásárhelyi Orvosi és Gyógyszerészeti Egyetem, ÁOK 6 Szaklektor V�Veres trimitem Dr. Valér, :egyetemi adjunktus, Babeş-Bolyai Tudomány Egyetem, Szociológia Tanszék Diáklektrok: Kedves Judit, Péterfi István
Descrierea CIP a Bibliotecii Na�ionale a României KONCSAG EL�D Biometria madártávlatból / Koncsag El�d. - Târgu Mure� : Studium Kiadó, 2006 Bibliogr. ISBN (10) 973-86108-6-9 ; ISBN (13) 978-973-86108-6-6
519.22:3 © Studium Alapítvány Kiadó, 2006 Minden jog fenntartva. A mű egészének, vagy részleteinek fordítása, utánnyomása, ábráinak vagy táblázatainak átvétele, elektronikus Birou CIP, adathordozón való feldolgozása, vagy bármilyen más módon történő Adriana Vasile sokszorosítása csak a kiadó engedélyével lehetséges.
: 973-86108-6-9 Not� ISBN (10) ISBN (13) 978-973-86108-6-6
Caseta con�inând descrierea CIP a Bibliotecii Na�ionale a Români
conform originalului pekiadójának verso paginii de titluigazgatója a c�r�ii respective. A reprodus� kiadásért felel a Studium Alapítvány ügyvezető Redactarea descrierii CIP în afara és a Studium Alapítvány Kuratóriumának elnöke.Bibliotecii Na�ionale a României i inciden�a Legii dreptului de autor
A könyv kiadását támogatta: Studium Alapítvány Könyvterv, műszaki szerkesztő: Mezei Tibor László, Kraft Hunor
Studium Alapítvány Kiadó Ügyvezető igazgató: Dr. Mezei Tibor László Marosvásárhely Rigó (Avramescu) utca 11. Tel/fax: 0265-250773 www.studium.ro
Tartalom Ajánlás. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Előszó helyett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 I. Alapfogalmak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 II. Leíró statisztikai mérőszámok . . . . . . . . . . . . . . . . . . . . . 15 A. Elhelyezkedési paraméterek. . . . . . . . . . . . . . . . . . 16 B. Szóródási paraméterek . . . . . . . . . . . . . . . . . . . . . . 18 C. Kapcsolati paraméterek . . . . . . . . . . . . . . . . . . . . . 27 III. Hipotézisek vizsgálata . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Bevezetés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 A standard normális eloszlás . . . . . . . . . . . . . . . . . . . 38 Paraméteres és nemparaméteres tesztek . . . . . . . . . . 41 Utószó helyett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Felhasznált irodalom. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5
Ajánlás A marosvásárhelyi orvostanhallgató és gyógyszerészjelölt számára, akárcsak más egyetemek számos hallgatója esetében, megkerülhetetlen kérdés az államvizsga megvédésekor, vagy akár az azt megelőző TDK során: tartalmaz-e megfelelő statisztikai számításokat a dolgozata, vagy sem. Írott vagy íratlan szabály szerint, a bíráló bizottság tagjainak erre a kérdéskörre is oda kell figyelniük, és a kimerítő statisztikai számításokat tartalmazó dolgozatokat pozitívan, míg az e téren hiányosságokkal küszködőket negatívan kell értékelniük – legalábbis a fenti szempontból. Bár lépések történtek az irányba, hogy a diák elsajátítsa a számára hasznos biometriai fogalmakat, és azokat alkalmazhatóvá tegye a tudományos kutatása során, talán nem elég teljes és gyakorlatias ez a tevékenység. Emiatt alanyunk sokszor értetlenül áll a valószínűségek és korrelációk világában, és számtalan esetben fennhangon hirdeti a szignifikáns különbségeket anélkül, hogy bármely számítással rendelkezne e „felelőtlen kijelentés” alátámasztására. Pedig a számokkal való brillírozás helyett csupán egyetlen dolgot kell megérteni és alaposan megértetni: még a legszembetűnőbb eredmények, a legalapvetőbb különbözőségek is nélkülözik a tudományos jelleget, hogyha alátámasztásukra semmilyen statisztikai adatot sem tudunk felsorakoztatni. Mi hát a teendő? Egyszerűen annyi, hogy a megírt dolgozat tudományos színvonalát azáltal kell biztosítani, hogy legalább egyszerű, hozzáférhető számítások elvégzésére kerüljön sor. Hogy mi szükséges ehhez? Elsősorban alapismeretek elsajátítása a diák részéről és egy számítógép, amely rengeteg adathalmaz felsorakoztatására képes ugyan, de arra már nem, 7
hogy magától eldöntse: mit számítson ki az adott helyzetben, és hogyan értelmezze az eredményt. Ezért nála mindig fontosabb marad az alkalmazó, aki lehet alapvető ismeretekkel felvértezett diák, statisztikában jártas barát vagy szakember egyaránt. Koncsag Előd tömör, ám lényegre törő jegyzete hiánypótlónak tekinthető. Ahhoz segíti hozzá a diáktársat, saját tapasztalatából kiindulva, hogy a számítások labirintusában való tévelygés helyett inkább az egyszerű megértés útját válassza. Ily módon lehetővé válhat, hogy saját maga elvégezhet egyszerű számításokat az államvizsga dolgozatához, és nem kell mások kegyeiért esedeznie. Ráadásul a tudást nem veheti el senki sem tőle, mindenképpen jó befektetésnek bizonyul. Dr. Ábrám Zoltán, egyetemi előadótanár Marosvásárhely, 2006. februárjában
8
Előszó helyett Megfigyeltem, hogy az élettudományok különböző területein tanuló diákok többsége „humán beállítottságú”-nak tartja magát, és általában óvakodik a matematika ködös területére tévedni. Márpedig vannak helyzetek, rendszerint tudományos dolgozat készítésénél, amikor elkerülhetetlenül szembesülünk bizonyos számításokat igénylő bonyodalmakkal. Azt gondolom, hogy aki – úgymond – nem kedveli a matematikát, az még egy államvizsga dolgozat miatt sem fog biometria szakkönyveket tanulmányozni. Manapság, amikor számítógépes programoknak köszönhetően nem kényszerülünk papír-ceruzás számolgatásokra, a felhasználók többségét nem érdekli igazán a statisztikai eljárások mögötti magyarázat. Ma már alapszintű statisztikai ismeretek mellett is képesek vagyunk viszonylag bonyolult biometriai kérdések megválaszolására. Ezek a megfontolások bátorítottak arra, hogy a biometria alapfogalmait „madártávlatból” bemutassam. Az imént mondottakat leszámítva, szándékosan kerültem a hűvösen tudományos előadásmódot. Ígérem, hogy nem foglak mindenféle levezetésekkel untatni, elég ha tudod, hogy mi mire való, és kész. Ne tévesszen meg, hogy meglehetősen könnyen emészthető, olvasmányos a szöveg – ajánlom figyelmedbe Fichte szavait: „Olvassatok lassan! És még lassabban olvassatok újra valamit!”. Amúgy, ne stresszeld magad, teljesen benignus szöveg, a barátaimnak írtam. A szerző
9
I. Alapfogalmak Na, lássunk hozzá. Mondjuk, hogy kíváncsiak vagyunk arra, hogy a patagóniai skizofrén férfiaknak mennyi az átlagéletkora. Nem tudunk minden egyes patagóniai skizofrén férfit megkérdezni, tehát marad az, hogy néhányat (minél többet) megkérdezünk (27-et találtunk), és azt mondjuk, hogy a többi is kb. ilyen életkorú lehet. Alapsokaság, populáció (population): olyan dolgok öszszessége, amelyeknek közös megfigyelhető jellemzőik vannak [7]. Esetünkben alapsokaságnak nevezzük az összes patagóniai skizofrén férfit, bennük az a közös, hogy mind patagóniaiak, mind skizofrének, és mind férfiak. A kísérleteinkben legtöbbször nem ismerjük az alapsokaság elemszámát (N), sőt, előfordulhat, hogy az végtelen. Mérőskálák: az alapsokaság minden vizsgálandó tulajdonságáról előre meg kell mondani, hogy milyen skálán méred. Lehet, hogy neked magától értetődő ez a bekezdés, de hidd el, nagyon el lehet szúrni a számításokat, ha a statisztika-programnál ezt már az elején nem állítod be. 1. Nominális (nominal) skála: kettő vagy több kategória (osztály) van, és csak az a fontos, hogy minden adat kizárólag csak egy adott osztályba tartozhasson. Pl. szeme színe, vallási hovatartozása, indián-e, stb. Nyilván, nem lehet valaki egyszerre indián is és nem-indián is. 2. Ordinális, rendezett, sorrendi (ordinal) skála: annyiban különbözik a nominális skálától, hogy itt sorrendje van az osztályoknak. Ilyen az iskolai osztályozás. De talán jobb példa a betegségek stadializálása. Azt kell itt megérteni, hogy az ordinális skála „lépcsőfokai” közötti távolság nem állandó, nem mondhatjuk például azt, hogy az emlőrák I. és II. stádiu11
ma között annyi a távolság, mint a II. és III. stádiuma között. Vagy: ha az egyik diák négyest kapott, a másik pedig hatost, attól még ketten együtt nem tudnak tízesre. Ha dönthetsz, hogy milyen skálán mérj, a sorrendit válaszd, ez informatívabb, mint a nominális skála. 3. Intervallum (interval) skála: annyival több a rendezett skálánál, hogy itt az egymás utáni értékek között a távolság azonos. Ezen a skálán mérjük az időt vagy a hőmérsékletet ºCban. Fontos tulajdonsága, hogy nincsen abszolút kitüntetett nulla érték. Igaz, hogy 30 és 40 ºC között annyi a különbség mint 20 és 30 ºC között, de azt már nem mondhatjuk, hogy a 20 ºC-nál kétszer olyan meleg van, mint 10 ºC esetén. Akik Fahrenheit-ban mérik a hőmérsékletet, azok máshová teszik a nulla fokot, és ők is ugyanolyan elégedettek a hőmérőikkel, mint mi. 4. Arányskála (ratio): jól meghatározott nulla érték van, ezért itt már van értelme valaminek a kétszereséről beszélni, itt nyugodtan lehet mindenféle műveleteket végezni. Ilyen a testtömeg, a magasság, de a hőmérséklet is – ha Kelvin fokban mérjük! Mondanom sem kell, ez a skála a leginformatívabb. Változó, paraméter (parameter): a populáció valamely jellemzője, egy bennünket érdeklő tulajdonság [5]. Például a magasság, testsúly, a nem, a hajszín, indián vagy nem, skizofrén vagy nem, stb. A változó lehet: I. Minőségi (kvalitatív, kategórikus): minden olyan változó, amit nominális vagy sorrendi skálán mérünk [9]. Egyszerűen csoportosítgatsz, mindenféle osztályokba sorolod az adatokat. Itt nem lehet számszerű kapcsolatokról beszélni, maximum sorrendbe tudod rakni az osztályokat. Pl. nem, hajszín, településtípusok, nemzetiség, igen/nem válaszok, stb. 12
II. Mennyiségi (kvantitatív): olyan számlálható vagy mérhető adatokról van szó, amelyeket intervallum vagy arányskálán mérünk [9]. Két fajtája van: a) diszkrét: csak bizonyos értékeket vehet fel, pl. feleségeid, gyerekeid száma nyilván csak egész szám lehet b) folytonos: adott terjedelemben akármilyen értéket felvehet. Pl. testsúly. A továbbiakban gyakran esik majd szó független változókról. Két értelemben is használjuk ezt a kifejezést: • Ha egy kísérlet során egy változó (X) tetszőleges értékei mellett mérjük egy másik változó (Y) értékeit, akkor azt mondjuk, hogy az előbbi (X) a független (befolyásoló) változó, az utóbbi (Y) pedig a függő változó (ez lesz az eredmény). Általában sok független változó befolyásolja az egy szál függő változónkat. • Ha két változó nem függ egymástól, akkor azok függetlenek, (egymástól) független változók. Minta (sample): a populáció relatíve kis méretű kiragadott része, valamilyen előírás (mintavételi eljárás) szerint válogatva [7]. 30 elemszám felett nagy, 30 alatt pedig kis mintáról beszélünk. A mi mintánk 27 emberből áll (n=27), és ha ügyesen választottuk ki (azaz reprezentatív és az elemek függetlenek egymástól), akkor ők statisztikailag korrekt módon képviselik az összes skizofrén patagóniai férfit. Ha a mintavételezést nem megfelelően végezzük, nem fogja híven tükrözni az alapsokaság tulajdonságait, és akkor nem ér semmit az egész. Valószínűségi mintavétel alaptörvénye: ha egy alapsokaság minden egyes elemének egyforma az esélye, hogy bekerüljön a mintába, akkor ez a minta reprezentatív lesz erre a populációra nézve [5]. Egyenlő kiválasztási valószínűségű módszerek [9]:
13
• egyszerű véletlen mintavétel: a mintabeli egyedeket a sokaságból egyszerre és véletlenszerűen választjuk ki, ügyelve arra, hogy a sokaság minden eleme számára egyenlő esélyt biztosítsunk a mintába kerülésre. Sorsolás, véletlenszám-generálás, listáról minden valahányadik elem kiválasztása stb. • rétegzett mintavétel: ha a Patagóniai Központi Statisztikai Hivatalnak (PKSH) köszönhetően ismerjük az iskolázottsági adatokat, akkor megtehetjük például, hogy iskolai végzettség szerinti rétegezést végzünk: ha Patagónia lakosságának egyharmada végzett egyetemet, akkor keresünk kilenc (27/3=9) egyetemi végzettséggel rendelkező beteget, vagyis az iskolai végzettség ismert arányszámait igyekszünk biztosítani a mintánkon belül is. Csak akkor érdemes rétegzett mintavétellel dolgozni, ha a tényező, ami szerint rétegezni akarunk, feltehetően befolyásolhatja az eredményt [13]. Ha azt gondoljuk, hogy az iskolázottság nem befolyásolja a skizofrénia lefolyását, akkor nincs értelme eszerint rétegezni. Természetesen, többszörösen rétegzett mintavételezés is végezhető (terület, nem, iskolai végzettség, életkor-csoportok, stb.), csak legyen elég nagy az elemszám, hogy minden csoportban lehessen számításokat végezni. • lépcsőzetes mintavétel: a minta kiválasztása több fokozatban történik, például először kisorsolunk néhány megyét, aztán ezekből a megyékből néhány települést (városok, falvak aránya a rétegzés szabályai szerint!), ezekből a településekből pedig néhány házszámot (egyszerű véletlen mintavétellel). A mintavételezés nagyon sunyi dolog, nagyon oda kell figyelni rá! 14
II. Leíró statisztikai mérőszámok Sokkal szemléletesebb egy adathalmaz néhány jellemző tulajdonságát megadni, mint az elemeit egyenként felsorolni. Az adatokból viszonylag könnyen kiszámítható paramétereket leíró statisztikai mérőszámoknak nevezzük. Sok ilyen van, három legfontosabb csoportjuk [7]: A. elhelyezkedési paraméterek (measures of central tendency): azt az értéket igyekeznek megadni, ami körül a mintánk elemei csoportosulnak. Vagyis keressük a minta közepét. Ide tartoznak: átlag, medián, módusz. B. szóródási paraméterek (measures of spread): arról tájékoztatnak, hogy értékeink mennyire szorosan vagy lazán helyezkednek el az átlag körül: ferdeség, hegyesség, terjedelem, szórás, variancia, kvantilisek. C. kapcsolati paraméterek (measures of correlation): előfordul, hogy a minta elemeiről nem csak egyfajta adattal rendelkezünk, így az összetartozó érték-párok között öszszefüggést mérhetünk (pl. emberek mintájában a testsúly és testmagasság): korrelációs együttható, rangkorreláció. Mielőtt elkezdünk számolgatni, ide írom, hogy a 27 patagóniai skizofrén férfi esetében milyen életkorokat mértünk: 1. táblázat. Életkorok (év)
22,9; 23,3; 20,6; 22,3; 22,6; 25,1; 47,8; 32,8; 37,4; 20,8; 43,0; 23,1; 32,3; 36,0; 26,7; 28,1; 42,9; 54,5; 63,2; 8,9; 29,2; 43,7; 47,2; 36,2; 31,9; 33,6; 26,1
15
���������������
� � � � � � � � �
���� ���� ���� ���� ���� ���� ���� ���� ���� ���� ���� ���� ������������ 1. ábra. Hisztogram: életkorok megoszlása
A. Elhelyezkedési paraméterek 1. Átlag (mean): Most vagy soha, össze kell haverkodni a ∑ [szumma] jellel. Ez a jel arra jó, hogy ne kelljen leírni, hogy (x1+ x2+ x3+ x4+ x5+ x6+ x7+ x8+ x9)/n, hanem elég, ha azt írom, hogy: a minta számtani átlaga:
ahol összesen n darab (nálunk 27) elem van, ennyi számot kell átlagolni. A mi mintánkban az átlagéletkor: 32,67 év. (Általános szabály, hogy az átlagot eggyel több tizedesig adjuk meg, mint az adatainkat.) Az alapsokaság számtani átlaga: 16
ahol N az alapsokaság elemszáma. (Szimbólumok jegyzéke a 60 oldalon!) A példánknál maradva N értékéről fogalmam sincs, illetve csak halvány fogalmam van, mert nem tudom, hogy patagóniában hány skizofrén férfi van összesen és legtöbbjük életkorát nem ismerem. Épp ezért soha nem fogom a µ értékét pontosan tudni (vagyis, hogy mennyi azok átlagéletkora), de a mintám méretétől függően egész jól megsaccolhatom, később meglátjuk hogyan. A számtani átlagnak csak mennyiségi változók esetén van értelme (három katolikus és öt ortodox átlaga mennyi lenne?). Van egy másik szépséghiba is, mégpedig az, hogy ha bekerül egy-két extrém érték, úgy el tudják húzni a minta átlagát, hogy nem sok köze lesz az alapsokaság átlagához. Na, ezért találták ki a mediánt. 2. Medián (median): a gyakorisági eloszlás középső értéke [2]. Ez magyarul azt jelenti, hogy pl. ha a tornasorban valakinek a jobbján ugyanannyian állnak, mint a bal oldalán, azaz pont középen van, akkor bizony ő a medián. Ha libasorba áll 17 tanuló, akkor a 9. tanuló lesz a medián. Ugye nem téveszted össze a mediánt az átlaggal. A mintánkban az életkor átlaga 32,7 év volt, de a medián 31,9 év. Nyugodtan ellenőrizd az eredményt, tedd növekvő sorrendbe az életkorokat, és nézd meg a 14.-et. Ha az elemek száma páros, és nincs akire rámutatni, hogy te állsz pont középen, akkor a két középső értéket átlagoljuk. Nagyon hasznos találmány a medián, mert az extrém értékekre (pl. Patagóniából egy 99 éves skizofrén férfi) nem érzékeny, ráadásul lehet használni ordinális (!) skálán mért adatokra is [1] (és nyilván, bármely mennyiségi változó esetén). 17
3. Módusz (mode): az az érték, amelyik a legtöbbször fordul elő a mintában. Nominális skálán sem átlagot, sem mediánt nem tudunk mérni, csak móduszt. A mintánknak nincs módusza, minden érték csak egyszer fordul elő. De ha átalakítanánk intervallum skálává, mondjuk tízévenként csoportosítva (tizenévesek, huszonévesek, harmincasok, stb.), akkor biztosan kiderülne, hogy a huszonöt év körüliek vannak a legtöbben. Tulajdonképpen így lehet folytonos változóból hisztogramot csinálni. Hogy mi a hisztogram? Az 1. ábra, amelyet fennebb láttál. A mérési adatok áttekinthetőségén sokat segít, ha az adatokon csoportosításokat hajtunk végre úgy, hogy egy folytonos és egymást át nem fedő intervallum sorozatot alkotunk, tehát minden mérési adat egy és csakis egy intervallumba fog kerülni. Hogy hány intervallumot használjunk? Mondok két egyszerű képletet [2], vannak cifrábbak is, de azok bennünket nem érdekelnek: ha van n darab adatod, akkor a szükséges intervallumok száma (k) az a legkisebb egész szám, amelyre 2k > n . Nekünk van 27 adatunk, 25, tehát elég lett volna 12 helyett 5 intervallum is. Talán könnyebben megy a másik képlet, ahol csak be kell helyettesíteni a mintád elemszámát:
B. Szóródási paraméterek 4. Ferdeség (skewness, S): az eloszlás aszimmetriájának egy mérőszáma [2], az átlag körüli szimmetriától való eltérés mértékét mondja meg. Az 1. ábrán, a hisztogramra rátettem azt a harang alakú burkoló görbét is, amely az eloszlást mutatja. Ha ez a görbe teljesen szimmetrikus lenne, akkor a ferdeség
18
���������������
egyenlő lenne nullával. Ha a nagy értékek felé (jobbra) nyújtózik a görbe, akkor pozitív, ha a kis értékek felé, akkor negatív ferdeségről van szó (2. ábra). A patagóniai példánknál a ferdeség +0,636.
�
� ������� 2. ábra. Pozitív és negatív ferdeség
Nagyon szigorú képlete van, nem rontom el a kedvedet vele. Csak jegyezd meg azt, hogy bizonyos statisztikai technikák megkövetelik, hogy az adatok normális eloszlásúak legyenek, és a normális eloszlásnak egyik fontosa tulajdonsága, hogy szimmetrikus. Ha az átlag, a medián és a módusz nagyon közel vannak egymáshoz, akkor a ferdeség nullához közeli szám. 5. Kurtozis (hegyesség, kurtosis, K): az eloszlás csúcsosságát hasonlítja a normális eloszláshoz, melynek a hegyessége nulla. Ha az 1. ábránkon az eloszlási görbe nagyon lapos hátú lenne, akkor K-ra pozitív, ha hegyes lenne, K-ra negatív számot kapnánk. Ennek magunkfajta halandók számára nem sok haszna van, de tudjál róla. 19
Mielőtt továbbmennénk, tegyünk egy nagyobbacska kitérőt a normális eloszlás fogalomhoz. Tudd meg, hogy ez a természet egyik csodája. Ha egy folytonos változó esetében hisztogramot készítünk úgy, hogy a hisztogram intervallumainak szélességét nullához közelítjük (nagyon keskenyek lesznek), akkor megkapjuk az adott folytonos változó sűrűségfüggvényét. Ezt papíron úgy lehet megrajzolni, hogy jó sok intervallummal készíted el a hisztogramot, és aztán az oszlopok tetejére burkoló görbét illesztesz. Láthatod, a mi 1. ábránkon kevés intervallum van, rosszul illeszkedik a görbe. Nagyobb elemszámnál, és sok intervallummal szebben kijön. Ha az emberek magasságának sűrűségfüggvényét nézzük, akkor azt tapasztaljuk, hogy harang alakú a görbe, tehát van egy középérték, amely köré tömörül az adatok nagy része, a két véglet felé pedig szimmetrikusan lejt a vonal. Ugyanilyen görbét kapunk a testtömegekre, az intelligenciákra, a pulzusokra, a csirkék távolságára a tyúkanyótól, a hollandok napi sajtfogyasztására, a levelenkénti levéltetvek számából, a marosvásárhelyi orvostanhallgatók birtokában lévő A4-es papírlapok számából, és még sorolhatnám. Az adatoknak ezt a jellegzetes megoszlását normál eloszlásnak (Gauss-görbe) hívják. Hogy miért normál? Egész egyszerűen azért, mert akármerre nézel, a fizikai és a biológiai paraméterek ilyen módon oszlanak el (igazad van, akad kivétel is). A biometria (= az amit most tanulsz) javarészt erről szól. Ha látod, hogy egy jelenséget sok, egymástól független, kis hatású tényező összegződése határoz meg, akkor tudjad, hogy az normál eloszlású (központi határeloszlás tétel) [5]. Persze, léteznek más jól ismert eloszlások is, de azokat ebből származtatták (t, χ2, F). Sok statisztikai teszt megköveteli, hogy az adatok eloszlása normális legyen, ezért most nem szabad nem megjegyezni, hogy minden korrekt statisztika-programban 20
van olyan parancs, hogy normal plot, vagy test of normality, vagy valami ilyesmi. Például az 1. táblázat adatai alapján ilyen ábrát dob ki:
���������������
�
��������������������������
�
�
��
�� ��
��
��
��
�� �� �� ��������������
3. ábra. Normál eloszlás vizsgálata
A vízszintes tengelyen vannak a mi adataink, a függőlegesen a tökéletes normális eloszlás. Azt kell látni ezen az ábrán, hogy az adatok szépen egy vonal mentén sorakoznak. Igaz, hogy a két végen vannak elkószáló skizofrének, de az összkép kitűnő. Ha a pontok rendezetlenül állnának, akkor azt mondanánk, hogy nem normális eloszlású. Vannak statisztikai tesztek, amelyek számszerűen jellemzik a normális eloszláshoz való hasonlóságot. Az egyik ilyen teszt (Shapiro, 27 adat) kiírta, hogy p=0,398 (később meglátjuk, ez mit jelent) – ami megerősít abban, hogy tényleg normál eloszlásról van szó. Ha 50-nél kevesebb adatod van, akkor a Shapiro-Wilk-tesztet ajánlom, ha 21
több adat van, akkor mehet a Kolmogorov-Smirnov-teszt. Ha nincsenek kéznél ilyen internacionális szakemberek, akkor csinálj egy hisztogramot, látni fogod, hogy kb. olyan-e mint egy Gauss-görbe, plusz nézd meg, hogy a módusz, a medián és a számtani átlag nagyjából egyenlők-e. Minden statisztikaprogram, sőt, még az Excel is tud hisztogramot készíteni. 6. Terjedelem (range): ha van könnyen érthető dolog a világon, hát ez biztosan az. A terjedelem azt jelenti, hogy mekkora távolság van a legkisebb adattól a legnagyobbig. Csak a mintának van terjedelme, az alapsokaság terjedelméről nem beszélhetünk, mert... te is ki tudod találni, hogy miért. Na, miért? Már jó ideje a szóródási paraméterekről beszélgetünk, ugye még képben vagy!? Nos, a szóródást legkönnyebb a terjedelemmel mérni. Csak éppenséggel van két bökkenő: nagyon függ az extrém értékektől (abból van), és függ a minta elemszámától (egyenes arányossággal nő vele). Kis elemszámú mintáknál (<10) egy s másra jó. 7. Szórás, standard deviáció (standard deviation, SD): a szóródás leggyakrabban használt mértéke. Épp ideje, hogy emlékeztesselek, hogy a szóródási paraméterek azt mérik, hogy az adataink mennyire szorosan helyezkednek el az átlag körül. A szórás nem függ az elemek számától. Az alapsokaság szórását σ-val jelöljük, a minta szórását s-sel. Nézd meg a képletüket, nem vészes. Az alapsokaság szórása:
és ugyanígy a mintára:
22
Ha szükséges, ismételd át az átlagok jelöléseit. Nézzük az első képletet. A zárójelben az átlagtól való eltérés található. Ez lehet pozitív vagy negatív szám, ha egyszerűen összegeznénk az átlagtól való eltéréseket, mindig nulla jönne ki, ezért kell négyzetre emelni (mind pozitív lesz). Az átlagolás (osztunk N-el) után gyököt kell vonni, hogy „semlegesítsük” a négyzetre emelést. A második képlet a mintára vonatkoztatva ugyanezt csinálja, csak éppen alul van egy mínusz egy. Ha a mintád elemszáma 100-nál nagyobb, akkor elhagyhatod azt a nyavalyás egyest, különben nem szabad. Gondolj arra, hogy lényegében az adatok egymáshoz viszonyított elhelyezkedését mérjük és n darab adat n-1 darab távolságot fog közre. Ehhez a bekezdéshez tartozó matematikai magyarázatokat vedd úgy, mint azt a közmondást, hogy „Aki korán kel, aranyat lel”. Igaznak igaz, de egész másképp. A példánkról se feledkezzünk meg, s=12,0 év jött ki szórásnak, tehát szó sincs róla, hogy a skizofrének mind egyidősek lennének. Azt írják a könyvek, hogy az átlagtól plusz-mínusz egy szórásnyi távolságra található az adatok 68%-a (normál eloszlás esetén!). Ez konkrétan azt jelenti, hogy az embereink kétharmadának életkora 32,7±12 év (21 és 45 év közötti). A gyakorlatban viszont inkább olyan számra van szükség, amely a minta nagy részét felöleli, ezért a kétszeres szórástávolságot szokás figyelembe venni. A mintánkból kiszámolva 8 és 56 év található az átlagtól kétszeres szórástávolságra ( x 2 s ). Ezt a két számot hívjuk hibakorlátnak [4]. A kétszeres szórástávolságon (hibakorlát) belül található az adatok 95%-a. Bizonyos 23
esetekben még szigorúbbak is lehetünk, számolhatunk háromszoros szórással (biztos hibakorlát) [4], amelyen belül található az adatok 99,8%-a. Ez utóbbi összefüggést a három szigma szabálynak [4] is szokták nevezni, ami azt jelenti, hogy az adataink gyakorlatilag 6s hosszúságú intervallumba esnek, és ha egy adat ezen kívül van, akkor megfelelő mérlegelés után kizárható a többi eredmény közül. (Lapozz előre a 9. ábrához, talán úgy könnyebben megérted.) Amit majdnem elfelejtettem: • nominális és ordinális skála adatainál nem lehet szórást számolni, de ezt már te is kitaláltad • a standard deviáció mértékegysége megegyezik az adatok mértékegységével • amikor egy tudományos dolgozatban közöljük a minta számtani átlagát, akkor fontos, hogy a szórását is írjuk mellé. Gyakori hiba, hogy 32,7±12 formában adják meg. Helyesen: 32,7 év (SD 11,9). A ± jelet majd meglátjuk, hogy mikor használjuk. 8. Variancia, szórásnégyzet (variance): az adatoknak az átlagtól való négyzetes eltéréseinek átlaga [4]. Az elméleti statisztikában nagyon el vannak vele, nekünk egyelőre nem annyira fontos, mint a SD. A minta varianciája:
Micsoda meglepetés! A standard deviáció (szórás) nem más mint a variancia négyzetgyöke. A varianciát σ2-el is szokták jelölni. 9. Kvantilisek (Quantile): a legfontosabb kvantilisek a kvartilisek (quartiles). Tudom, startból kínaiul van, de meglá24
tod, egyszerű. (Ismerős az a szó, hogy medián? Ha nem, akkor ismételd át, a kettes pontnál beszélgettünk róla.) Három darab kvartilist különböztetünk meg, arról a három adatról van szó, amelyek a gyakorisági eloszlást négy (lehetőleg) egyenlő elemszámú részre osztják. Ebből következik, hogy a középső kvartilis, a Q2 éppen a medián. A példánkban Q2=31,9 év, vagyis ő az, akinél ugyanannyian öregebbek, mint ahányan fiatalabbak (13-13). Az alsó kvartilis (Q1) nem más, mint a medián alatti adatok mediánja (a mintánkban Q1=23,1; ő az, akinél kb. háromszor annyi öregebb, mint fiatalabb van, 6-20). A felső kvartilis (Q3) a medián feletti értékek mediánja (Q3=42,9, háromszor annyian fiatalabbak, mint öregebbek, stb.). Arra is jó ez a sok Q betű, hogy ki tudjuk számolni az interkvartilis tartományt (Q3–Q1), ami egy újabb hasznos szóródási paraméter. Q3–Q1=19,8 év; ha azt látjuk, hogy az adatoknak az átlaghoz (32,7) közelebbi fele is majdnem 20 év szélességben található szétszórva, akkor nyilvánvaló, hogy meglehetősen nagy a szórás. Az interkvartilis tartományt nagyon könnyű kiszámolni, nem érzékeny az extrém értékekre, csak arra vigyázz, hogy 10 alatti elemszámú mintánál ne használd. Ha az eloszlást ábrázolni akarjuk, a legkényelmesebb a mediánt, az alsó és felső kvartiliseket, illetve a legnagyobb és legkisebb adatot együtt ábrázolni. Ezt nem is olyan nagyon régen, 1977-ben vezették be, ma „box and whisker plot” vagy „boxplot” néven ismerhetsz rá [5]. A 27 skizofrénünk életkorát így ábrázolja:
25
������������
�� �� �� �� �� �� �� �
5. ábra. Boxplot: életkorok megoszlása
Ha egy érték nagyon messze esik a többitől, azt nem legnagyobb vagy legkisebb adatként fogjuk számon tartani, hanem extrém értéknek hívjuk, és a boxplot-on (valahol fent vagy lent a középvonalban) csillaggal jelöljük (vö. három szigma szabály). A második legfontosabb kvantilis családot a decilisek adják. Ezt inkább a szociológusok és közgazdászok használják. A decilisek az eloszlást 10 egyenlő részbe vágják (ezekben a csoportokban az elemek száma egyenlő). Ha sok az adatunk, akkor felőlem százba is vághatjuk, ezek a percentilisek (percentiles). Az 50%-os percentilis éppen a medián. A 25%-os percentilis az alsó kvartilis. Elég gyakran használjuk azt a kifejezést, hogy normális, még gyakrabban azt, hogy nem normális, és eddig nem is tudtuk, hogy az élettudományokban a normális kifejezés azt jelenti, hogy az egyed adott paramétere az alapsokaság 5%26
os és a 95%-os percentilise között található. Ez nem vicc, egy kisgyerekről akkor mondják, hogy elmaradt a fejlődésben, ha súlya és/vagy magassága nem éri el a vele egykorú gyerekekre vonatkozó 5%-os percentilis értéket.
C. Kapcsolati paraméterek Már nagyon régen megbeszéltük, hogy a kapcsolati paraméterek érték-párok közötti összefüggés erősségét mérik. 10. Korrelációs együttható (correlation coefficient, r): ez egy olyan szám, amely két paraméter közötti kapcsolat szorosságát, erősségét méri [7]. Nincs mértékegysége. Ha r=0 vagy ahhoz közeli, az azt jelenti, hogy nincs összefüggés az adatok között. r=+1 azt jelenti, hogy függvényszerűen egyenes arányosság (lineáris összefüggés) van, vagyis ha ismerem az egyik paramétert, akkor ki tudom számítani a másikat (7. ábra). Az előjelből tudom, hogy egyenes (+) vagy fordított (–) arányosság van. A 27 patagóniai betegünknek adtunk egy feladatsort, amelyet különböző eredményességgel oldottak meg. A maximális pontszám 100 volt. Íme az eredményeik, rendre: 2. Táblázat. Teszteredmények
69,3; 70,1; 70; 66; 72; 64; 35; 47; 45; 76; 39; 55; 41; 46; 59; 55; 38; 25; 19; 63; 56,5; 41; 32; 40; 46,1; 40; 53 Ha meg akarjuk nézni, hogy van-e összefüggés az életkor és az eredményesség között, akkor először is készítsünk egy koordinátarendszert, amelyben az egyik tengelyen az életkort, a másikon pedig a pontszámokat lehet felvenni. Minden személyt egy pont (pöttyöcske, hogy jobban lehessen látni) fog 27
jelképezni, amelynek x és y tengely szerinti koordinátái jelentik az életkort illetve az elért pontszámot. Nos, ez lett belőle: ����������������
�� �� �� �� �� �� �� �� �
��
��
��
��
��
�� �� ������������
6. ábra. Sztochasztikus kapcsolat és regressziós egyenes
Látható, hogy a pontok nem teljesen össze-vissza vannak, nagyjából egy egyenes mentén helyezkednek el, de az is igaz, hogy kell a jóindulatunk, hogy az egyenest beleképzeljük. Oda is rajzoltam. Tehát szóródás ide vagy oda, valami öszszefüggés itt van! Erre mondják, hogy stochasztikus kapcsolat van az adott paraméterek (életkor, teszteredmény) között. A stochasztikus kapcsolat lehet erősebb-gyengébb, attól függően, hogy a pontok mennyire állnak egy vonalba. Ha senki nem lóg ki a tornasorból még egy hajszálnyit sem, akkor mondjuk, hogy függvényszerű kapcsolattal állunk szemben. Ha a pontok teljesen szétszórtak, akkor független változók esete forog fenn (a két változónak semmi köze egymáshoz). Azért, hogy ne kelljen órákig hunyorogni egy stochasztikus kapcsolatot megjelenítő ábra előtt, és ne kelljen mindenféle 28
egyenesekről fantáziálni, ezért találták ki a korrelációs együtthatót (r). � �����
� �
�����
� �
������
�
7. ábra. Korrelációk sajátos esetei
A 6. ábra mellé odaírhatjuk, hogy r=–0,909 (és p<0,001, erről később). Ez azt jelenti, hogy erős negatív korreláció van, vagyis minél öregebb a patagóniai bácsi, annál rosszabb eredményt produkál. Pearson-teszt feliratot keresd, ha hasonló számításokat végeznél.
29
Még annyit kell tudni, hogy könnyen félrevezet ez a teszt, ha nem figyelsz. Mert: a) például tudni kell, hogy csak lineáris, vagy majdnem lineáris stochasztikus kapcsolat esetén működik. Ha az adataid, mondjuk, egy hullámos vagy nem hullámos görbe mentén állnak akármilyen szép rendes sorban, mégis a Pearson-teszt nullához közeli számot fog eredményül kidobni, és aki figyelmetlen, az mindjárt ki is jelenti, hogy a vizsgált paraméterek függetlenek. b) alapkövetelmény, hogy mindkét változó folytonos legyen c) az extrém értékek torzítják az eredményt, ebben az esetben a Spearman-féle rangkorrelációt kell használni. Ugyancsak rangkorrelációval kell dolgozni, ha a változók nem folytonosak (gyerekeid, fogaid száma ugye csak egész számértékek lehetnek). d) ha bármelyik változót te határozod meg, nem használható ez a teszt. Például gyógyszerek dózis-hatás görbéje esetén NEM használhatod, ha a gyógyszeradagok rögzítettek (pl. csak 100, 200 és 500 mg-os tabletták alkalmazása) e) a korreláció szignifikanciája (p): a korrelációs együttható mellé mindig oda kell írni a p értéket, ez mutatja meg, hogy mennyire bízhatunk egy mintából számolt korrelációs együtthatóban. Ne feledjük el, hogy az alapsokaságból számolható korreláció (jelölése ρ) nem teljesen ugyanaz, mint a mi mintából számolt r-ünk. Ha keresnénk másik 27 patagóniai skizofrén férfit, és megíratnánk a tesztet, és kiszámolnánk az életkorpontszám korrelációt, nem biztos, hogy pontosan –0,909-et kapnánk, csak kb. ennyit. Minél nagyobb a mintánk, annál jobban meg tudjuk becsülni a ρ értékét, de mindig marad egy kis bizonytalanság. Ráadásul r értéke minél távolabb esik 1-től, annál inkább kételkedünk, hogy bármiféle összefüggés lenne a paraméterek között. 30
A korreláció szignifikanciája azt mondja meg, hogy egy olyan alapsokaságban, amelyben függetlenek a változók (= semmi közük egymáshoz), a nem szerencsés mintavétel miatt mekkora valószínűséggel kapunk ekkora elemszám mellett (n=27) ilyen mértékű korrelációt (r=–0,909). Más szóval: mekkora a valószínűsége, hogy az eredmény a véletlen műve. Ha p értéke kisebb mint az egyezményes küszöbérték α=0,05, az azt jelenti, hogy 5%-nál kisebb a valószínűsége, hogy véletlenül jött ki korreláció, tehát elfogadjuk. Ha mondjuk 0,13 jött volna ki, azt mondanánk, hogy úgy tűnik, a véletlen kavart be, tovább kell növelni az elemszámot, hogy megtudjunk valami biztosat. De nekünk szerencsénk van, az jött ki, hogy p=0,000, vagyis gyakorlatilag 0 a valószínűsége, hogy véletlenül ilyen iszonyú erős korrelációt kapjunk ott, ahol nincs. Tudjad, hogy nagyon kis r érték mellett is előfordul p<0,001, ezt úgy kell kiolvasni, hogy holtbiztos, hogy van egy nagyon gyenge öszszefüggés. f) Gyakori és súlyos hiba, hogy a két változó közötti korrelációból ok-okozati összefüggésre következtetnek [5]. A korreláció mögött lehet ok-okozati viszony, de az is lehet, hogy a két korrelált változó nincs egymással ok-okozati kapcsolatban, hanem mindkettő egy harmadik, közös októl függ. A leggyakoribb ilyen jellegű csapda az, amikor mind a két változó az idővel korrelál, amúgy semmi közük egymáshoz. Tudjad, hogy az ok-okozati összefüggést logikai vagy kísérleti úton kell bizonyítani. g) Be kell vallanom, hogy a 6. ábrán azt a vonalat nem szemmérték szerint rajzoltam, sőt, nem is én rajzoltam, hanem a statisztika-program. Azt a vonalat úgy hívják, hogy regressziós egyenes. Láttuk, hogy az adataink elég jól vonalba állnak, ezért nem alaptalan azt kérdezni, hogy egy 46 éves patagóniai 31
skizofrén fiatalember vajon hány pontra számíthat a tesztben. Ennek a megválaszolására berajzoltatjuk a regressziós egyenest, ami úgy készül, hogy a program megkeresi azt az egyenest, amelytől az adatpontok távolsága a lehető legkisebb (legkisebb négyzetek módszere) [2]. Minden egyenes egyenlete: Y = a + b × X, ahol X és Y a két változó, b az egyenes meredeksége, a pedig a tengelymetszet. Ha számítógéppel regressziót számolsz, ezt a két értéket (a és b) fogod eredményül kapni. A példánknál maradva Y=69,04–0,721X lesz a vonal egyenlete. Behelyettesítve a 46 évet, kiderül, hogy kb. 36 pontnál jobbat ne várjunk. Ilyen jellegű lekérdezéseket csak a minta terjedelmén belül (a mintánkban 20 évtől 60 évig) szabad végezni. Például nem helyettesíthetjük be az iménti képletbe a 99 éves patagóniai skizofrén bácsit, mert a mintánk csak 20 és 60 év közöttiekre reprezentatív. Aki nagyon otthon van a témában, az bizonyos esetekben végezhet ilyen becsléseket, „jóslásokat”, de ezt már állítólag extrapolációnak hívják, és nagyon ingoványos terület. 11. Rangkorreláció (rank correlation): ha a változók közül valamelyik nem folytonos (kérdőívben a helyes válaszok száma, fogaid száma), ha extrém értékek vannak, és azokat nem lehet kigyomlálni, ha nem normál eloszlásúak az adataid, vagy egyszerűen meg akarsz győződni róla, hogy a Pearson-teszt jó helyen keresi az eredményt, akkor dobd be a Spearman-tesztet, a rangkorrelációt [11]. Hátránya, hogy bizonyos mértékű információvesztés van, kicsit gyengébb teszt, de ugyanúgy megkapod az r értékét. Még egy régi adósságomat kiegyenlítem, aztán vághatunk a sűrűjébe.
32
Átlag standard hibája (Standard error of mean, SEM) Amikor a minta átlagát számoltuk, megígértem, hogy majd megsaccoljuk a populáció átlagát (µ). A mi mintánkban az átlagéletkor 32,7-nek jött ki, de egyáltalán nem lennék meglepve, ha egy indonéziai kutatócsoportnak hasonló kísérletben 33,1 jönne ki. De nagyon meg lennék lepve, ha 40-es átlagéletkorról számolnának be. Hogy mikor kell meglepődni, és mikor nem – erről szól ez a két bekezdés. Ha ismerjük egy minta elemszámát, átlagát és a szórását, akkor ki tudjuk számítani, hogy a populáció (alapsokaság) átlaga milyen értékek között mozoghat. Persze, minél nagyobb a mintám, annál pontosabban meg tudom mondani, hogy kb. hol van az igazság. A képlet nagyon egyszerű, az átlag standard hibája:
A betegeink életkorát tekintve, ez az érték 1,615 év. De ezzel még nincs vége a számolásnak. Konfidenciaa intervallum Már többször is beszéltünk a hibakorlátról (minta-átlag plusz-mínusz kétszeres szórás). Ha azt értetted, akkor teljesen világos lesz, hogy a populáció átlagának becslésekor is elvégezhetjük ugyanezt a számolást. Itt nem hibakorlátról, hanem konfidencia határokról, és az általuk közrezárt konfidencia intervallumról beszélünk, és szórás helyett az átlag standard hibájával számolunk:
33
Ha egy dolgozatban egy populáció átlagáról beszélsz, amelyet minta alapján számoltál ki, akkor mindig ilyen formában közöld: a patagóniai szkizofrén férfiak átlagéletkora µ ). Ez azt jelenti, hogy bármelyik = 32,7 ± 2,3 év ( kutatócsoport gyűjt mintát, 95%-os biztos, hogy a kapott átlag valahol 30 és 35 év között lesz; így hiába jön az indonéz kutató, hogy nekik 40 év jött ki, erősen kételkedni fogok.
34
III. Hipotézisek vizsgálata Bevezetés Most már nagyvonalakban ismerjük azokat a módszereket, amelyek adatok rendszerezésére és leírására vonatkoznak, így nekivághatunk egy újabb izgalmas fejezetnek. A hipotézisvizsgálatokról lesz szó. A tudományos konferenciákon már-már varázsszó-számba megy a szignifikáns kifejezés. Ha ez nem hangzik el, a hallgatók gyakran csak a fejüket csóválják, és fenntartásaik vannak, hiszik is, nem is. De ha azt mondod, hogy pl. a különbség szignifikáns, akkor mindenki bólogat. Figyeld meg, hogy a diákköri konferenciákon ilyen vagy olyan statisztikai teszttel, mindenki mindent szignifikánsra hoz ki, a lelkes ifjú kutatók mindent be tudnak bizonyítani. Ez gyanús, nem? A legtöbb statisztikai próba bizonyos előfeltételezéseken alapul, amelyek ha nem teljesülnek, a próba eredménye megkérdőjelezhető, sőt, ami még rosszabb, félrevezető lehet. Azt mondom, nézzünk szét a témában. Kezdjük egy példával. A 27 skizofrén betegünket hat hónapig kezeljük, majd ismét íratunk velük egy tesztet, amely az előzőhöz hasonló, de azzal nem azonos, mert nem a betegek memóriáját, hanem a terápia hatását akarjuk vizsgálni. Nézzük az eredményeket (rendre): 3. Táblázat. Kezelés utáni teszteredmények
93,5; 92,1; 89,3; 86,0; 93,5; 83,5; 55,7; 66,6; 65,0; 96,3; 58,4; 75,8; 60,0; 67,1; 80,0; 73,7; 58,0; 46,0; 37,8; 86,1; 76,0; 60,5; 52,5; 56,9; 69,5; 57,0; 76,2.
35
Ha a leíró statisztika szerint összehasonlítjuk az első tesztet a másodikkal, nyilvánvaló lesz, hogy most jobb az eredmény: x1=50,5 míg x2=70,9. Tehát 20 ponttal jobban sikerült a második teszt. Vajon, ez a véletlen műve? Nem hiszem, húsz pont – az túl sok, hogy véletlenül ennyivel jobbat írjanak. Ha 50,1 lenne, azt mondhatnánk, hogy belefér a véletlenbe. Még 55 pont is. A 60 az már nehezen. A következő oldalakon megpróbálunk ebből a spekulációból tudományt csinálni. Két átlag különbsége (eltérése) két összetevőből származik [2]: 1. véletlen összetevő (hiba): véletlen hatások eredménye, általunk nem befolyásolható, megmagyarázhatatlan, észrevehetetlen tényezők okozzák; a mintavétel során pl. sorsolásnál épp ezek és nem azok kerültek a mintába, régiek és pontatlanok a műszerek, az emberek nem egyformák, ugyanaz a személy is változó eredményeket produkál, nem tudsz elég pontosan titrálni, háttérzaj, stb. A véletlen összetevő megoszlása jellegzetes, a helyes értéktől mindkét irányba kb. egyforma kilengést okoz. 2. szisztematikus összetevő: valamilyen lényegi különbség van, ami nem magyarázható a véletlennel A matematika nem tud mit kezdeni a szisztematikus öszszetevővel, csak a véletlen összetevő szerepéről tud nagyon jó becslést mondani. Épp ezért a statisztika eredménye nem több, mint hasznos információ, amely hozzásegíti a kísérletezőt, hogy megbízható döntést hozzon orvosi, biológiai, szociológiai, stb. kérdésben. Figyelted az alanyt? Végső soron nem a statisztika, hanem te döntesz. Erről szól a hipotézis-vizsgálat. A véletlen minden kísérletben bezavar, és neked az a feladatod, hogy e mögött mutasd ki a lényegi különbséget – ha van. Az is fontos, hogy ne mutass ki különbséget ott, ahol nincs, ne hagyd, hogy átverjen a véletlen. 36
���������������
Kivétel nélkül minden hipotézisvizsgálat azzal kezdődik, hogy felállítjuk a nullhipotézist. Azt mondjuk, hogy az átlagok közötti eltérés teljes egészében a VÉLETLEN miatt van. Ha igaz a nullhipotézis, akkor az átlagok különbsége normális eloszlású véletlen változó (nincs szisztematikus összetevő), melynek várható értéke nulla (nem vagy alig különböznek az átlagok). Ha a számítások során kiderülne, hogy a nullhipotézis nem tartható, akkor elővesszük az alternatív hipotézist, és belátjuk, hogy véletlen hatásokkal nem magyarázható meg a tapasztalt különbség. Nullhipotézis: a patagóniai skizofrén férfiak egyhónapos gyógykezelése nem befolyásolta az eredményességüket a feladatmegoldásban; ha az átlagok kissé eltérnek, az csakis a véletlen miatt van. Alternatív hipotézis: a patagóniai skizofrén férfiak egyhónapos gyógykezelése befolyásolta az eredményességüket a feladatmegoldásban; az átlagok között olyan nagy az eltérés, hogy ez már nem magyarázható a véletlennel. Nézzük a két teszt eredményeinek megoszlását (8. ábra): �
������
�
������
� � � �
�
�
� � �
��
��
��
��
��
��
�� ��� ������������
8. ábra. A teszteredmények összehasonlító hisztogramja
37
A két harang alakú eloszlási görbe elég nagy területen fedi egymást, és elég nagy területen nem fedi egymást. Nehéz ránézésre megmondani, hogy vajon a véletlen miatt van-e jobbra tolódva a második görbe. Ennek a problémának a megoldásához még néhány dolgot meg kell értenünk.
A standard normális eloszlás A normális eloszlásról már megbeszéltünk néhány dolgot, de azt még nem mondtam el, hogy ha minden adatból kivonod a mintád átlagát, és elosztod a szórással:
akkor a standard normális eloszlást kapod [5].
��� ��� ��
�
��
��� ���
9. ábra. A standard normális eloszlás sűrűségfüggvénye
A 9. ábra nem egy kalapot, és nem is óriáskígyót ábrázol (a hasában egy elefánttal), hanem éppen a standard normális eloszlást. Láthatod, az átlag egyenlő nullával, a szórás (SD) pedig éppen eggyel egyenlő. Annyira híres és számunkra annyira hasznos ez a Gauss-görbe, hogy azt javaslom, hogy egy másodperc erejéig győzzük le a bonyolult dolgok iránti 38
ellenszenvünket, és vessünk egy tiszteletteljes pillantást a normális eloszlás valószínűségi sűrűségfüggvényét leíró képletre:
A sűrűségfüggvény és a valószínűség fogalmak következőképpen kapcsolódnak egymáshoz: a görbe alatti terület valószínűséget jelent. A teljes terület 100%. Nincs értelme azt kérdezni, hogy mennyi annak valószínűsége, hogy a változónk pontosan egy adott értéket (pl. 47,6985625585445254524552 ..) fog felvenni, mert ennek esélye nulla (nincs területe). Azt viszont meg lehet mondani, hogy mennyi annak valószínűsége, hogy a véletlen változónk várhatóan egy adott intervallumba essen (pl. 47,69-47,70), vagy egy adott értéknél kisebb/ nagyobb legyen. Vannak nevezetes intervallumok. Mondok egy példát. Ha még emlékszel a hibakorlátokra, akkor már tudod, hogy a kétszeres szórástávolságokon belül található az adatok 95%a, a háromszoros szórástávolság felöleli majdnem az összes adatot (99,8%). Úgy is lehet fogalmazni, hogy a véletlen változónk 95%-os biztos, hogy kétszeres szórástávolságon belülre fog esni. Állítsuk fejre ez utóbbi mondatot: 5% esély van arra, hogy a véletlen változónk kívül esik majd a kétszeres szórástávolságon. Már megbeszéltük, hogy a véletlen hiba is normál eloszlású valószínűségi változó, amelynek várható értéke nulla. Minél nagyobb két minta átlagának különbsége, annál kisebb a valószínűsége, hogy fenntarthatjuk a nullhipotézist. A görbe kétoldalt csak közelít az alapvonalhoz, soha nem éri el azt, 39
ezért meg kell mondanunk, hogy hol van a határ, az a küszöb, ahol még fenntartjuk a nullhipotézist. A standard normális eloszlású görbén (9. ábra) kevéssel +2s felett (kb. 97%-nál) húztam is egy függőleges vonalat. Kijelenthetem, hogy a vonalon kívül eső adatokat (p=3%) nem fogadjuk el, de lehetséges, hogy ezt a küszöböt túl alacsonyra tettem, lehetséges, hogy majd elutasítok egy olyan értéket, amelyet tényleg a véletlen okozott. Na, ez az elsőfajú hiba (α-risk, type I error). Aki tévesen utasít el egy nullhipotézist, az elsőfajú hibát követ el. Másodfajú hibát (β-risk, type II error) követünk el, ha fenntartunk egy helytelen nullhipotézist [5]. Vagyis ha a küszöböt felteszem 99,999999%-ra, akkor könnyen lehet, hogy olyan értékeket is elfogadok, amelyek köszönő viszonyban sincsenek a várt középértékkel (a véletlennel). Ugye érted, hogy a két típusú hiba egymás ellen dolgozik, ha egyiknek kis esélyt hagysz, akkor a másik felerősödik, és viszont. ��
������������������
������
����������������
��
������
����������������
������ ������
������������������
10. ábra. Első és másodfajú hiba
Nem lehet pontosan megfogalmazni, hogy melyik az a kis valószínűségű küszöbérték, amelynél sem első- sem másodfajú hibát nem követünk el. Kompromisszum eredményeként a biológiai-orvosi kutatásban elfogadott leggyakoribb küszöbértékek (szignifikancia-szint, significance level, α): α=0,05, α=0,01, és a legszigorúbb az α=0,001 (p küszöbértékeit α-val 40
jelöljük). Ha egy statisztikai próba eredményeként például p=0,02-t kapsz, akkor bejelentheted, hogy a különbség szignifikáns α=0,05-ös szinten (átlépte ezt a küszöböt). Másként fogalmazva: száz esetből kevesebb mint ötször fordulhat elő ilyen érték kizárólag a véletlen eredményeképpen, és ezt nem tartja az ember valószínűnek, ebben az esetben elvetheted a nullhipotézist. Szerintem ezt már túltárgyaltuk.
Paraméteres és nemparaméteres tesztek A statisztikai próbák (tesztek) két nagy családba sorolhatók: vannak paraméteres és nemparaméteres tesztek. A paraméteres tesztek esetén a nullhipotézis egy normál (vagy más ismert) eloszlású változó valamelyik paraméteréről állít valamit [1]. Nominális és ordinális változókon használni nem ajánlott. A paraméteres tesztek kb. 5%-al erősebbek mint a nemparaméteresek, ez gyakorlatilag azt jelenti, hogy átlagok közötti létező különbséget már kisebb elemszám mellett is ki tudnak mutatni [8]. Hátrányuk azonban az, hogy meglehetősen igényesek, van néhány alkalmazási feltétel, amit be kell tartani [2]: • a minták normál eloszlásúak legyenek • a vizsgált változóval kapcsolatos megfigyelések függetlenek legyenek (mintavételezés!) • a minták szórása legyen egyenlő, legalábbis ne különbözzenek szignifikánsan. A normál eloszlás ellenőrzését megbeszéltük, a mintavételezés pl. legyen véletlenszerű (nem válogatunk csak úgy a kórlapokban), a szórások különbségét pedig ellenőrizni tudod, majd meglátod hogyan. A nemparaméteres tesztek esetén nem szükséges a populáció valamely paraméterének (pl. átlag) becslése, és nem köve41
telmény a normál eloszlás. Nominális és ordinális változókon is használhatjuk; nem érzékenyek kiugró adatokra [10]. Ha csak az a kérdésünk, hogy két minta között van-e bármilyen különbség, akkor az alkalmazási feltétel betartása mellett bármelyik próbát alkalmazhatjuk, vagyis nem kell megszokásból leragadni egy próba mellett. Tudnunk kell azonban, hogy a nem-paraméteres próbák nem (közvetlenül) a két csoport átlagának a különbségét vizsgálják, hanem a csoportok más (próbánként változik) tulajdonságait. Így aztán a szignifikáns különbség nem biztosan jelenti azt, hogy a két csoport átlaga (várható értéke) is különbözik, mert lehet, hogy a két vizsgált populáció eloszlásának valamilyen más tulajdonsága különbözik, nem a várható értékük. Ha az a gyanúnk, hogy csak az eloszlás jellege más, akkor ezt a Kolmogorov-Smirnov, vagy a Wald-Wolfowitz próbával bizonyíthatjuk. Ezt a két tesztet nem részletezem, ha a minták eloszlásának valamely tulajdonsága (ferdeség, hegyesség, szórás stb.) nagyon különbözik, akkor szignifikáns a próba. Nem érdekes, vannak ennél fontosabb dolgok. a) Paraméteres tesztek 1. u-teszt, z-teszt Egyesek z-tesztnek, mások u-tesztnek hívják. Az alapkövetelményekre figyelni kell, plusz a minta elemszáma 30 feletti legyen. Ez a teszt arra ad választ, hogy két nagy minta származhat-e ugyanabból a populációból (vagyis az átlagaik szignifikánsan különböznek-e) [2]. A nullhipotézis azt állítja, hogy az átlagok különbsége normális eloszlású véletlen változó, amelynek várható értéke nulla. A nullától való lényeges eltérés valószínűsége pedig kicsi, és ha ez a szignifikancia-szint alatti, akkor elvetjük a nullhipotézist.
42
A paraméteres hipotézis-vizsgálatok közül ez az egyik legrégebben használt eljárás. A z érték szerint kellett kikeresni a megfelelő p értéket a standard normális eloszlás táblázatából. Ez ma már gombnyomásra megy. Erről röviden ennyit, nem sokat fogod használni. 2. Student-t teszt Egyszer volt (a XX. század elején), hol nem volt (Dublinban), volt egyszer egy sörfőzde. Ebben a sörfőzdében dolgozott egy – nem fogod kitalálni – matematikus. Úgy hívták, hogy Gossett. Ma úgy mondanánk, hogy minőségi ellenőr volt. Ez a Gossett észrevette, hogy kis elemszámú minták esetén (n<30) a valószínűségi eloszlás megváltozik, itt már nem használható a Gauss-görbe [2]. Elemszámtól függően a harang kövérebb vagy soványabb egy kicsit – ez a t-eloszlás. Sajnos a gyár szakmai titoknak tekintette a lelkes matematikus felfedezését, így aztán Student álnév alatt szivárgott ki az igazság. Ezt a tesztet azóta is Student-tesztnek hívják. Tehát kis elemszámú minták esetén használhatjuk. Az orvosi-biológiai kísérletek gyakorlatában gyakran szembesülünk kis elemszámmal (költségigényes, időigényes, túl speciális csoport, stb.). Jegyezd meg, hogy a t próba alkalmazási feltételei: • a változók függetlenek és • normális eloszlásúak, • a minták szórása pedig egyenlő (két minta esetén azok szórása nem különbözik szignifikánsan egymástól). Ezt a tesztet fogod várhatóan a legtöbbet használni. A képleteket, számításokat mellőzzük, ha érdekel utánanézhetsz bárhol, nem tankönyv, amelyikben nincs benne. Most csak azt mondom el, hogy mikor mire klikkelj. a) egy minta átlagát hasonlítjuk egy fix értékhez (One sample T-test): a patagóniai skizofrén férfiak életkorát tar43
talmazó minta mellett a fix érték legyen például az indonéz kutató kijelentése, hogy az ők hasonló patagóniai mintájukban az átlagéletkor 40 évnek jött ki. A statisztika program ebből ki fogja számolni, hogy t=-4,54, p=0,000 (vagyis p<0,001). Tehát annak valószínűsége, hogy az indonéz kutató jól dolgozott, gyakorlatilag nulla (nem egyenlő nullával, csak nagyon közel van hozzá). Ilyenkor arra is kell gondolni, hogy esetleg a mi munkánkban van a hiba . Tény az, hogy a 32,7-es átlag és a 40-es átlag között akkora a különbség, hogy a véletlen ezt nem okozhatta (ilyen kis szórás mellett). Ha az indonézek azt mondták volna, hogy 33 év jött ki nekik, akkor a t-teszt p=0,84-et adott volna eredményül, amit úgy olvasnánk ki, hogy 84% eséllyel a véletlen is okozhat ekkora különbséget (33-32,7=0,3év). Ebben az esetben a nullhipotézis érvényben marad, lényegében ugyanazt az eredményt kaptuk, minden rendben. b) független minták átlagának összehasonlítása (Independent samples T-test): ha a kedves indonéz kollega elküldi a mintát (pl. n=22, x =40,0), akkor még biztosabb összehasonlítást végezhetünk kétmintás T-teszttel. Ezt a számolást azzal kell kezdeni, hogy eldöntjük, hogy a két minta szórása különbözik-e egymástól vagy nem. Ezt az F-teszttel (vagy Bartlett teszt) lehet elvégezni. • F-teszt: a varianciák egyenlőségének ellenőrzésére való ez a teszt. A két minta varianciájának aránya egyenlő Fel [5]. Az F-eloszlásnak külön táblázata van, kis minták esetén az eloszlása nem olyan mint a normál görbe. A kétmintás t-próbának feltétele, hogy a minták szórása kb. azonos legyen (F≈1), vagyis statisztikai értelemben a szórások ne különbözzenek. Tehát az F-teszt dönti el, hogy használhatsz-e Student t tesztet vagy nem. 44
• Welch-teszt: ha az F-teszt azt mondja, hogy a két minta varianciája nem egyenlő, akkor a t-próba helyett használjuk [1]. Ez a teszt gyengébb, mint a kétmintás t-próba, amúgy a lényeg ugyanaz. Most azt kellene mondanom, hogy ha mindkét minta elemszáma meghaladja a 30-at, akkor z-teszttel dolgozzál, mert 30 felett már használható a standard normáleloszlás. A gyakorlatban minden másképp van. Akármilyen mintáid legyenek, jó a t-teszt, mert 30 alatt kötelező, 30 felett pedig nyugodtan használható, mert nagy számoknál nem különbözik a normál-eloszlástól. Ami a varianciák egyenlőségét illeti – egyes programok az eredményt az F-teszttel együtt adják meg, még a Welch-tesztet is elvégezik, csak arra kell figyelned, hogy a megfelelő sorból olvasd ki az eredményt. c) párosított minták átlagának összehasonlítása (paired samples T-test): önkontrollos vizsgálatoknál használható, vagyis ha ugyanazokon az egyedeken mérünk pl. élettani paramétereket valamilyen beavatkozás előtt és után [5]. Ez az egyik legerősebb próba, ezért javaslom, hogy lehetőség szerint úgy tervezd a kísérleteidet, hogy önkontrollosak legyenek, mert itt nem kell tartani egy rakás ismert és ismeretlen tényezőtől, ami mintánként különbözhet. Itt nem kell a varianciát figyelni. Szerintem már elfelejtetted, hogy a patagóniai betegeink második feladatsorát még nem hasonlítottuk össze az elsővel. A nullhipotézis és az alternatív hipotézis megfogalmazása néhány oldallal előbb megtörtént; mindkét teszt normál eloszlású (Shapiro: p1=0,517 és p2=0,456), és a varianciák sem különböznek (F-teszt: F=0,082, p=0,776). Az elemszám nem nagy (n1=n2=27), ugyanazon a mintán végeztünk két mérést, tehát minden együtt van ahhoz, hogy a párosított t-tesztet megkérdezzük. Az eredmény: p<0,001. Nullhipotézis elvetve. 45
Tehát valami történt a két megmérettetés között, ami nem magyarázható a véletlennel: hatásos volt a terápia. Rövid kitérő következik. Az eddig tárgyalt hipotézisvizsgálatok csak arra adtak választ, hogy az átlagok különböznek vagy sem. Megtehetjük azt is, hogy célzottan rákérdezünk, hogy mennyi a valószínűsége annak, hogy az egyik minta nagyobb (nem egyenlő és nem is kisebb) mint a másik. Ezt ritkábban szokás használni, úgy hívják, hogy egy-véges teszt (one-tailed test). Ami ennél talán fontosabb, az a két-véges teszt (two-tailed test). Aki nem foglalkozik az egy/két végek kérdésével, az egész életében kétvéges teszttel dolgozik anélkül, hogy tudna róla. Nem tudja, hogy a konfidenciaszintet automatikusan α = 0,05-re tette, és ezzel levágott 2,5-2,5%-ot az eloszlási görbe két végéről. Jó tudni, hogy ha egy két-véges hipotézis alig 5%-on szignifikáns, akkor egyvéges hipotézisként már 2,5%-on szignifikáns lenne [5, 10]. Éppen ezért fontos, hogy először a hipotézist mondjuk ki, és az alapján válasszunk egy-véges vagy két-véges tesztet. Nyilván, látod te is, hogy esetenként egyvéges teszttel szignifikánsra lehet kozmetikázni az eredményt (p=0,06, ráklikkelsz az egy-véges tesztre, és láss csodát: p=0,03). 3. Varianciaanalízis (Analysis of Variance, ANOVA) Az élő rendszerek egyik csodálatos és ugyanakkor szörnyen bosszantó tulajdonsága a nagy variabilitás. Bármilyen mérhető dolgot próbálnál meghatározni élőlényeken, egy csomó független tényező versenyzik, hogy jól megszórja az adataidat. Ha pontosan akarsz számolni, csoportosítanod kell az adatokat a vélt befolyásoló tényezők szerint. Mindazonáltal, ha ezeket a csoportokat mind kettesével hasonlítgatjuk össze, soha nem érünk a végére. A varianciaanalízis arra jó, hogy egyszerre sok 46
mintát hasonlíthass össze. Ha például van tízféle protokoll egy bizonyos karcinóma kezelésére, és sejted, hogy egyik sem ér semmit, akkor beteszed tizenegyediknek a kontrollcsoportot, lefuttatod a varianciaanalízist, és azonnal kijön, hogy egyforma az összes; megspóroltál egy félnapi számolgatást. Megbeszéltük, hogy a T-teszt alapfeltétele a varianciák egyenlősége, és azt is tudod, hogy ezt F-teszttel vizsgálják. A varianciaanalízis ugyanazt az F-eloszlást használja, mint az Fteszt, csak itt nem két minta varianciáját osztjuk el egymással, hanem másról van szó. Nagyon figyelj! 1950-ben egy Fisher nevű matematikus azt találta ki, hogy ha sok minta van, először kiszámítja a minták egybeömlesztéséből kapott főátlagot, majd az egyes mintaátlagokat, és ezeket összehasonlítja. Rövidesen rájött, hogy az adatok főátlagtól való eltérése két helyről származik: a mintákon belüli átlagtól való eltérésből és a mintaátlagok egymás közötti eltéréséből. Még egy utolsó csavarás következik: azt mondta, hogy ne átlagok különbségeivel számoljunk, hanem a szórásnégyzetekkel, azaz a varianciával [5]. Minden mintának van tehát egy saját varianciája, ezeknek a saját varianciáknak az összege a mintákon belüli variancia ( ). Mivel a minták átlaga nem egyenlő, ez is kifejezhető egy varianciaként, ez lesz a csoportok közötti variancia ( ). Legyen
Ha igaz a nullhipotézis, akkor a csoportokon belüli variancia egyenlő a csoportok közötti varianciával, tehát .
47
Minél nagyobb az F, annál biztosabb, hogy dobhatod el a nullhipotézist. Használatának alapfeltétele, hogy • az egyes mérések egymástól függetlenek legyenek • normális eloszlás • a belső varianciák nem különböznek szignifikánsan a) Egyutas, egyszeres osztályozású varianciaanalízis (Oneway ANOVA): Kettőnél több független minta összehasonlítása. Mondok egy példát: legyenek A, B, C és D gyógyszerek, mondjuk herpesz kezelésére. Adjunk mellé placebónak egy ötödiket, ez lesz az E. A függő paraméter legyen a kezelés időtartama (napok). A táblázat így néz ki: 4. Táblázat. Herpesz kezelése
Gyógyszer E C D E A B E ...
Napok száma 7 7 6 7 8 7 8 ...
Egyutas varianciaanalízissel p=0,265 azt jelenti, hogy a herpesz A, B, C vagy D gyógyszerrel kezelve ugyanannyi idő alatt gyógyul (egy hét), mint azok nélkül (E= placebo, 7 nap). Ha p<0,01, akkor csak annyit tudunk, hogy a vizsgált csoportok között van legalább egy, amely szignifikánsan különbözik a többitől. Ebben az esetben érdemes valamilyen többszörös összehasonlításos tesztre klikkelni (pl. a Bonferroni-teszt
48
mindenkit mindenkivel páronként összehasonlít), vagy a legalaposabb a páronként kiszámolt Student t-teszt. b) Kétutas varianciaanalízis (Two-way ANOVA): Két független változó egyidejű hatásának vizsgálata. Példa: van egy gyógyszercég négy gyógyszerügynök (Ü) alkalmazottal, és háromféle fájdalomcsillapító (X) azonos áron. 5. Táblázat. Fájdalomcsillapítók, napi kereslet
Bevétel (RON/nap)
X
Ü
34 12 30 28 53 ...
1 1 1 1 2 ...
1 2 3 4 1 ...
A gazdasági igazgató arra kíváncsi, hogy a fájdalom-csillapítókból származó bevételek mitől függnek inkább: a gyógyszerügynökök teljesítményétől vagy a gyógyszer típusától. Ha azt kapta eredménynek, hogy a bevétel az X-változóra, illetve az X × Ü interakcióra nem szignifikáns, viszont az Ü-változóra igen, akkor a következtetés az, hogy az ügynökök nem egyformán dolgoznak. Érdekesebb a helyzet, ha kizárólag az X*Ü interakció szignifikáns. Ez azt jelenti, hogy egyik ügynök valamelyik gyógyszert nagyon másképpen forgalmazza. Létezik háromutas, négyutas, stb. varianciaanalízis is, de nem érdemes bonyolítani, amire kell, arra nekünk elég ez a két módszer. Talán mondanom sem kell, hogy igaz ugyan, hogy névlegesen varianciák különbségét számoljuk, de ettől még átlagok különbségéről szól a történet.
49
b) Nemparaméteres tesztek 4. Előjelpróba (sign-test) Ez a legegyszerűbb nemparaméteres teszt, egy bélyeg hátán ki lehet számolni. Mondok egy példát: az a kérdés, hogy adott gyógyszer befolyásolja-e a szívfrekvenciát. Kettős vak kísérletet (double mind randomized trial) alkalmazunk, vagyis: két részre osztjuk a beteganyagot, az egyik csoport a vizsgált gyógyszert kapja, a másik a placebót, sem az orvos, sem a betegek nem tudják, hogy milyen gyógyszert kaptak éppen. 6. Táblázat. Szívfrekvencia gyógyszeres befolyásolása
Placebo 70 78 74 69 ...
Gyógyszer 82 80 73 77 ...
Különbség 12 2 -1 8 ...
Előjel + + + ...
A kísérlet tart mondjuk kétszer egy hetet, és egy hét után gyógyszercsere van; az egyetlen megkötés az, hogy mindkét pirula egy hétig fusson. Fontos, hogy a gyógyszernek ne legyen hosszú távú hatása a betegség menetére. Az adatokat számítógépbe írjuk, az első sorba írjuk például Mari néni adatait, placebo mellett 70, a gyógyszer hatására pedig 82 volt a szívfrekvenciája. Az nem érdekel, hogy kezelés előtt mennyi volt a szívfrekvencia, mert itt mindenki saját magának a kontrollja: minden betegnél felírjuk a harmadik oszlopba a placebo-gyógyszer különbséget; a negyedik oszlopba kerül csak a különbség előjele. Könnyen belátható, hogy a nullhipotézis érvényessége esetén kb. ugyanannyi pozitív előjelet fogunk kapni mint negatívat. Összeszámoljuk tehát a + előjeleket, s 50
megnézzük egy táblázatban (maradj nyugton, a számítógép megnézi), hogy pl. 40 elem esetén 39 + előjelet mekkora valószínűséggel adhat a véletlen. Szerinted? Az előjelpróba egyéb alkalmazási területe pl. a nemek gyakorisága közötti eltérés egy beteganyagban, vagy igen-nem válaszos kérdőívek esete stb., vagyis amikor két egymást kizáró esemény előfordulásának valószínűségét hasonlítjuk össze. 5. Mann-Whitney-U teszt (Wilcoxon rank sum test) Ez a teszt a kétmintás t-teszt nemparaméteres megfelelője. Ezzel a teszttel több név alatt is találkozhatsz, tudjad, hogy lényegében ugyanazon eljárásról van szó (Mann-Whitney U test, vagy Mann-Whitney-Wilcoxon rangösszeg próba, Wilcoxon kétmintás teszt). Ha olyan mintád van, amely nem normális eloszlású, ha a varianciák különböznek, ha az adataid nem numerikus adatok, de rangsorolhatók – nincs semmi baj, a Mann-Whitney-U-teszt erre van kitalálva. Ha a mintád normális eloszlású, és numerikus adataid vannak (arányskálán), de neked nincs kedved Student-tesztet csinálni, akkor sincs semmi gond, mert a Mann-Whitney-U-teszt majdnem olyan erős, mint a t-teszt [2]. A lényege egy nagyon érdekes trükk. 7. Táblázat. APGAR-score: varicellás újszülöttek vizsgálata
Varicella 7 10 6 8 7
Egészséges 10 9 10 10 8 10
51
Egy példa segítségével fogom előadni: az a kérdés, hogy újszülöttkori varicella esetén az APGAR-score (újszülöttek általános fizikai állapotát méri 5 perccel a születés után) különbözik-e az egészséges újszülöttekétől. Egy ritka betegséget vizsgálunk, az elemszám nagyon kicsi (5+6), az adatainkat sorrendi skálán mérjük (APGAR 0..10), tehát az eddigi tesztek használhatatlanok. 8. Táblázat. APGAR-score, rangszámok
6 1
7 7 8 8 2,5 2,5 4,5 4,5
9 6
10 9
10 9
10 9
10 9
10 9
A két mintát egyetlen sorozattá egyesítjük, és növekvő nagyságrendbe tesszük. Minden érték egytől kezdődően rangszámot kap, ha több adat is egyenlő, akkor mindegyik az illető rangszámok átlagát kapja. Például két nyolcas van, ki legyen a negyedik, és ki legyen az ötödik? Mindkettő megkapja a (4+5)/2 rangszámot. Ezután szétválasztjuk a mintákat, és a rangszámokkal számolunk tovább. A varicella-csoportban a rangok átlaga 3,9, az egészségeseknél pedig 7,75, ennek megfelelően p=0,043 – hűha, ez necces volt. Erről jut eszembe, hogy ha szignifikáns eredményt kapunk, akkor lehet ünnepelni, de ha nem, az még nem jelenti azt, hogy nincs is összefüggés. Ebben az esetben ismét meg kell próbálni nagyobb elemszámnál, esetleg más statisztikai próbával, esetleg kiszűrni a befolyásoló tényezőket, stb. Nehéz ügy. 6. Wilcoxon-féle előjeles rangpróba (Wilcoxon signed ranks test) A legfontosabb mondanivalóm az, hogy ezt a tesztet ne téveszd össze a kétmintás Wilcoxon (rangösszeg) próbával, sem az egymintás Wilcoxon próbával (erről nem esett szó, egy 52
elméleti várt értékhez hasonlítjuk a mintánk átlagát, most nem töltjük az időt vele). Akárcsak az előjel-próbánál, a Wilcoxonféle előjeles rangpróba esetén is párosított mintákkal dolgozunk. A párok közötti különbségekhez rangokat társítunk úgy, hogy azok előjelét is megtartjuk. A 6. táblázatból radírozd ki az „Előjel” című oszlopot, és máris kész a táblázatod. A „Különbség” felirat alatti adatokból számolhatunk előjeles rangpróbát. A nullhipotézis értelmében a rangok összege kb. nulla kell legyen. Gondolom, érthető, hogy ez a teszt egyesíti az előjelpróba és a Mann-Whitney-U teszt előnyeit. Felesleges belefáradni a részletekbe, a számítógépbe csak az első két oszlopot kell beírni, abból ki tudja számolni az előjeles rangpróbát. 7. Kruskal-Wallis teszt (Nemparaméteres ANOVA) Ez a teszt a Mann-Whitney U teszt általánosításaként is felfogható [2]. Ha kettőnél több mintát akarok összehasonlítani, de az egyutas ANOVA valami miatt nem megy, akkor klikkelj a Kruskal-Wallis tesztre. Alkalmazási feltételei nem túl szigorúak: legyen véletlen mintavétel, független minták, a változó pedig legalább ordinális skálán legyen mérhető. Átlagok közötti különbség kimutatására nagyon érzékeny ez a próba. Ha elvetjük a nullhipotézist, akkor a minták páronkénti összehasonlításához Mann-Whitney U rangösszeg próbákat lehet végezni. 8. Khi-négyzet (χ2) próba Független kvalitatív vagy diszkrét kvantitatív változók elemzésére alkalmas tesztről van szó. Aki papíron számol, az gyakorisági táblázatot készít. Ezt a táblázatot úgy hívjuk, hogy kontingencia-táblázat.
53
9. Táblázat. Szívfrekvencia gyógyszeres befolyásolása – kontingencia-táblázat
Szívfrekvencia Nőtt Változatlan Csökkent Összes
CSOPORT Placebo Kezelt 3 7 13,6% 35,0% 9 8 40,9% 40,0% 10 5 45,5% 25,0% 22 20 100,0% 100,0%
Összes 10 23,8% 17 40,5% 15 35,7% 42 100,0%
Térjünk vissza az előjelpróbánál felvetett példához: az a kérdés, hogy befolyásolja-e a szívfrekvenciát egy bizonyos gyógyszer. Összesen 42 beteget vizsgáltunk, ezek közül 20 részesült gyógyszeres kezelésben, 22 pedig csak azt hitte. A továbbiakban azt fogjuk megnézni, hogy ezek a kapott gyakoriságok mennyiben térnek el a nullhipotézis által jósolt gyakoriságoktól. A nullhipotézis azt mondja, nincs semmilyen összefüggés a gyógyszerelés és a ritmuszavarok gyakorisága között, a két véletlen változó egymástól független. Ahhoz, hogy szemléletes legyen a kontingencia-táblázat, érdemes feltüntetni a két csoporton belüli relatív gyakoriságokat is. Láthatjuk, hogy a placebo csoportban a betegek 13,6%-a mutatott szívfrekvencia növekedést, a kezelt csoportban viszont jóval nagyobb ez az arány (35,0%). A szívfrekvencia csökkenését nézve, éppen fordított a helyzet: 45,5%-25%. Ez alapján azt sejtjük, hogy a kezelés növeli a szívfrekvenciát, de ezt be is kell bizonyítani. Nézzük meg, mit jósol a nullhipotézis az első cellába. A 42 54
páciens közül 10-nek nőtt a szívfrekvenciája, tehát a relatív növekedés egyenlő 10/42 (=23,8%). Amennyiben igaz a nullhipotézis, akkor mindkét csoportban nagyjából 23,8%-ot kell kapjunk az első sorban. Tehát az első cellában a várható (expected nr., E) gyakoriság: 22 × 10/42=5,2, de látod, hogy a tapasztalt gyakoriság (observed nr., O) nem ennyi, hanem egyenlő 3-al. A χ2 próba minden cellára kiszámolja a
�O � E �2 E értéket, pl. az első cellában:
�3 � 5,2�2 5,2
� 0,93
ezeket összegzi, és máris meg van a χ2 értéke, amelynek a χ2 eloszlás táblázatában megfelel egy p érték. Ezzel az általános eljárással bármilyen n×m-es kontingencia-táblázatra számolható χ2 teszt. A mi példánkban χ2 = 3,238 és p = 0,198 az eredmény. Tehát a nullhipotézist nem tudtuk elvetni, nem tudtuk bizonyítani, hogy a gyógyszer hatásos lett volna. Remélem érthető, hogy ez nem jelent bizonyítékot arra, hogy a gyógyszer hatástalan! Jó, ha tudod, hogy a χ2 próba érvényességének feltétele, hogy a cellák legalább 80%-ban a várható gyakoriságok (E) értéke nagyobb legyen mint 5, és sehol ne legyen 1 alatti (a megfigyelt gyakoriság természetesen lehet 0). Ha ezt nem tudod tartani, akkor Fisher-féle exakt teszttel kell dolgoznod.
55
10. Táblázat. 2×2-es kontingencia-táblázat
Válasz Igen Nem Összesen
Két vizsgált csoport 1 2 a b c d n1 n2
Összesen s1 s2 N
Gyakran fordul elő, hogy csak 2×2-es kontingencia-táblázatunk van. Ha beteg- és kontrollcsoportunk van, vagy ha epidemiológiai vizsgálatokban a két vizsgált csoport a kockázatnak kitettek és a kockázat nélküliek, valamilyen tünet jelenlétét vagy terápiás választ vizsgálunk, akkor ilyen táblázattal fogunk dolgozni. Ez a χ2 tesztnek egy olyan sajátos esete, amellyel számítógép nélkül is jól meg tudsz birkózni. Ennyi az egész:
�2 �
N �a � d � c � b � n1 � n2 � s1 � s 2
2
Ezt tényleg egy bélyeg hátán is ki lehet számolni. Nem? 11. Táblázat. Gyakran használt Khi-négyzet küszöbértékek
χ2 > 3,841 6,635 10,827
p< 0,05 0,01 0,001
Itt a nagyszerű alkalom, hogy megvizsgáld, hogy a nemek között van-e szignifikáns különbség a sapkahordás tekintetében. Fog ez menni: kontingencia-táblázat, fiúk és lányok, van
56
sapkája, nincs sapkája. Mondok egy példát, te majd átjavítod a számokat. Nullhipotézis: sapkaviselet gyakoriságát tekintve nincs különbség a nemek között. Alternatív hipotézis: igenis, van különbség! 12. Táblázat. Kontingencia-táblázat: sapkaviselet vizsgálata nemek szerint
Sapka Van Nincs Összesen
Fiúk 18 6 24
Nemek
Lányok 4 10 14
Összesen 22 16 38
Tehát a 11. táblázat szerint ez p<0,01. (A 11. táblázat értékei csak 2×2-es kontingencia-táblázat esetén használhatók!) Tehát nagy bizonyossággal (p<0,01) állítjuk, hogy a sapkaviselet nemek szerint eltérő. Maga a teszt csak ennyit mond, de ha rendesen felírtuk volna a relatív gyakoriságokat, akkor még jobban látszana, hogy a fiúk állandóan sapkában vannak, a lányok alig (75% vs. 40%). Mondom, egy bélyeg hátán... Ha számítógéppel dolgozunk, akkor... Lehetőleg jól bevált, valamelyik legismertebb statisztikai programcsomagot használd (SPSS, STATA, BMDP, MINITAB, SAS). Ha egyik sem hozzáférhető, akkor a Microsoft Excelben a Tools alatt az „Addins...”-re klikkelve az Analysis ToolPak-et installálhatod. A Tools menüben megjelenik a Data Analysis opció. Használata nehézkes és korlátozott, de meg fogsz lepődni, hogy mennyi mindent tud. Már az adatok bevitele előtt definiáld a változókat, vagyis mindegyiknek adjál nevet, aztán mondd meg a programnak,
57
hogy egész vagy nem egész számot, dátumot vagy szöveget akar jelenteni az a változó. Minden információt számmá kell alakítani. Beírod például, hogy neme, beállítod, hogy egész számokkal fogod jelölni, tehát nulla tizedesig kéred, a skála nominális, aztán a values vagy hasonló címszó alatt meg lehet adni, hogy 1=fiú, 2=lány. Ugyanígy beviszed a sapka változót, ugyancsak nominális, 0=nincs, 1=van. Ha hiányzik egy adat, azt is jelölni kell valamivel! Mondjuk a –1 jelentse azt, hogy nincs adat. Ha szérumkoleszterin szintet mérsz, akkor a col (=szérum koleszterin) változó numerikus adat, arányskálán (scale, ratio) mérendő, beállítod, hogy 2 vagy 3 tizedesig, stb. Ez után jöhet az adatok bepötyögése. Ha az első sorba azt írod, hogy 13. Táblázat. Adatbevitel általános formája
neme 1 ...
sapka 0 ...
col 9,5 ...
ez azt jelenti, hogy egy fiúról van szó, akinek nincs sapkája és a szérumkoleszterin szintje 9,5 mM/l. Minden sor egy embert jelent, minden oszlop egy paramétert, tulajdonságot. A leíró statisztikák számolásánál, hipotézis-vizsgálatoknál és mindenféle műveleteknél csak a változók nevével dolgozol. Ha például azt szeretnéd, hogy helyetted a gép számolja ki a sapkák és a nemek közötti összefüggést, akkor a χ2 tesztnél megadod, hogy az oszlopokban legyen a neme, a sorokban a sapka, és OK. Csak olyan módszereket alkalmazz, amelyeket jól ismersz. A bőség zavarában vigyázz, hogy mit jelölsz be. Legjobb, ha előbb elolvasod a súgót.
58
Mielőtt megkapnád az eredményt, legyen elképzelésed, hogy milyen válasz várható. A számítógép tudja a statisztikák értékét, de az értelmét nem! Vedd észre, ha nyilvánvalóan rossz eredmény kaptál. Nagyon vigyázz, mert a számítógép nem fog néhány keresetlen szóval figyelmeztetni, hogy már megint értelmetlen kérdést tettél fel; egyszerűen értelmetlen választ ad. A p=0,000 eredmény azt jelenti, hogy p<0,001, de ezt már régóta tudod.
59
Utószó helyett Hivatalos statisztikák szerint az autópályákon a halálos autóbalesetek 8%-át menetiránnyal szemben közlekedő sofőrök okozzák, ami azt jelenti, hogy a halálos autóbalesetek 92%-a a helyes menetirányba haladó sofőröknek tulajdonítható, tehát statisztikai szempontból biztonságosabb az autópályán menetiránnyal szemben haladni!? Szerinted?
Szimbólumok jegyzéke N alapsokaság elemszáma n minta elemszáma x minta átlaga µ alapsokaság átlaga S ferdeség (Skewness) K hegyesség (Kurtosis) s minta szórása SD, σ alapsokaság szórása, standard deviáció v, σ2 variancia Q1, Q2, Q3 kvartilisek r korrelációs együttható mintában ρ korrelációs együttható alapsokaságban SEM átlag standard hibája
60
Felhasznált irodalom [1] Barta Z. – Biometria (http://puma.unideb.hu/~zbarta/teaching/ biometria) [2] Belágyi J. – Orvosi biometria, Pécsi Orvostudományi Egyetem, Pécs, 1999. [3] Farkas E. – Îndreptar de lucrări practice în sănătatea publică. Legislaţie sanitară, UMF Tg. Mureş, Târgu Mureş, 2000. [4] Hajtman B. – Matematika orvosok és gyógyszerészek részére, Medicina Könyvkiadó, Bp, 1980. [5] Kirkovits M. – A biostatisztika alapjai, Debreceni Orvostudományi Egyetem, Debrecen, 1998. [6] László J. – Prelucrarea statistică a datelor experimentale, IMF Tg. Mureş, Tg. Mureş, 1973. [7] Makara B. G.: Bevezetés a biometriába (http://xenia.sote.hu/hu/biosci/docs/biometr/course/introduc/index2.htm) [8] Marc S. – Prelucrarea statistică în medicină şi biologie, Editura Academiei, Bucureşti, 1961. [9] Mezei E., Veres V. – Társadalomstatisztika, Kolozsvári Egyetemi Kiadó, Kolozsvár, 2001 [10] Patrick, R. – Metodele statistice şi experimentale în ştiinţele umane, Polirom, Iaşi, 2004. [11] Puri, K. B. – Statistics for the Health Sciences using SPSS, Saunders, London, 1996 [12] Trebici, V. – Mica enciclopedie de statistică, Editura ştiinţifică şi enciclopedică, Bucureşti, 1985. [13] Vargáné H. P., Boján F. – Demográfiai és epidemiológiai módszerek a népegészségügyben, Literatura Medica Kiadó, Bp, 1996.
61