MODERN ÜZLETI TUDOMÁNYOK FİISKOLÁJA
NÉMETHNÉ GÁL ANDREA
ÁLTALÁNOS STATISZTIKA
TRI-MESTER TATABÁNYA 2000
Elıszó Könyvünk elsıdleges célja, hogy írásos tananyagul szolgáljon a Modern Üzleti Tudományok Fıiskolája hallgatói számára. Ennek megfelelıen a könyv mind tartalmában, mind felépítésében igazodik a Fıiskolán oktatott „Statisztika” tantárgy tematikájához. A könyv áttanulmányozása során az Olvasó megismerkedhet az általános statisztika alapfogalmaival, valamint a leíró statisztika és a matematikai statisztika legfontosabb elemzési módszereivel. Ezen módszerek bemutatásakor elsısorban arra törekedtünk, hogy azok könnyen érthetıek és tanulhatóak legyenek, ezért több helyen eltekintettünk a pontos matematikai levezetések, bizonyítások közlésétıl. Az ezek iránt érdeklıdı Olvasóknak a „Felhasznált irodalom”-ban közölt, a statisztikai adatelemzési módszerek bıvebb leírásával foglalkozó néhány munka áttanulmányozását ajánljuk. (Megjegyezzük, hogy a számítások elvégzésének megkönnyítése érdekében e tankönyvvel egy idıben jelent meg a „Statisztikai képletgyőjtemény”, melynek felépítése és jelölésrendszere összhangban van tankönyvünkkel.) További fontos törekvésünk volt az is, hogy bemutassuk az ismertetett módszerek gyakorlati alkalmazásának lehetıségeit, ezért minden számítási eljárást egy-egy, a gazdasági élet területérıl vett számpéldával illusztráltunk. Mind az elméleti levezetések, mind a számpéldák után megtalálhatóak az eredmények szöveges értelmezései, melyek elengedhetetlenül szükségesek minden igényes statisztikai elemzés elkészítéséhez.
Könyvünk anyaga nagymértékben támaszkodik a „Némethné Gál Andrea – Szabó László: Bevezetés az általános statisztikába” (Tri-Mester, Tatabánya, 1997.) címő tankönyvre, mely ezen könyv elızményének tekinthetı. Itt szeretnénk köszönetet mondani Dr. Szabó Lászlónak, aki munkájával nagyban hozzájárult e könyv megszületéséhez. Köszönetet mondunk még Juhász Györgyné dr. egyetemi docensnek is lelkiismeretes lektori munkájáért.
Reméljük, hogy könyvünket haszonnal forgatják majd a fıiskolai hallgatók, s rajtuk kívül minden érdeklıdı Olvasó! Tatabánya, 2000. január 24.
A Szerzı
2
Tartalomjegyzék ELİSZÓ ........................................................................................................................................1 TARTALOMJEGYZÉK...............................................................................................................2 1. A STATISZTIKA ALAPFOGALMAI ....................................................................................5 1.1. A STATISZTIKA FOGALMA ..........................................................................................................5 1.2. A STATISZTIKA KAPCSOLATA MÁS TUDOMÁNYOKKAL ...............................................................6 1.3. A STATISZTIKÁVAL SZEMBEN TÁMASZTOTT KÖVETELMÉNYEK ..................................................6 1.4. A STATISZTIKAI SOKASÁG ÉS AZ ISMÉRV FOGALMA ...................................................................7 1.5. AZ ADATOK ÖSSZEHASONLÍTHATÓSÁGA ....................................................................................8 1.5.1. Az idıszakok eltérı hosszúsága ........................................................................................8 1.5.2. A szervezeti eltérések, változások......................................................................................9 1.5.3. A módszertani eltérések ....................................................................................................9 1.6.2. A csoportképzés szabályai...............................................................................................10 2. A STATISZTIKAI MUNKA SZAKASZAI...........................................................................12 2.1. A STATISZTIKAI MEGFIGYELÉS FELADATA, TÁRGYA ÉS EGYSÉGE .............................................12 2.2. A MEGFIGYELÉSEK FAJTÁI .......................................................................................................13 2.2.1. A megfigyelés gyakorisága .............................................................................................13 2.2.2. A megfigyelés köre ..........................................................................................................16 2.2.3. Az adatgyőjtés módja ......................................................................................................19 2.3. A STATISZTIKAI KÉRDİÍVEK ....................................................................................................20 2.3.1. A bizonylati elv érvényesítése .........................................................................................20 3. A STATISZTIKAI SOROK ÉS FAJTÁIK ...........................................................................23 3.1. A LEÍRÓ SOR ............................................................................................................................23 3.2. A TERÜLETI SOR ......................................................................................................................24 3.3. AZ IDİSOR...............................................................................................................................25 3.4. A MENNYISÉGI SOROK .............................................................................................................26 3.5. A MINİSÉGI SOROK .................................................................................................................27 3.6. AZ EGYES SOROK AZONOSSÁGAI ÉS KÜLÖNBSÉGEI ..................................................................28 4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI ................................................................29 4.1. A VISZONYLAGOS NAGYSÁG ....................................................................................................29 4.2. A VISZONYSZÁM FOGALMA, FAJTÁI .........................................................................................29 4.2.1. Egysíkú, egydimenziós viszonyszámok ............................................................................30 4.2.2. Több síkú, többdimenziós viszonyszámok .......................................................................38 4.3. A VISZONYSZÁMOK TOVÁBBI VISZONYÍTÁSÁNAK LEHETİSÉGEI ..............................................42 5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS .............................................................................46 5.1. A KÖZÉPÉRTÉKEK JELLEMZİI ÉS FAJTÁI ..................................................................................46 5.2. A SZÁMÍTOTT KÖZÉPÉRTÉKEK .................................................................................................48 5.2.1. A számtani (aritmetikai) átlag.........................................................................................48 5.2.4. A mértani (geometriai) átlag...........................................................................................53 5.2.5. A négyzetes átlag ............................................................................................................55
3 5.2.6. A kronologikus átlag.......................................................................................................55 5.3. A HELYZETI KÖZÉPÉRTÉKEK ....................................................................................................57 5.3.1. A módusz.........................................................................................................................57 5.3.2. A medián .........................................................................................................................60 5.4. VISZONYSZÁMOK ÁTLAGOLÁSA...............................................................................................62 5.5. A SZÓRÓDÁS FOGALMA ÉS MUTATÓI........................................................................................63 5.6. ELOSZLÁSOK VIZSGÁLATA A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS FELHASZNÁLÁSÁVAL ................66 6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA ..........................................70 6.1. A STATISZTIKAI TÁBLÁK FOGALMA ÉS SZERKESZTÉSE .............................................................70 6.1.1. Egyszerő táblák...............................................................................................................71 6.1.2. Csoportosító táblák.........................................................................................................71 6.1.3. Kombinációs táblák ........................................................................................................72 6.1.4. A táblaszerkesztés szabályai ...........................................................................................73 6.2. A STATISZTIKAI ADATOK ÁBRÁZOLÁSA....................................................................................77 6.2.1. Koordináta-rendszeren alapuló diagramok....................................................................78 6.2.2. Kördiagramok.................................................................................................................83 6.2.3. Statisztikai térképek ........................................................................................................83 6.2.4. Piktogramok....................................................................................................................84 7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA.............................................................86 7.1. AZ ISMÉRVEK KÖZÖTTI KAPCSOLAT FOGALMA ........................................................................86 7.2. A KAPCSOLAT FAJTÁI AZ ISMÉRVEK MÉRÉSI SZINTJE SZERINT ..................................................88 7.2.1. Asszociáció......................................................................................................................90 7.2.2. Vegyes kapcsolat.............................................................................................................93 7.2.3. Korreláció.......................................................................................................................98 8. A STATISZTIKAI INDEXEK .............................................................................................111 8.1. AZ INDEXSZÁM FOGALMA......................................................................................................111 8.1.1. Az értékindex.................................................................................................................112 8.1.2. Az árindex .....................................................................................................................114 8.1.3. A volumenindex.............................................................................................................117 8.2. AZ INDEXEK KÖZÖTTI ÖSSZEFÜGGÉS .....................................................................................119 8.3. AZ ÉRTÉK-, ÁR- ÉS VOLUMENINDEXEK ÁTLAGFORMÁI ...........................................................121 8.3.1. Számtani átlagforma .....................................................................................................121 8.3.2. Harmonikus átlagforma ................................................................................................124 8.4. AZ INDEXSOROK FOGALMA ÉS FAJTÁI ....................................................................................126 9. A STANDARDIZÁLÁS ........................................................................................................131 9.1. STANDARDIZÁLÁS KÜLÖNBSÉGFELBONTÁSSAL .....................................................................131 9.2. STANDARDIZÁLÁS INDEXSZÁMÍTÁSSAL .................................................................................135 9.2.1. A fıátlag-index..............................................................................................................135 9.2.2. A részátlag-index ..........................................................................................................136 9.2.3. Az összetételhatás-index................................................................................................137 9.2.4. Az indexek közötti összefüggés......................................................................................137 10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT ...............139 10.1. MINTAVÉTEL .......................................................................................................................139
4 10.1.1. Alapfogalmak..............................................................................................................139 10.1.2. Az alapsokaság és a minta megadása .........................................................................140 10.1.3. A mintajellemzık és tulajdonságaik............................................................................141 10.2. STATISZTIKAI BECSLÉS ........................................................................................................142 10.2.1. Alapfogalmak..............................................................................................................142 10.2.2. Pontbecslés .................................................................................................................146 10.2.3. Intervallumbecslés ......................................................................................................147 10.3. HIPOTÉZISVIZSGÁLAT ..........................................................................................................155 10.3.1. Alapfogalmak..............................................................................................................155 10.3.2. A hipotézisvizsgálat lépései.........................................................................................155 10.3.3. A hipotézisvizsgálat során elkövethetı hibák..............................................................157 10.3.4. A próbák elvégzése......................................................................................................157 11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE...............................................................168 11.1. AZ IDİSOROK ÖSSZETEVİI ..................................................................................................168 11.2. AZ IDİSOR ALAPIRÁNYZATÁNAK MEGÁLLAPÍTÁSA ..............................................................170 11.2.1. Mozgó átlagolású trendszámítás.................................................................................170 11.2.2. Analitikus trendszámítás .............................................................................................171 11.3. A SZEZONÁLIS INGADOZÁS MÉRÉSE .....................................................................................178 11.3.1. Szezonális eltérés ........................................................................................................179 11.3.2. Szezonindex.................................................................................................................181 11.4. INTERPOLÁCIÓ ÉS EXTRAPOLÁCIÓ .......................................................................................183 11.5. A VÉLETLEN HATÁS VIZSGÁLATA ........................................................................................185 12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS.............................................................191 12.1. KÉTVÁLTOZÓS NEMLINEÁRIS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS ................................191 12.1.1. Exponenciális regressziószámítás...............................................................................191 12.1.2. Hatványkitevıs regresszió...........................................................................................194 12.1.3. Nemlineáris korrelációszámítás..................................................................................196 12.2. HÁROMVÁLTOZÓS LINEÁRIS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS..................................198 12.2.1. A háromváltozós lineáris regressziós modell..............................................................198 12.2.2. A háromváltozós lineáris korreláció...........................................................................202 12.2.3. Multikollinearitás........................................................................................................205 13. A FONTOSABB STATISZTIKAI INFORMÁCIÓ- FORRÁSOK ................................207 13.1. BELFÖLDI STATISZTIKAI ADATFORRÁSOK ............................................................................207 13.1.1. A KSH, mint adatforrás...............................................................................................208 13.1.2. A hazai adatszolgáltatásra szakosított vállalati adatforrások ....................................209 13.2. KÜLFÖLDI STATISZTIKAI ADATFORRÁSOK ............................................................................210 13.2.1. Az ENSZ statisztikai információi.................................................................................210 13.2.2. Regionális szervezetek statisztikai információi ...........................................................210 13.2.3. A nemzeti intézmények statisztikai információi...........................................................210 13.2.4. Külföldi magánvállalkozások statisztikai információi ................................................210 FÜGGELÉK ..............................................................................................................................212 FELHASZNÁLT SZAKIRODALOM .....................................................................................218
5
1. A STATISZTIKA ALAPFOGALMAI 1.1. A statisztika fogalma A statisztika eredetileg enciklopédikus ismereteket jelentett az állam berendezésérıl, felépítésérıl, népességérıl, amelyekben a kvantitatív leírásnak, számoknak csak alárendelt szerep jutott. Ma azonban a helyzet már egészen más. Statisztikával az életnek jóformán minden területén találkozhatunk. Sokkal szélesebb az adatgyőjtések köre, sokkal nagyobbak a követelmények, s hallatlan mértékben megnıtt a statisztika fogyasztóinak száma. A piacgazdálkodás és a természettudományok fejlıdésével egyre inkább szükség volt arra az áttekintésre, amelyet a statisztika ad. Ezen adatéhség a statisztika fogyasztóinak helyzetét is megváltoztatta, s magasabb követelményeket támasztott a felhasználó statisztikai ismereteivel szemben, hogy megérthesse és helyesen használja fel az adatokat. Statisztikán napjainkban a társadalmi-gazdasági és a természeti jelenségeknek, ezek idıbeni változásának és a jelenségek közötti összefüggéseknek számszerő leírását értik. Statisztikai adatfelvételekkel állapítják meg a népesség számában és összetételében bekövetkezett változásokat, a születések és halálozások számát, statisztikán alapul az áruforgalmi elemzés, a költséggazdálkodás, a piackutatás során végrehajtott prognosztizálás, de statisztikát készít a Meteorológiai Intézet is a hımérséklet és a csapadékmennyiség naponkénti alakulásáról, s tekintélyes szerepe van a statisztikának a biológiai, gyógyászati kutatásokban éppúgy, mint a természettudományok többi területein. A statisztikával szemben támasztott igények hozták létre Európában - a legtöbb országban - még a múlt század derekán az országos statisztikai hivatalokat. Ilyen intézmények ma már a Föld szinte valamennyi országában mőködnek, s adatgyőjtésük kiterjed a társadalmi-gazdasági élet legfontosabb területeire. Emellett a nemzetközi szervezetek (így az ENSZ és az Európai Unio) is mőködtetnek statisztikai hivatalokat, amelyeknek adatai az egyes országok adatközlésein alapulnak. Magyarországon az 1993-ban hozott Statisztikai Törvény szabályozza a hazai adatgyőjtéseket és a Központi Statisztikai Hivatal, valamint területi igazgatóságai tevékenységét. A statisztika vizsgálatának tárgya általában tömegjelenség, amelynek megfigyelése annak egyedei útján történik. Ahhoz, hogy meghatározzák a születések számát, minden egyes születést számba kell venni. A termelés vagy a forgalom volumenének megállapításához ugyancsak szükség van a vizsgált idıszak alatt termelt, illetve értékesített minden egyes termék számbavételére. Jellemzıje azonban a statisztikának, hogy a tömegjelenségek vizsgálatát nem csupán tömegészleléssel (valamennyi egyed megfigyelésével és számbavételével, vagyis teljes körő adatfelvétellel) tudja megoldani. Ahhoz például, hogy meghatározzák az élelmiszer-árukínálat összetételét, elégséges néhány száz üzlet forgalmának tüzetesebb megfigyelése. Ha pedig a cél az, hogy megállapítsák a háztartások kisgépekkel való felszereltségének színvonalát, nem szükséges valamennyi háztartást megfigyelni, elégséges lehet erre a célra annak pár százaléka is, mint ahogyan helyes kép nyerhetı például a lakosság testméretérıl megfelelı módon kiválasztott néhány tízezer ember méreteinek megfigyelése révén is. A mindennapi életben sokféle értelemben beszélnek statisztikáról. Ezen értik: - az egyes jelenségek megfigyelése révén nyert adattömeget;
6
1. A STATISZTIKA ALAPFOGALMAI - azt a gyakorlati tevékenységet, amelynek eredményeként ezekhez az adatokhoz hozzájutnak; - azokat a módszereket, amelyeknek segítségével a megfigyelés végbemegy, s az adatok feldolgozása és értékelése történik, végül - azt a tudományt, amely magában foglalja a statisztika elméletét, módszertanát és történetét. A statisztika, vizsgálatának tárgya és területe szerint két fı csoportba sorolható; az egyik csoport a statisztika elméleti problémáival s a módszerekkel általánosságban foglalkozik. Ezt általános statisztikának nevezik. A módszertan másik része sok önálló részbıl áll, amelyeket összefoglaló névvel szakstatisztikának (ágazati statisztikának) nevezzük. A szakstatisztikák a nemzetgazdaság, illetve a társadalmi-gazdasági élet legfontosabb szektorai, illetve a fontosabb vizsgálati tárgykörök szerint tagozódnak. Így például a különféle gazdasági folyamatok statisztikai elemzésével a gazdaságstatisztika foglalkozik, az ország népességére vonatkozó adatok győjtésével és feldolgozásával a demográfia, stb. A továbbiakban tankönyvünk az általános statisztika legfontosabb módszereit mutatja be, gyakorlati példái útján azonban betekintést nyújt az egyes szakstatisztikák sajátosságaiba.
1.2. A statisztika kapcsolata más tudományokkal A kapcsolat az érintett tudományokkal általában kétféle jellegő: egyrészt a statisztika szükség esetén igénybe veszi más tudományok módszereit. Például fontos szerepe van a statisztika és a matematika, illetve a matematikai statisztika közötti kapcsolatnak. Ennek lényege az, hogy a statisztika adatfelvételeinél felhasználja a matematikát (pl.: a valószínőségszámítást), mint nélkülözhetetlen segédeszközt. Hasonlóan kölcsönözheti a statisztika a kérdıív szerkesztésében a logika, a lélektan szabályait. Az esetek túlnyomó többségében azonban a másik fajta kapcsolat érvényesül, nevezetesen az, hogy - miként erre a bevezetıben utaltunk - a tudományok sokasága nélkülözhetetlen eszközként használja fel a statisztikát kutatásaiban, eredményeik értékelésében.
1.3. A statisztikával szemben támasztott követelmények Ahhoz, hogy a statisztika megfelelıen tudja betölteni szerepét a vizsgált jelenségek feltárásában, három alapvetı követelménynek kell megfelelnie. 1. Mindenkor a valóságot tárja fel Ennek elıfeltétele az, hogy a statisztikai adatok pontosak és megbízhatóak legyenek, s lehetıvé tegyék a jelenségek teljességükben, összefüggéseikben és változásaikban való vizsgálatát. Emellett azonban mást is figyelembe kell venni. Eléggé általános az a felfogás, hogy statisztikai adatokkal mindent be lehet bizonyítani. Ez a nézet, legalább részben, egy félreértésen alapul. A statisztika a valóság számszerő vonatkozásainak a megismerésére törekszik, az eredménnyel szemben közömbös, nem foglal állást. Feladata az, hogy leírja az állapotot és tisztázza azokat az összefüggéseket, amelyek az állapothoz vezettek. A gyakorlatban azonban számolni kell azzal, hogy akik az állapot fenntartásában, vagy megváltoztatásában érdekeltek, vagy abban közremőködnek, már nemcsak a valóság megismerésére törekszenek, hanem statisztikákkal álláspontjukat kívánják igazolni, védeni, néha még
1. A STATISZTIKA ALAPFOGALMAI 7 erıszak árán is. Ez a "statisztikai hazugságok egyik eredete." Persze igen gyakran nem tudatos ferdítésrıl van szó, hanem arról, hogy "legjobb szándék mellett is" az anyag, az eljárás természete, a kapott eredmény nem egyértelmő. Sajnos ez nem mindig válik világossá. A tisztesség ekkor megköveteli, hogy ezt be is valljuk és keressük a módot a jobb anyag beszerzésére és jobb eljárások kidolgozására. 2. Mondanivalóját tömören, áttekinthetı módon fejezze ki Ezt úgy éri el, hogy a vizsgálatai során begyőjtött adatokat rendszerezi, összegezi és azokból olyan áttekinthetı kimutatásokat készít, amelyek egyértelmően és világosan mutatják be, szemléltetik a vizsgált társadalmi-gazdasági jelenségek jellemzı tulajdonságait. A statisztikai elemzések, értékelések tömörsége elısegíti a valóság megértését, míg az apró részleteknek a lényegessel azonos arányban való bemutatása, hátráltatja ezt. Tréfásnak tőnik, de való igaz egy olasz publicistának a következı mondása: "Aki egy oldalnyi mondanivalót három oldalon ír le, az egyéb aljasságra is képes". 3. Vizsgálatainak végrehajtása és az eredmények közlése A lehetıséghez képest gyors legyen, mert csak így szolgáltathat megfelelı alapot gyors, operatív intézkedésekre.
1.4. A statisztikai sokaság és az ismérv fogalma A statisztika tárgyát képezı társadalmi-gazdasági jelenségek egyedeken (személyeken, tárgyakon, gazdasági egységeken stb.) épülnek fel. Ezen egyedek összességét, ill. halmazát statisztikai sokaságnak nevezzük. Statisztikai sokaságot képez például egy adott idıszak külkereskedelmi vagy kiskereskedelmi forgalma, az ország lakosai egy adott idıpontban, stb. A statisztikai sokaságnak kétféle típusa ismeretes aszerint, hogy egy pillanatnyi állapotot fejez ki vagy egy idıben lezajló folyamatra értelmezhetı: az álló sokaság és a mozgó sokaság. Az álló sokaság mindenkor állapotot fejez ki (pl. az üzletek; a vállalkozók száma egy év meghatározott idıpontjában). A mozgó sokaság viszont mindig folyamatot, történést érzékeltet (pl. a termelés mennyisége, a kereskedelmi forgalom, a születések, házasságkötések stb. száma bizonyos idıtartam alatt). A statisztikai sokaság egyedei bizonyos meghatározott tulajdonságokkal rendelkeznek. Például az áruforgalom egyedei; az egyes vásárlások jellemezhetık azzal, hogy élelmiszereket, ruházatot, vagy éppen rádiót vásároltak, hogy városban vagy falun történt-e a vásárlás, stb. Hasonlóképpen az ország lakosait jellemezni tudjuk a nem, az életkor, a foglalkozás, stb. segítségével. A sokaság ezen tulajdonságait (jellemzıit) a statisztikai szakirodalom ismérveknek nevezi. Azokat az ismérveket, amelyek alapján ugyanaz a tulajdonság (ismérvváltozat) jellemzı a sokaság minden egyes elemére, közös ismérveknek, míg azokat, amelyek alapján a sokaság elemei különböznek egymástól, megkülönböztetı ismérveknek nevezzük. Például ha a vizsgált sokaságot a Magyarországon 1995-ben alapított gazdasági társaságok képezik, akkor közös ismérvük például az alapítás éve (1995) és helye (Magyarország), de minden bizonnyal különböznek egymástól például az alaptıke nagysága vagy a profil vonatkozásában.
8
1. A STATISZTIKA ALAPFOGALMAI
1.5. Az adatok összehasonlíthatósága A megfigyelésbıl származó adatokat általában nem eredeti formájukban használjuk fel a statisztikai elemzések során. Az elemzésnek ugyanis az a feladata, hogy az egyes jelenségek közötti összefüggéseket feltárja, ezt viszont az elsıdleges adatok (gyakoriságok és értékösszegek) önmagukban való vizsgálata nem teszi lehetıvé. A közgazdasági összefüggések feltárása az egyes statisztikai adatoknak egymáshoz való hasonlítása, egymással való összevetése útján lehetséges. Az adatok egymáshoz való viszonyítása során felmerült az összehasonlíthatóság problémája. Ez azért merül fel, mert az egymással összehasonlított adatok kialakulásában olyan tényezık is szerepet játszhatnak, amelyek valamilyen vonatkozásban torzítják a vizsgált jelenség valóságos képét. Azt, hogy az egyes konkrét elemzési esetekben mely adatok hasonlíthatók egymáshoz, illetve mely tényezık okoznak problémát az összehasonlításnál, mindig az adatok jellege és a vizsgálat célja dönti el. Az adatok összehasonlíthatóságát befolyásoló (zavaró) tényezık három csoportba sorolhatók: - az idıszakok eltérı hosszúsága, - szervezeti eltérések, változások, - módszertani eltérések.
1.5.1. Az idıszakok eltérı hosszúsága A statisztikai elemzésben gyakran fordul elı az egyes jelenségek dinamikus vizsgálata. Ez azt jelenti, hogy a vizsgált jelenség különbözı idıszakokra jellemzı adatait hasonlítjuk össze azok különbségének képzésével, vagy egymáshoz való viszonyításuk útján. A változás (fejlıdés) mértékének és ütemének vizsgálatánál jelentkezik - mint zavaró tényezı - az összehasonlított idıszakok eltérı hosszúsága. Például áruforgalmi adatok idıbeni változásának elemzésénél feltétlenül biztosítani kell azt, hogy az adatok azonos idıtartamra vonatkozzanak. A forgalom értékének változását befolyásolja az, hogy az egyes idıszakokban eltérı lehet az üzletek nyitvatartási napjainak száma (pl. eltérı a heti pihenınapok, illetve az egyéb hivatalos munkaszüneti napok száma). Helytelen lenne ennek a tényezınek a hatására létrejött forgalomváltozást is úgy értékelni, mint a vállalat áruforgalmi munkájának eredményét. Az idıtartamok eltérı hosszúságát úgy tudjuk kiküszöbölni, hogy a vizsgált jelenséget (forgalmat) idıegységre (pl. egy üzletnapra) vetítjük és így végezzük el az összehasonlítást. Az idıtartamok eltérı hosszúsága nem minden esetben jelent zavaró körülményt az összehasonlításban akkor sem, ha a vizsgált jelenséget abszolút értékek képviselik. Például létszámadatok vagy árukészletek összehasonlításánál nem jelentkezik az elıbbi korrekciós igény, mivel a létszám és a készlet egyaránt csak átlagos értékként jellemezhet hosszabb idıtartamot, az átlagok pedig már mentesek az idıtartamok eltérı hosszúságának hatásától. Megállapíthatjuk tehát, hogy az úgynevezett mozgó sokaságok (kereskedelmi forgalom, ipari termelés stb.) idıbeni alakulásának vizsgálatánál zavaró tényezı a különbözı idıtartamok (általában évnél rövidebb idıszakok) eltérı hosszúsága, míg az úgynevezett
1. A STATISZTIKA ALAPFOGALMAI 9 álló sokaságok (készletek, üzletek száma stb.) összehasonlítását ez a körülmény nem zavarja.
1.5.2. A szervezeti eltérések, változások Napjainkban, a vállalatok tulajdonos változásának idıszakában a szervezeti módosulások is problémát okozhatnak mind az idıbeli, mind a térbeli összehasonlításnál. Pl.: - egyes termelı, kereskedelmi egységeket megszüntetnek, privatizálnak, átadják más vállalatnak; - egy vagy több egységet hosszabb idıre bezárnak átalakítás miatt; - összevonnak, vagy szétválasztanak vállalatokat; - részben, vagy egészben módosítják a vállalat profilját. Ilyen esetekben egyedileg kell dönteni a zavaró tényezık kiküszöbölésérıl. Egyik lehetséges módja ennek az, hogy a bázisidıszak adatait módosítják a változásoknak megfelelıen.
1.5.3. A módszertani eltérések Ilyen problémák elsısorban akkor jelentkeznek, ha egymástól eltérı módszerekkel végrehajtott megfigyelések azonos jellegő adatait kívánják összehasonlítani. Két példa erre: - a húsfogyasztás nemzetközi összehasonlításánál nem veszik figyelembe, hogy az egyes országok egymástól eltérıen értelmezik a hús fogalmat (baromfival, hallal együtt vagy azok egyike-másika nélkül); - különbözı szervezetek által végrehajtott hasonló témájú, de ad hoc jellegő felmérések adatainak összehasonlításánál nem veszik figyelembe az egymástól eltérı megfigyelési metodika okozta különbségeket. Ilyen esetekben külön jelzéssel kell felhívni erre a problémára az analízist felhasználók figyelmét.
1.6. A statisztikai csoportosítás 1.6.1. A csoportosítás fogalma és eszközei A statisztikának az egyes jelenségeket mélyrehatóan elemeznie kell, mert csupán így nyílik lehetıség azok alapos megértéséhez. Ahhoz például, hogy értékelni lehessen az ország lakosságának fıbb jellemzıit, s összehasonlítást tudjunk tenni egy korábbi állapotával, nem elégséges csupán a lakosság számának ismerete, hanem tájékozódni kell a férfiak és nık arányáról, az emberek korcsoportonkénti megoszlásáról, foglalkozásukról, iskolai végzettségükrıl, szakképzettségükrıl, lakóhelyükrıl stb. Mindezt részletesen, aszerint, hogy a fıvárosban, vidéki nagy- vagy kisvárosban, vagy falun élnek stb. Általánosan meghatározva a statisztikai sokaságnak valamilyen ismérv szerinti osztályozását, kategorizálását csoportosításnak, azt az ismérvet pedig, amely szerint a sokaságot felosztják, csoportképzı ismérvnek nevezik. Az ismérveket úgy kell kiválasztani, hogy azok alkalmasak legyenek a lényeges különbségek kimutatására. A statisztikai sokaság ezek segítségével egymástól minıségileg különbözı csoportokra bontható oly módon, hogy megállapítjuk az egyes ismérvváltozatok elıfordulásának gyakoriságát az adott so-
10 1. A STATISZTIKA ALAPFOGALMAI kaságban. (Az elıbbi példánál maradva a lakosság esetében például a nem egy ismérv, melynek változatai: férfi - nı.) A csoportképzı ismérvek többfélék lehetnek. Megkülönböztethetık idıbeli, területi és tárgyi, ez utóbbin belül pedig mennyiségi és minıségi ismérvek. - Viszonylag egyszerő feladat az idıbeli ismérvek meghatározása. Meggondolást csupán az igényel, hogy a sokaságot milyen idıtartamokra bontsák, ill. milyen idıpontok szerint vizsgálják, pl. a kiskereskedelmi áruforgalmat csoportosítani lehet félévi, negyedévi, havi és napi, sıt óránkénti forgalomra. Mivel a fogyasztói kereslet az év folyamán az évszakok, vásárlási szokások hatására nem jelentkezik egyenletesen, elképzelhetı pl. az áruforgalomnak ıszi-téli-tavaszi-nyári csoportosítása is. - Elsısorban a közigazgatási határokat (pl. megyék, városok) veszi figyelembe a területi ismérvek szerinti csoportosítás, de elıfordul a gazdaságföldrajzi, az áruforgalom tájegységenkénti megoszlás igénye is. - Külön kell említést tenni a tárgyi ismérveken belül a mennyiségi és minıségi ismérvekrıl. Az ezek közötti eltérés abból áll, hogy az egyik számszerően, a másik pedig bizonyos tulajdonságok alapján (szövegesen) határozza meg az elvégzendı csoportosítást. Pl. mennyiségi ismérv lehet a forgalom nagysága, abban az esetben, ha a vállalatokat eszerint kívánják kategorizálni. Minıségi ismérveket alkalmaznak pl. a kereskedelmi alkalmazottak csoportosításakor annak megállapításához, hogy milyen arányban állnak a forgalom lebonyolításában közvetlenül résztvevık azokhoz képest, akik a vállalat irányítását vagy adminisztrációját intézik. Egy adott statisztikai sokaság osztályozása egyidejőleg több csoportképzı ismérv segítségével is történhet.
1.6.2. A csoportképzés szabályai Gyakran találkozunk azzal a meghatározással, amely a statisztikát a "csoportosítás tudományának" nevezi. Ez a meghatározás is hangsúlyozza, hogy a csoportképzı ismérvek helyes kiválasztása döntı fontossággal bír. Az idıbeli és a területi ismérvek meghatározása az esetek többségében elıre adott. A csoportképzı ismérvek kiválasztásának problematikája elsısorban a mennyiségi és a minıségi ismérvek vonatkozásában jelentkezik. Vizsgáljuk meg, milyen követelményeket kell szem elıtt tartani ezek meghatározásakor: - A mennyiségi ismérvek csak annyiban tekinthetık "mennyiséginek", hogy a megkülönböztetést számokban fejezik ki. Az ily módon képzett csoportok között azonban minıségi különbségek kell, hogy jelentkezzenek. A mennyiségi ismérveket tehát úgy kell kiválasztani, hogy azok alkalmasak legyenek a statisztikai sokaság minıségileg különbözı csoportjainak meghatározására. A munkavállalók kereset szerinti megoszlásának vizsgálatánál például az egyes mennyiségi kategóriákat lehetıség szerint úgy kell meghatározni, hogy azok egyúttal megfeleljenek a foglalkozási besorolásnak is. - A mennyiségi ismérvek szerinti csoportosításnál figyelembe kell venni, hogy a túl sok csoportköz elmossa a különbségeket, nem teszi lehetıvé az áttekintést. Ahhoz pl., hogy adott iparágban a vállalatok által lebonyolított évi forgalom mértékérıl, a vállalatok munkavállalói létszáma megoszlásáról megfelelı képet kapjunk háromnégy kategória elegendı. Nyilvánvaló, hogy a vállalatok ennek többszörös kategó-
1. A STATISZTIKA ALAPFOGALMAI 11 riába való sorolása áttekinthetetlenné tenné a megoszlást. Hasonlóképpen a túl kevés csoportköz sem teszi lehetıvé a statisztikai sokaság minıségi sajátosságainak kimutatását. Általános sémát adni erre persze nem lehet. Ezt mindenkor a statisztikai sokaság jellemzıi határozzák meg. A statisztikus feladata az, hogy e jellemzık megfelelı mérlegelésével eldöntse a valóságot legjobban kifejezı csoportosítás t. A minıségi ismérvek megfelelı kiválasztása is gondos elemzést és a vizsgált terület sokoldalú szakismeretét követeli meg. A statisztikai csoportosításnak egyik legfontosabb szabálya az, hogy minden egység csupán egy csoportba legyen besorolható. Az egyes csoportok tehát egymást ki kell, hogy zárják, közöttük átfedés nem lehet. - Az egyes nemzetgazdasági ágazatokban folyó tevékenység számbavételénél a statisztikai értékelésben felhasználandó csoportok igen gyakran adottak, ezt ugyanis az egyes ágazatok szakmai jellemzıi, az ágazati gazdaságtudományok, ill. a különbözı rendelkezések határozzák meg. Adott például az, hogy milyen ágazatok, ill. iparágak szerinti megoszlásban kell a termelés volumenét és értékét kimutatni, milyen földrajzi, területi bontást, irányítószerv szerinti kategorizálást vagy éppenséggel létszámcsoportokat kell alkalmazni stb.
12
2. A STATISZTIKAI MUNKA SZAKASZAI A társadalmi-gazdasági - ezen belül a piaci - jelenségek vizsgálatához általában igen sok adatra van szükség. Ezeknek egy része - gyakran különbözı forrásokból - a statisztikus, illetve a statisztikát készítı számára rendelkezésre áll. Például: a népesség-nyilvántartás rögzíti a születési adatokat és más jellemzıket, nyilvántartást szerveznek a személygépkocsikról, a betegfelvételekrıl, raktárból való kiszállításról stb. Ezeket az adatokat, mivel eredetileg nem statisztikai célokra készültek, szekunder adatok névvel illetik. A jelenségek vizsgálatához azonban ezek a szekunder adatok legtöbbször nem elégségesek. A hiányzók megszerzésére ún. primer adatfelvételt vagy statisztikai nyelven meghatározva: primer megfigyelést kell végrehajtani. A primer statisztikai adatok minden esetben igen alaposan elıkészített, jól megszervezett rendkívül sokrétő tevékenység, illetve munkafolyamat eredményeként jönnek létre. Ezt a munkafolyamatot idırendi sorrendben a következı fázisokra oszthatjuk; - a statisztikai megfigyelés, azaz az adatok begyőjtésére és feldolgozására vonatkozó terv elkészítése (statisztikai programkészítés), - a megfigyelés végrehajtása, vagyis az adatok begyőjtése és - ellenırzése, - az adatok feldolgozása, rendszerezése, majd - közlése, elemzése.
2.1. A statisztikai megfigyelés feladata, tárgya és egysége A statisztikai megfigyelés idırendben elsı megválaszolandó kérdése: mi legyen a megfigyelés feladata és tárgya. A feladat meghatározása dönti el, hogy mire terjedjen ki az adatfelvétel, a megszerzett, feldolgozott és értékelt adatok mire fognak feleletet adni. A megfigyelés feladata lehet pl. a bolthálózat fıbb jellemzıinek felmérése, vagy adott idıszakra vonatkozóan adott termékek országos termelésének és forgalmának meghatározása. A megfigyelés feladatának és tárgyának megállapítása után soron következı lépés az adatgyőjtés egységének - amelyen felépül a statisztikai sokaság - meghatározása. A statisztikai felvételek során kétféle egységet különböztetünk meg: - a megfigyelési és - a számbavételi egységet. A megfigyelési egység az, amire vonatkozólag győjtik az adatokat, a számbavételi egység pedig az a jogi vagy fizikai személy, aki az adatokat szolgáltatja, ill. az adatok szolgáltatásáért felelıs. Például olyan statisztikai megfigyeléskor, amikor a kiskereskedelmi egységek jellemzı adatait (forgalmát, dolgozók számát, felszereltségét, alapterületét stb.) kívánjuk megállapítani: a megfigyelés egységei a boltok lesznek, a beszámolási egység viszont az a vállalat, amelyhez a boltok tartoznak, s amelytıl az adatok szolgáltatását kérjük. A megfigyelési és beszámolási egység ugyanaz is lehet. Példa erre olyan megkérdezéses vizsgálat, amelynek során minden egyes emberre vonatkozólag maguk a megfigyelési egységek szolgáltatják az adatokat.
2. A STATISZTIKAI MUNKA SZAKASZAI
13
2.2. A megfigyelések fajtái A statisztikai megfigyelések, adatfelvételek többféle szempont szerint is osztályozhatók. (2.1.ábra) A statisztikai megfigyelések (adatfelvételek) fajtái Statisztikai megfigyelések
A megfigyelés gyakorisága szerint
Folyamatos
A megfigyelés köre szerint
Teljes körő
Az adatgyőjtés módja szerint
Részleges
Idıszakos
Önszámlálás Kikérdezés
Reprezentatív Alkalom szerinti (egyszeri) Monografikus
2.1 ábra
2.2.1. A megfigyelés gyakorisága A statisztika a társadalmi-gazdasági jelenségek nagy részét állandó jelleggel, folyamatosan vizsgálja. Egyes jelenségeket azonban csupán ritkább idıközökben figyel meg, éspedig akkor, amikor a jelenség okainak és összefüggéseinek feltárását a társadalmi-gazdasági helyzet, az intézkedési tervek elkészítése, vagy más fontos indok megköveteli. Aszerint, hogy a statisztikai jelenségeket folyamatukban vagy egy bizonyos idıponti állapotukban figyeli meg, beszélünk - folyamatos, - idıszakos és - alkalom szerinti (egyszeri) megfigyelésrıl.
2.2.1.1. A folyamatos megfigyelés A gazdasági élet kormányzati irányításának megalapozásához, a vállalati stratégiai tervek kidolgozásához és teljesítésének ellenırzéséhez a termelési és elosztási folyamatokat az iparban, építıiparban, mezıgazdaságban stb. állandó jelleggel kell a statisztikának megfigyelnie. Az erre vonatkozó adatfelvételeknek számításba kell vennie minden hét, minden nap, minden óra termelési eredményét, lebonyolódó áruforgalmát. A termelés eredményeirıl napi s napon belüli feljegyzések, kimutatások is készülnek. Ezeket a gazdálkodó szervezetek naponként összesítik, nyilvántartják és havonta vagy ritkább idıszakokban - függıen statisztikai adatszolgáltatási kötelezettségüktıl - a statisztikai adatszolgáltatás keretében megküldik a megfelelı statisztikai szerveknek. Hasonló a helyzet a kereskedelem területén is. A boltok, raktárak, árukiadó telepek stb. pl. naponként jelentik forgalmukat vállalatuk-
14 2. A STATISZTIKAI MUNKA SZAKASZAI nak, ahol valamennyi kereskedelmi és értékesítı hely jelentését összesítve minden egyes napra, hétre, hónapra vonatkozóan kimutatják a forgalom értékét. Ennek a rendszeresen vezetett nyilvántartásnak alapján készítik el a vállalatok havonként, negyedévenként, vagy évenként egyszer statisztikai beszámoló jelentésüket a forgalom tárgyidıszak alatti alakulásáról. Ugyanilyen permanens megfigyelés folyik demográfiai vonatkozásban is. A születési, házassági és halálozási anyakönyvi bejegyzések alapján napról napra kimutatják ezek elıfordulásának számát. Ilyen jellegő megfigyelések a nemzetgazdaság minden területén megtalálhatók. Ezeket folyamatos megfigyeléseknek (folyamatos felvételeknek) nevezzük. Hangsúlyoznunk kell azonban, hogy ezeknek az adatfelvételeknek folyamatosságát - mint ahogy azt láttuk - nem az dönti el, hogy milyen idıközökben (pl. havonként vagy félévenként) hajtják végre ıket, hanem az, hogy a kapott adatok a megfigyelt jelenségeket folyamatukban tükrözik-e.
2.2.1.2. Idıszakos megfigyelés Olyan esetekben, amikor a vizsgálandó jelenséget nem jellemzik hirtelen élénk változások, általában idıszakos megfigyelést hajtanak végre. Ugyancsak idıszakos megfigyelést végeznek, amikor a folyamatos megfigyelés anyagi vagy egyéb okokból megvalósíthatatlan. Például az ország lakossága számában, életkorában, foglalkozásában, lakóhelye tekintetében a mozgás folyamatos. Nyilvánvaló azonban, hogy évente nem lehet tartani népszámlálást. A legutóbbi népszámlálás (1990. évi) például 700 millió forintos költséggel járt s részletes eredményeinek értékelése évekig tart. A számlálás végrehajtása - túlmenıen annak költségigényességén - hatalmas munkát igényel. Számláló- (kérdezı-) biztosoknak, feldolgozóknak valóságos légióját foglalkoztatja. Ezért hazánkban - csakúgy, mint általában a világ valamennyi fejlettebb országában - tízévenként hajtanak végre népszámlálást. A folyamatos és idıszakos megfigyelések adatai jól kiegészíthetik egymást. Ez teszi lehetıvé például, hogy két népszámlálás között bármely idıpontban megállapíthassák az ország lakosságának számát a következı összefüggés, illetve adatok segítségével (lásd a 2.2. ábrát). A lakosságszám meghatározása két népszámlálás közötti idıpontban A népszámlálás óta születettek száma A legutóbbi népszámláláskor megállapított lakosság
A népszámlálás óta bevándorlottak száma
+
Növekmény
A népszámlálás óta elhaltak száma
-
Csökkenés
A népszámlálás óta kivándorlottak száma
=
Jelenlegi lakosságszám
2.2. ábra Idıszakos megfigyelés útján történik általában a mezıgazdaság és az ipar, a belkereskedelem készleteinek számbavétele, a dolgozók képzettsége, iskolai végzettsége, szakmai gyakorlata stb. egy meghatározott idıpontbeli színvonalának, fıbb jellemzıinek meghatározása, a bolt- és raktárhálózat számbavétele stb.
2. A STATISZTIKAI MUNKA SZAKASZAI Általában két tulajdonság jellemzı az idıszakos megfigyelésekre:
15
- rendszerint elıre meghatározott, egyenlı idıközökben hajtják végre (pl.: minden év májusában és októberében) és - elıre meghatározott idıpontban levı állapotot tükröz vissza (pl. a május 31-i vagy az október 31-i állapotot). Rendkívül fontos annak az idıpontnak (esetleg idıszaknak) kiválasztása, amelyre vonatkozólag az idıszakos statisztikai felvételt végrehajtják. Olyan idıpontot kell nyilvánvalóan kiválasztani, amelyrıl feltételezhetı, hogy a megfigyelendı tömegre nézve viszonylag a legjellemzıbb helyzetképet adhatja. Századunk elsı felében szerzett európai általános tapasztalatok szerint például az év utolsó napján, december 31-én a legkisebb mértékő a lakosság utazása, költözködése. Ezért a népszámlálások idıpontját a legtöbb országban erre a napra rögzítették. Ma már persze ez az indok nem állja meg a helyét. Az év végi (évtized végi) népszámlálási idıpont azonban már hagyományossá vált. Szerepet játszhat az idıpont kiválasztásában egyéb objektív körülmény is. Például a kiskereskedelem készleteiben az év végén, a karácsonyi csúcsforgalmat követıen nagyarányú csökkenés következik be. A készletek mennyiségét és értékét mégis a január 1-i állapotnak megfelelıen állapítják meg általában. Ennek oka nemcsak abban keresendı, hogy az év elejei készlet meghatározása gazdálkodási okokból fontos, hanem abban is, hogy csúcsforgalmi idıszakban egyszerően nincs mód és lehetıség a készlet-megállapítást lehetıvé tevı leltározások lebonyolítására. Emellett persze az év végi készletmutató nem jellemezheti az éves készleteket, ill. azok színvonalát és összetételét. Még pontosabb idıpont-meghatározást követel az elızıkben említett népszámlálás, hiszen minden órában születnek és halnak meg emberek. Ezért az ország valamennyi településén egy és ugyanazon idıpontban, illetve annak megfelelıen kell történnie a statisztikai felvételnek. Ezt az idıpontot kritikus vagy eszmei idıpontnak nevezik, amely a népszámlálásnál január 1. 0 óra 0 perc. Ez persze természetszerőleg nem annyit jelent, hogy e percben hajtják végre a számlálást, hanem azt, hogy a számlálás (amely január elsı napjaiban megy végbe) a kritikus idıpontbeli állapotot fogja rögzíteni. Nem fogja tehát számításba venni azokat az újszülötteket, akik a kritikus idıpont után születtek, de feljegyzik azokat a már meghalt embereket, akik a kritikus idıpontban még éltek.
2.2.1.3. Alkalom szerinti (egyszeri) megfigyelés A különbözı gazdasági kérdések eldöntését megelızıleg is végrehajthatnak statisztikai felvételeket anélkül, hogy elıre meghatározott vagy belátható idın belül azokra ismét sor kerülne. Ezekben az esetekben alkalom szerinti (egyszeri) megfigyelésrıl, ill. felvételrıl beszélünk. Ilyen felvételt hajtanak végre például az ország állatállományának egyszeri meghatározására. Alkalom szerinti (egyszeri) statisztikai megfigyeléseket nagy számmal hajtanak végre a piackutató intézetek is, egy-egy termékcsoport vagy termék piaci vizsgálata során a termelés és a forgalom, illetve a kereslet struktúrájának, a lakosság és a közületek meghatározott termékkel való ellátottságának megállapítására.
16
2. A STATISZTIKAI MUNKA SZAKASZAI
2.2.2. A megfigyelés köre Aszerint, hogy a vizsgált jelenség, illetve statisztikai sokaság milyen körére terjed ki a megfigyelés, az adatfelvétel, beszélünk teljes körő és részleges, ez utóbbin belül pedig reprezentatív és monografikus megfigyelésrıl.
2.2.2.1. A teljes körő megfigyelés Mint ahogy elnevezésébıl is következik, a teljes körő megfigyelés a vizsgálandó sokaság minden egységére kiterjed. A népszámláláskor például az ország valamennyi lakosát figyelembe veszik, ezért a népszámlálás teljes körő felvételt igényel. De hasonló a helyzet például a lakóházak, lakások összeírásánál, a születések, halálozások számának megállapításánál, stb.
2.2.2.2. A részleges megfigyelés A részleges megfigyelés két fontos fajtája (2.1. ábra): a reprezentatív megfigyelés és a monográfia. A) REPREZENTATÍV MEGFIGYELÉS Gyakran elıfordul, hogy egy-egy jelenség megismerésére nincs mód teljes körő megfigyelést végrehajtani, egyrészt technikai, anyagi okokból, vagy éppenséggel azért, mert a teljes körő megfigyelés "megsemmisítı hatást" gyakorolna. Ez utóbbira jellemzı példa a statisztikai minıségi vizsgálat. Az áruátvétellel megbízott szerveknek ellenırizniük kell az áruk minıségi színvonalát s ez gyakran a vizsgált cikk használati értékének megsemmisülésével jár (pl. fonalak szakításszilárdságának, a konzervek minıségének ellenırzése). Nyilvánvaló, hogy ilyen esetekben teljes körő statisztikai felvétel nem lehetséges. Ehelyett ún. mintavételes ellenırzést szerveznek s ennek keretében csupán minden ezredik, vagy ötezredik készítményt vetik alá ún. szúrópróbának. A mintavétel eredményeibıl pedig megfelelı következtetéseket vonnak le a teljes, legyártott mennyiség minıségi színvonalára vonatkozóan. Az ilyen megfigyeléseket, amikor a statisztikai sokaság egésze helyett annak csupán egy kiválasztott részét (részsokaságát) figyeljük meg azzal a céllal, hogy az arról alkotott képet a statisztikai sokaság egészére vonatkoztatjuk, képviseleti vagy reprezentatív megfigyeléseknek (adatfelvételeknek) nevezzük. A reprezentatív eljárás a valószínőségszámítás elvein épül fel s ennek megfelelıen végrehajtásának szigorú szabályai vannak. Ennek maradéktalan betartása esetén meghatározott hibahatárokon belül megközelítıen pontos kép nyerhetı a teljes sokaság, vagyis a vizsgált jelenség állapotáról. Az elızıekben említett példa termelésre, mégpedig egy-egy termék termelésére vonatkozott. A reprezentatív megfigyelést azonban más területeken, így számos társadalmigazdasági jelenség számbavételére, bonyolult összefüggéseinek felderítésére is felhasználják. így fontos szerepe van a marketingkutatásban, a lakosság fogyasztásának vizsgálatában, az árukészletek megállapításában stb.
2. A STATISZTIKAI MUNKA SZAKASZAI 17 A MINTASOKASÁG KIVÁLASZTÁSÁNAK MÓDSZEREI A reprezentatív megfigyelés során a mintasokaságot úgy kell kiválasztanunk, hogy az helyesen tükrözze vissza a fısokaságot, vagyis arányaiban megfeleljen annak. A mintakiválasztáskor - hogy a véletlen tömegjelenségek törvénye érvényesülhessen - a fısokaság minden egyedének egyforma lehetıséget kell adni arra, hogy bekerüljenek a mintasokaságba. Ennek biztosítására különbözı módszerek állnak rendelkezésre. Ezeknek közös alapelve, hogy a minta egyedeinek kiválasztását a véletlenre kell bízni, ezért ezeket véletlenen alapuló mintavételi eljárásoknak nevezzük. Léteznek ezen kívül olyan eljárások is, amelyek valamiféle egyéb módszert alkalmaznak a mintaelemek kiválasztására. Ezeket nem véletlenen alapuló kiválasztási eljárásoknak nevezzük. 1. Véletlenen alapuló kiválasztási eljárások A statisztikai gyakorlatban a következı, véletlenen alapuló kiválasztási módszerek ismeretesek: egyszerő véletlen, rétegzett, csoportos és többlépcsıs kiválasztás. Az egyes módszereknél egyaránt alkalmazható ismétléses és ismétlés nélküli kiválasztás. Ismétléses kiválasztás esetében a már egyszer kiválasztott egyed továbbra is egyenlı eséllyel vesz részt a további kiválasztásában, míg az ismétlés nélkülinél erre csupán egy alkalommal kerülhet sor. A gyakorlatban általában az utóbbi megoldás fordul elı. Az egyszerő véletlen kiválasztás Ennél a legegyszerőbbnek tekinthetı kiválasztási módszernél, a megfigyelés jellegét tekintve, többféle eljárás alkalmazható. Így például a kiválasztás történhet sorsolással, véletlen számtáblázat segítségével, térkép alapján vagy egyéb módokon. Az egyszerő véletlen kiválasztás mindig visszatevés nélkül történik. A rétegzett kiválasztás Az esetben, ha a fısokaság egységére vonatkozóan több jellemzı ismeretes, úgy a fısokaság egyedeit ennek alapján csoportosítják oly módon, hogy egy-egy csoportba azonos jellemzıkkel rendelkezı egyedek kerüljenek. A csoportosítás elvégezhetı például a lakosságra vonatkozó megfigyeléseknél a foglalkozási, jövedelmi, lakóhelyi stb. ismérvek alapján. Ezt követıen a véletlenen alapuló kiválasztás kétféle módon történhet: - arányos és - nem arányos rétegezéssel. a) Arányos kiválasztást hajtunk végre akkor, ha az egyes csoportokból olyan arányban választjuk ki - természetesen véletlen kijelöléssel - a mintasokaság tagjait, mint amilyen arányban e jellemzıkkel rendelkezı egyedek a fısokaságon belül találhatók.
18
2. A STATISZTIKAI MUNKA SZAKASZAI b) Nem arányos kiválasztást alkalmazunk, ha a fısokaság megoszlási arányaira különbözı meggondolásokból nem vagyunk tekintettel. Ebben az esetben a kiválasztás minden csoportból azonos, vagy valamilyen más szempontból meghatározott arányban történhet. Csoportos és többlépcsıs kiválasztás Ezt az eljárást általában akkor használják, ha a fısokaság nagyszámú egyedbıl áll. Ez esetben lépcsızetes kiválasztást alkalmaznak. Például, ha a gyümölcs- és zöldségárak alakulását kívánják megfigyelni, elsı lépcsıben azokat a megyéket választják ki, amelyekben a megfigyeléseket végre kívánják hajtani, második lépcsıben a kiválasztott megyéken belül a településeket, míg a harmadik lépcsıben az egyes településeken belül a megfigyelendı piacokat. Abban az esetben, ha az elsı lépcsıben kiválasztott egységeken belül teljes körő megfigyelést hajtanak végre (mondjuk ha a fenti példa esetén a kiválasztott megyék minden településének minden piacát megfigyelik), akkor csoportos kiválasztásról beszélünk. 2. Nem véletlenen alapuló kiválasztási eljárások Az elızıekben bemutatott véletlenen alapuló mintavételi eljárások biztosítják azt, hogy valóban a sokaságra jellemzı elemek kerüljenek a mintába, éppen ezért az ilyen minták alapján bátran vonhatók le következtetések az alapsokaságra nézve. Ugyanakkor ezeknek az eljárásoknak a gyakorlati lebonyolítása általában hosszadalmas és költséges, ezért gyakran alkalmazzák helyettük a különféle nem véletlenen alapuló módszereket, melyek egyszerőbbek és olcsóbbak. Hátrányuk, hogy ezek alapján az általánosítás, az alapsokaságra való következtetés lehetısége korlátozott. Megfelelı körültekintéssel azonban lehet velük közelíteni a véletlen mintákat, s a gyakorlatban - fıként a piackutatás területén - igen elterjedt az alkalmazásuk. A következı fıbb módszerek tartoznak ebbe a körbe: Szisztematikus kiválasztás Ez az eljárás átmenetet képez a véletlen és a nem véletlen módszerek között. Végrehajtása úgy történik, hogy a sokaságból egymástól egyenlı távolságra lévı egyedeket választunk ki a minta nagyságának megfelelıen. A szisztematikus kiválasztás leggyakrabban ún. lajstrom alapján készül. Ez a sokaság elemeinek jegyzékszerő felsorolása, amelybıl minden k-adik elem kerül kiválasztásra, ahol a k meghatározása attól függ, hogy mekkora a sokaság és a minta elemszáma. A szisztematikus kiválasztás véletlennek tekinthetı akkor, ha az elemek eredeti sorrendje a lajstromban véletlen volt. Kvóta szerinti kiválasztás Lényege, hogy a megfigyelést végzı személyek elıre megkapják azt, hogy - a megfigyelés szempontjából fontos ismérvek szerint - milyen összetételő mintára van szükség, s a továbbiakban önállóan választják ki a megfelelı mintaelemeket. Például egy függönyvásárlási szokásokat vizsgáló kutatás során a kérdezıbiztos a következı kvótákat kapja: Kérdezzen meg 20 háziasszonyt, akiknek fele városban, fele pedig falun él, s mindkét csoportban legyen 6 fı 40 év alatti és 4 fı 40 éves vagy idısebb. A megkérdezetteknek meg kell felelniük a fenti ismérveknek, de a személyek konkrét kiválasztását a kérdezıbiztos gyakorlatilag ötletszerően végzi. Ezt a kiválasztási módot igen gyakran alkalmazzák a piackutatások során.
2. A STATISZTIKAI MUNKA SZAKASZAI 19 Koncentrált kiválasztás Ezt a módszert akkor alkalmazzák, ha a sokaság bizonyos elemei sokkal jellemzıbbek a sokaságra, mint más elemek, s ezeket nagyobb - vagy éppen 100%-os - valószínőséggel szerepeltetik a mintában. Tipikus példa erre a fogyasztói árindex számítása az ún. reprezentáns termékek árváltozása alapján. Ezek olyan termékek, melyek a fogyasztás döntı hányadát alkotják, tehát fontos szerepük van az árszínvonal alakulásában, ezért mindenképpen bekerülnek a mintába. Önkényes kiválasztás Ennél az eljárásnál a véletlen már egyáltalán nem játszik szerepet. Lényege, hogy a kiválasztást végzı kutató saját szakmai tapasztalataira, esetleg korábbi megfigyeléseire támaszkodva önkényesen jelöli ki a mintaelemeket, melyeket a vizsgálat szempontjából jellemzınek tart. Hólabda kiválasztás Ezt az eljárást olyan esetekben alkalmazzák, amikor a megfigyelendı sokaság elemei nehezen elérhetıek. Ilyenkor kiválasztanak egy megfelelı mintaelemet (személyt), majd a tıle szerzett információk segítségével jutnak el a következıhöz, stb. Jellemzı példa lehet erre egy olyan szociológiai kutatás, amikor deviáns viselkedéső (pl. kábítószer-fogyasztó) személyekrıl szeretnének információkat győjteni. B) MONOGRÁFIA A monográfia egy (vagy néhány) jellemzı, tipikus, vagy éppenséggel különleges egyed tüzetes statisztikai vizsgálatát, leírását jelenti. Ezt a megfigyelést számos tudomány alkalmazza: így például a történeti kutatások (városok, megyék monográfiája), a földrajztudomány (egy meghatározott terület monográfiája). Önálló szerephez jut a statisztikában is. Ahhoz például, hogy képet adjunk a statisztikai adatok tükrében a nagyvárosi lakótelepeken élı családok életkörülményeirıl, elégséges lehet, ha csak néhány kolóniát választunk ki s az ott élık jellemzıit vizsgáljuk meg tüzetesen. A közepesen dolgozó vállalat leírásából általános következtetésekre juthatunk. Az élenjáró, eredményeiben kimagasló vállalatok tevékenységének tanulmányozása, az eredményes munkamódszerek feltárása hasznos tapasztalati anyagot nyújthat a többi vállalat számára, míg a lemaradó vállalat tevékenységének tüzetes megvizsgálása segítséget nyújthat a hiányosságok felszámolásához. Nagy szerepe van a monográfiának az üzlethálózat teljesítıképességének, egy-egy eladási módszer eredményességének vizsgálatában és a piackutatásban is.
2.2.3. Az adatgyőjtés módja A statisztikai adatgyőjtés kétféle módon történhet: önszámlálással, vagy kikérdezéses eljárással. - Önszámlálás alkalmazásakor az írásban feltett (a kérdıívben szereplı) kérdésekre maguk a megszámlálandó egyedek saját kezőleg válaszolnak. Pl.: a vállalatok adatszolgáltatásánál a feltett kérdésekre a vállalat statisztikusa írásban adja meg a választ. - A dolgok természeténél fogva olyan esetekben, amikor a vizsgálat bonyolultsága, a feltett kérdések speciális volta kétessé teszi az önszámlálás helyességét, a kikérdezési eljárást alkalmazzák. Ilyenkor a megkérdezendıket erre a célra beiktatott
20
2. A STATISZTIKAI MUNKA SZAKASZAI számláló (kérdezı-) biztos keresi fel. A számlálóbiztos teszi fel az egyes kérdéseket és írja meg a megfelelı válaszokat is. Az általuk történt adatfelvétel is hitelesíthetı a megkérdezettek aláírásával. Az önszámlálást fıként a vállalati statisztikai adatszolgáltatásban, a kikérdezéses eljárást a piackutató vizsgálatok, illetve szakmai közvélemény-kutatások során végrehajtásra kerülı reprezentatív lakossági, kereskedıi és vállalati (intézményi) megkérdezéseknél szokták alkalmazni.
2.3. A statisztikai kérdıívek Akár önszámlálással, akár kikérdezés útján megy végbe a statisztikai adatgyőjtés, minden esetben írásbeli feljegyzést, kérdıívet kell alkalmazni. A kérdıíveknek két fajtája ismeretes: az egyéni lap és a lajstrom (összeíróív) Az egyéni lapokon minden esetben csak egy megfigyelési egységre vonatkozó adatok szerepelnek, míg a lajstromok több megfigyelési egységre vonatkoznak. A lajstromra általában egy beszámolási egységhez (háztartáshoz) tartozó megfigyelési egységek kerülnek, s minden egyes sor egy-egy megfigyelési egységre vonatkozik.
2.3.1. A bizonylati elv érvényesítése A statisztika pontossága megköveteli, hogy az adatok forrásai megbízhatók legyenek, s bármikor nyomon lehessen követni egy-egy, a kérdıívekben szereplı adat születését. Ehhez viszont az szükséges, hogy az adatok mögött - a lehetıségekhez képest - megfelelı bizonylat álljon. A bizonylatok jelentısége elsısorban a vállalati statisztikában merül fel, mert a lakosság által (önszámlálás vagy kikérdezés útján) kitöltött kérdıívek maguk képezik a bizonylatot s a közölt adatok valóságáért az adatközlık vállalnak felelısséget, illetve bizonyítás nélkül el kell fogadni azokat. A vállalati statisztikák egy része ún. szekunder statisztika, tehát a statisztikai kérdıívekben szereplı rovatok kitöltését, illetve az ehhez szükséges adatokat elsıdleges nyilvántartásokból, könyvviteli számlákból és a bizonylatokból biztosítják. Mivel a vállalati adatszolgáltatás javarésze folyamatos jellegő, ugyanakkor az adatszolgáltatás általában havonként vagy negyedévenként történik, a primer statisztikánál is meg kell szervezni a napi statisztikai alapbizonylatokat, jelentéseket, amelyeknek összesítésébıl kapható meg a havi vagy negyedévi események láncolata (értékesítés, beszerzés, stb.).
2.3.2. A kérdıívek feldolgozása Mielıtt sor kerülne a beérkezett kérdıívek feldolgozására, a következıkrıl kell meggyızıdni: - beérkezett-e valamennyi kiküldött kérdıív; - az egyes kérdıíveken minden kérdést megválaszoltak-e és - helyesek-e az egyes kérdıíveken az adott válaszok? A statisztikai munkafolyamatnak az ellenırzés fontos szakasza. Ennek elmulasztása a feldolgozásban, majd az elemzésben számos hiba forrása lehet. A kérdıívek elsıdleges revízióját elsısorban a helyszínen, illetve az adatszolgáltató vállalat (intézmény) központjában kell végrehajtani. A másodszori ellenırzését a kérdı-
2. A STATISZTIKAI MUNKA SZAKASZAI 21 íveknek - országos összeírás esetén - már közvetlenül az adatfeldolgozó szerv (pl. Központi Statisztikai Hivatal) végzi. Elsısorban az adatszolgáltatás teljességét kell ellenırizni. Ennek keretében egyrészt meg kell gyızıdni arról, hogy valamennyi kérdıív beérkezett-e. Sem a teljes körő, sem a reprezentatív megfigyeléseknél nem lehet az adatfeldolgozást addig megkezdeni, amíg valamennyi, a vizsgálatban szereplı beszámolási egység kérdıíve nem áll rendelkezésünkre. (Nyilvánvaló pl., ha egy meghatározott idıszak alatt elért vállalati forgalomról kívánunk helyzetképet adni, a feldolgozásból egyetlen bolt adatát sem hagyhatjuk ki.) Kiterjed a teljesség ellenırzése annak megállapítására is, hogy az adatszolgáltatók a beérkezett kérdıívek valamennyi kérdésére válaszoltak-e. A hiányos adatokat tartalmazó kérdıívek feldolgozása ugyancsak nem adhat reális képet, sıt egyenesen megtévesztı lehet. Van az ellenırzésnek egy másik, nem kevésbé fontos célkitőzése is: felülvizsgálni a kérdésekre adott válaszok helyességét. Az ezzel kapcsolatos kontroll, jellegét tekintve kétféle lehet: számszerő és logikai. - A számszerő ellenırzést a kérdıívek tartalma határozza meg: a kérdıívek igen gyakran összegeket, ezeknek rész- és teljes összesítését tartalmazzák. Az összegezés felülbírálása fontos szempont. Megkönnyíti az ellenırzést, ha a kérdıív utolsó sora és utolsó oszlopa egyaránt összesítı rovat. Ez esetben a kérdıív jobb alsó sarokban levı rovata vízszintes és függıleges irányban is azonos összeget kell kimutasson. Végül számszerő kontrollt alkalmazhatunk olyan kérdıíveknél, ahol az abszolút számok egymáshoz való arányát százalékosan is kimutathatják. - Logikai ellenırzésre ugyancsak többféle eshetıség nyílik. Elızıleg utaltunk arra, hogy a kérdıívek ellenırzı kérdéseket is tartalmaznak. Az alap- és az ellenırzı kérdés egybevetése lehetıséget ad a kontrollra. Pl. az adatszolgáltató nevére, nemére, születési helyére és idejére valamint családi állapotára vonatkozó kérdések ellenırzik egymást. Nyilván lehetséges elírás. Az ilyenfajta ellenırzésnek épp ezek kiigazítása a feladata. Logikailag felülvizsgálható az adatszolgáltatás abból a szempontból is, hogy nem tartalmaznak-e a válaszok ellentmondást. Pl. a kereskedelemre vonatkozó kérdıívben a zárókészlet fogyasztói áron nem lehet kisebb, de még azonos sem a beszerzési áron számított zárókészlettel. Gyakran találkozhatunk olyan kérdıívekkel, amelyek egyaránt tartalmazzák egy korábbi idıszak (bázisidıszak) és a beszámolási idıszak adatait. A kettı egybevetése is módot ad a logikai ellenırzésre. A logikai ellenırzés külön felülbírálja a gyanúsan "kiugró" vagy éppenséggel "lemaradó" adatokat. A nagyszámú kérdıívet magába foglaló statisztikai adatfelvétel eredményeinek feldolgozása modern elektronikus gépekkel történik. (Ennek menetével, módszereivel a gyakorlati példatár foglalkozik). Gyakran elıfordul azonban, hogy a viszonylag kevés számú beszámolási egységre kiterjedı és értékelésében kevésbé bonyolult kombinációkat nem, vagy csak kis mértékben igénylı adatfelvételt és feldolgozást kell végrehajtani. Ilyen esetekben általában nem érdemes a költséges és speciális elıkészítést igénylı gépeket igénybe venni, hanem ún. kézi feldolgozást alkalmazunk, azaz a statisztikai feldolgozásnak a gépek megjelenése elıtti módját. A kérdıívek kézi feldolgozásának kétféle módja ismeretes:
22
2. A STATISZTIKAI MUNKA SZAKASZAI - a kérdıívek szétvetése (osztályozása) útján történı és a - táblázatos feldolgozás. Mind a szétvetéses, mind a táblázatos módszer alkalmazása esetén a cél a már rendelkezésre álló, a kérdıívek készítése elıtt, összeállított feldolgozási, s az ezek alapján készített értékelı táblák egyes rovatainak kitöltése. a) A legegyszerőbb a szétvetéses módszer. Aszerint, hogy egy-egy kérdés milyen csoportosításban (fı-, alcsoportokba bontva) kerül feldolgozásra, szétosztjuk a kérdıíveket elıször nagyobb csoportokba, majd minden egyes ily módon képzett csoportot további alcsoportokra bontunk és így tovább. Miután eljutottunk a kívánt osztályozási mélységig, az egyes csoportokba (alcsoportokba) tartozó kérdıíveket megszámoljuk és az eredményeket felvezetjük a feldolgozási táblákra. Ezt követıen a kérdıíveket ismét összegyőjtjük, s hasonló módszerrel következik a második, majd a többi kérdés feldolgozása. b) Sok esetben célravezetıbb az ún. táblázatos adatfeldolgozás alkalmazása. Ennek lényege abból áll, hogy olyan munkatáblát készítünk, amelyben kérdésenként ott szerepel minden, a kérdıív alapján lehetséges válasz rovata. Ezt követıen csoportosítjuk a kérdıíveket olyan mélységben, ahogy azt a feldolgozási irányelvek kívánják, majd külön-külön minden egyes csoporton belül, kérdıívenként végigmegyünk valamennyi kérdésen, s a megfelelı rovatba függıleges vonalkát húzunk. A vonalkákat ötösével csoportosítjuk oly módon, hogy négyet egymás mellé helyezünk, az ötödikkel pedig áthúzzuk az elıbbi négyet. Ha egy csoportba tartozó kérdıívekkel végeztünk, a számszerő eredményt megállapítjuk s azt a munkatábla megfelelı rovatába feljegyezzük. A táblázatos feldolgozás egyúttal megadja magát a feldolgozási tábla szerkezetét is, s alkalmas a bejegyzések pontosságának keresztellenırzésére (a vízszintes és függıleges sorok, ill. oszlopok alapján). Napjainkban már természetesen a kérdıívek számítógépes feldolgozása az általános, de a statisztikai adatok számítógépes elemzésének tárgyalása meghaladja e könyv kereteit.
23
3. A STATISZTIKAI SOROK ÉS FAJTÁIK A statisztika a vizsgált jelenségek térbeli jellemzıit és idıbeli változásait adatokban fejezi ki. Az adatoknak valamilyen rendszer, szempont szerinti felsorolását statisztikai sornak nevezzük. A sorok a statisztika legáltalánosabb kifejezıi. Arra, hogy egy-egy statisztikai sor milyen terjedelmő legyen, vagyis hány adatot tartalmazzon, elıírás nincs. Ahhoz, hogy sorról beszéljünk, természetesen legalább két adat szükséges. A statisztikai sorok tartalmuk és szerkesztésük szempontjából csoportokba sorolhatók. Ha a sor több különbözı, de valamilyen szempontból összetartozó sokaság adatait tartalmazza, akkor leíró sorról van szó. Ha a sor minden adata ugyanarra a sokaságra vonatkozik, akkor a sor képzésének célja kétféle lehet. Az egyik az, hogy valamilyen ismérv ismérvváltozatai alapján csoportosítsuk a sokaság elemeit, melynek eredményeként csoportosító sort kapunk. A csoportosító sor adatai mindig összeadhatók. A másik cél az lehet, hogy az egyes ismérvváltozatokhoz tartozó értékeket egymással összehasonlítsuk. Ekkor összehasonlító sorhoz jutunk, melynek adatait nem adjuk össze. Mind a csoportosító mind pedig az összehasonlító sorok - a sor képzéséhez felhasznált ismérv fajtája alapján - lehetnek idı- , területi, minıségi vagy mennyiségi sorok.
3.1. A leíró sor Ha egy meghatározott társadalmi-gazdasági egység jellemzı adatait egymás után felsoroljuk, leíró sort kapunk. Ez esetben a sor egyes adatai különbözı jelenségekre vonatkoznak és általában különbözı mértékegységben is szerepelnek. Az adatok közös vonása csupán annyi, hogy egy meghatározott egységet jellemeznek. A leíró sor és a statisztikai sor további négy fajtája között alapvetı különbségek jelentkeznek. Amíg a leíró sor egy meghatározott egység különbözı jellemzıit, ismérveit tartalmazza, addig a többi statisztikai sor mindenkor egyfajta ismérv alapján - egy-egy jelenség térbeli, idıbeli megoszlását mutatja. A leíró sor egyes adatai különbözı, a többi sor adatai mindig ugyanazon mértékegységben szerepelnek. Ezen túlmenıen, amíg a leíró sort csupán egyszerő felsorolásnak tekintjük, addig a területi, minıségi és mennyiségi sorok - s bizonyos mértékben az idısorok is - általában a statisztikai sokaság osztályozásának eredménye alapján képezhetık. Példaként a leíró sorra az országos szállítás néhány jellemzıjét mutatjuk be.
24
3. A STATISZTIKAI SOROK ÉS FAJTÁIK Az országos vasúti szállítás fıbb jellemzı adatai, 1995-ben Megnevezés A szállított utasok száma (ezer fı) Utaskilométer (millió) Menetdíjbevétel ( millió Ft) A személykocsik száma (ezer db) A vasútvonalak vágányhossza (km)
Jellemzı adat 155.723 8.441 12.772 3.545 13.181
Forrás: Magyar Statisztikai évkönyv , 1995. 425-6. old.
Mint látható, a soroknak jóformán minden tagja egymástól elérı mértékegységben szerepel s különbözı részjelenségekre is vonatkozik.
3.2. A területi sor A társadalmi-gazdasági jelenségek megértéséhez és elemzéséhez elengedhetetlen a földrajzi-területi osztályozás. A területi sor egy-egy jelenség térbeli, területi eloszlását jellemzi. Kifejezhet állapotot vagy egy idıegység (pl. év, hónap) alatt végbement folyamat (pl. termelés, áruforgalom) eredményét. A területi sor adatai általában összeadhatók, de léteznek összehasonlítási céllal készült területi sorok is, melyeknél az összegzés értelmetlen vagy nincs rá szükség. A területi sorok egyes adatai általában földrajzi, közigazgatási egységekre vonatkoznak. Gyakran találkozunk azonban olyan területi sorral is, amelynek egyes adatai vállalati telephelyek, vagy beszerzési, irányítási, esetleg ellenırzési körzetek szerint kerülnek megállapításra. Példaként egy megyei adatokat tartalmazó csoportosító területi sort mutatunk be. A települések száma a Dunántúl megyéiben 1995. január 1-jén Megye Baranya Fejér Gyır-Moson-Sopron Komárom-Esztergom Somogy Tolna Vas Veszprém Zala Dunántúl együtt
A települések száma 302 106 173 73 243 108 216 223 257 1701
Forrás: Magyar Statisztikai évkönyv 1995. 58. old.
A megyei osztályozáshoz hasonló területi sorok képezhetık városonként, akár községenként is. A nemzetközi statisztikában viszont területi sorok képezhetık az egyes országok, illetve világrészek, továbbá az egyes országok politikai-gazdasági csoportjai
3. A STATISZTIKAI SOROK ÉS FAJTÁIK 25 szerint is. (Például: OECD-országok, Európai Unió országai, stb.) A példaként bemutatott területi sorban szereplı adatok egy meghatározott idıpontra vonatkoznak. Hasonlóan szerkeszthetı területi sor idıszakra vonatkozó adatokból is (pl. a kiskereskedelemi forgalom nagysága 1995-ben megyék szerinti bontásban).
3.3. Az idısor A társadalmi-gazdasági jelenségek egyik jellemzı tulajdonsága az örökös mozgás, változás, így a statisztikának is figyelembe kell vennie, hogy az általa vizsgált jelenségek bármirıl is legyen szó - nem állandó jellegőek, folyamatosan módosulnak. Az idısor révén a vizsgált jelenség dinamikája, idıbeli változása mutatható be. Az idısor kétféle lehet: - állapotidısor és - tartamidısor. Az állapotidısort olyan jelenségek jellemzésére használják, amelyekrıl meghatározott idıpontokban készült adatfelvételek reális képet nyújthatnak. Ezt a fajta sort használják akkor, ha például a vállalkozások, a termelıüzemek, a boltok, a dolgozók létszámának, vagy akár a háztartások tulajdonában lévı TV-készülékek számának idıbeni változását, fejlıdését kívánják bemutatni. Az idıpontok meghatározása elsısorban attól függ, hogy milyen sőrőek a statisztikai adatfelvételek. A boltok számát például napjaink gyors változása miatt negyedévenként, a készletek nagyságát havonként vagy negyedévenként, az ország állatállományát évenként egy meghatározott napra vonatkozólag állapíthatják meg. Példaként egy MALÉV-statisztikát mutatunk be. A MALÉV használatában lévı repülıgépek száma az adott év elején Év 1970 1980 1990 1994 1995
db 11 18 26 29 32
Forrás: Magyar Statisztikai évkönyv 1995. 441. old.
A sor adatait természetesen hiába adnánk össze, nem kapnánk értelmezhetı számot. Ezért általános szabályként szögezhetjük le, hogy az állapotidısor adatai általában - egyes kivételektıl eltekintve - össze nem adhatók. Egy-egy jelenség, illetve folyamat meghatározott idıszakokra vonatkozó jellemzıit (pl. adott idıegység alatt elért eredményt) tartamidısorral fejezhetjük ki. Ezt a fajta sort használjuk fel például az ipari és a mezıgazdasági termelés, vagy a kiskereskedelmi forgalom idıegységenkénti (év, negyedév, hónap) változásának, fejlıdésének bemutatására. A tartamidısor adatai - szemben az állapotidısoréval - általában összeadhatók, mert az összeg egy nagyobb (hosszabb) idıtartam alatt végbement eredményt fejez ki.
26 3. A STATISZTIKAI SOROK ÉS FAJTÁIK Ez utóbbi lehetıség természetesen csak akkor áll fenn, ha a vizsgált idıtartamon belül valamennyi adat rendelkezésre áll. Példaként a külföldre utazó magyar állampolgárok számából képzett tartamidısort mutatjuk be. A külföldre utazó magyar állampolgárok száma 1995-ben havonként Hónap január február március április május június július augusztus szeptember október november december Összesen:
ezer fı 943 977 1043 994 1041 1128 1409 1398 1137 1210 991 813 13.083
Forrás: Magyar Statisztikai Évkönyv 1995. 412. old.
A jobb áttekinthetıség érdekében dönthet a statisztikus a sor idıegységeinek bıvítésérıl is. Példánkban ez a negyedévenkénti kimutatást jelentené. Természetesen gyakran elıfordul, hogy az idıadatok hatalmas számokat mutatnak. Például az országos havonkénti kiskereskedelmi forgalom százmilliós nagyságrendő. Ilyen esetekben nem Ft-ban, hanem millió Ft-ban fejezzük ki az adatokat. (Itt a "kerekítés" persze gondot okozhat. Erre a késıbbiekben visszatérünk.)
3.4. A mennyiségi sorok Szerkesztésében a mennyiségi sor eltér az elızıekben bemutatott sorokétól. A menynyiségi sornak két fajtája ismeretes: a gyakorisági sor és az értékösszegsor. Mind a gyakorisági, mind pedig az értékösszegsor két számoszlopból áll: az egyik az ismérvváltozatokat, a másik pedig a hozzájuk tartozó adatokat tartalmazza. Az ismérvváltozatok a vizsgált jelenség valamilyen mennyiségi tulajdonságát fejezik ki, az adatok pedig az ezekhez tartozó esetek számát vagy értékösszegét mutatják. Az elıbbi esetben gyakorisági sorról, az utóbbiban értékösszegsorról beszélünk. A mennyiségi ismérv változatait általában nem egyenként szokás felsorolni (vagy azért, mert nem célszerő, hiszen nagyon sok van belılük, vagy egyáltalán nem is lehet, mert végtelen sok ismérvváltozat létezik), hanem kategóriákra bontva. Ezeket a kategóriákat osztályközöknek nevezzük. A mennyiségi sorok adatai - igen kevés kivételtıl eltekintve - összeadhatók.
3. A STATISZTIKAI SOROK ÉS FAJTÁIK Példa a gyakorisági sorra:
27
Egy termelı vállalat munkavállalói létszáma 1997. június hónapban fizetési kategóriák szerint Fizetési kategória (ezer Ft) - 30 30 - 50 50 - 100 100 - 200 200 Összesen
fı 20 85 24 8 3 140
Ahogy a példa is mutatja, a gyakorlatban legtöbbször olyan csoportosítással találkozhatunk, ahol az osztályközök a sorok lerövidítése végett egyenlıtlenek. Ez bizonyos mértékig megkönnyíti az adatok révén megvizsgálandó jelenség elemzését, másrészt viszont problémát okoz - mint késıbb látni fogjuk - az adatok ábrázolása során. A statisztika gyakorlatában használják az ún. kumulált (görgetett) sorokat is. Ezeket úgy képezzük, hogy az egyes osztályközökhöz tartozó gyakoriságokat alulról felfelé, vagy felülrıl lefelé haladva fokozatosan összeadjuk. Az értékösszegsor - ahogy erre elızıleg utaltunk - a gyakorisági sortól abban különbözik, hogy itt az egyes kategóriákra jutó összes értékek szerepelnek. Az értékösszegsor esetében is - ahogy a gyakorisági sornál - ugyancsak képezhetık kumulált sorok. Példa az értékösszegsorra: Egy termelı vállalat munkavállalói részére kifizetett bruttó munkabér 1997. június hónapban fizetési kategóriánként Fizetési kategória (ezer Ft) - 30 30 - 50 50 - 100 100 - 200 200 Összesen
Kifizetés összesen (ezer Ft) 540 3570 1896 1360 900 8266
3.5. A minıségi sorok A minıségi sor szerkezetét tekintve hasonlít a gyakorisági, ill. értékösszegsorhoz azzal a különbséggel, hogy a sor bal oldalán levı kategóriák nem számok, hanem szöveges, ún. minıségi megnevezések. A minıségi sorok adatai általában összeadhatók.
28 Példa csoportosító minıségi sorra:
3. A STATISZTIKAI SOROK ÉS FAJTÁIK
A vendéglátás forgalma 1996 elsı négy hónapjában Az üzlettípus megnevezése Éttermi vendéglátás Cukrászdai és egyéb nyíltárusítási boltok Munkahelyi vendéglátás Összesen
Forgalom (millió Ft) 23.015 20.352 10.614 53.981
Forrás: Statisztikai Havi Közlemények 96/5. 106. old.
3.6. Az egyes sorok azonosságai és különbségei Összehasonlítva a különbözı fajta statisztikai sorokat egymással, a már említetteken kívül más vonatkozásban is tapasztalható az egyes sorok között azonosság, illetve különbség. így: - A minıségi és területi sorok képzésénél a statisztikus határozza meg az egyes csoportokat, azok közlési sorrendjét. Meggondolás, de egyben elhatározás kérdése pl., hogy valamely példában a forgalom nagyságának sorrendjében esetleg abc-sorrendben szerepeljen a felsorolás. Megváltoztatható tehát a megnevezések sorrendje, ezzel viszont megváltozik a számsor képe is. Végeredményben a sor egyes tagjai általában egymással felcserélhetık. - Eltérı a helyzet a gyakorisági, értékösszeg- és idısoroknál. Itt is a statisztikustól függ ugyan, hogy különbözı meggondolások alapján hogyan választja ki, szabja meg a kategóriák határait, illetve az idıszakot (idıpontot), azonban miután a kategóriák (csoportközök) rögzítése megtörtént, ezek sorrendje nem változtatható (nyilvánvaló, hogy havonkénti felsorolásnál be kell tartanunk a kronologikus sorrendet, s a fizetési kategóriák szerinti felsorolásnak nagyságsorrendben kell történnie). - A gyakorisági és értékösszegsorok tárgyalásánál már említettük, hogy itt a sorban egymást követı nagyságnak, mint független változónak függvényében vizsgáljuk valamilyen jelenség mennyiségi alakulását, elıfordulásának gyakoriságát. Hasonló szerkezetőek az idısorok is, ahol ugyanez a vizsgálat az idı függvényében történik. E sorok vizsgálatánál tehát igénybe vehetjük a függvénytant, s ennek megfelelı további matematikai számításokat. A területi és minıségi soroknál ugyanakkor ilyen függvénykapcsolat nincs. Az ilyen fajta sorok tulajdonképpen valamilyen jelenség minıségi vagy területi ismérvek szerinti megoszlását, elhelyezkedését adják. Ez utóbbi különbségekbıl adódik, hogy tananyagunkban a késıbbiek folyamán még visszatérünk az idı- és a gyakorisági, valamint értékösszegsorok elemzésének bonyolultabb módszereire.
29
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI 4.1. A viszonylagos nagyság A megfigyelések eredményeként begyőjtött alapinformációk adott ismérvek szerinti összesítése, illetve csoportosítása útján statisztikai adatokhoz jutunk. Az egyes jelenségek értékeléséhez, fejlıdésének megítéléséhez azonban egy statisztikai adat önmagában általában nem elegendı. Az elemzéshez legalább még egy adatra szükség van, amelyhez való viszonyítással pontosabb kép nyerhetı a vizsgált jelenségrıl. Például 1995-ben az országos külkereskedelmi behozatali forgalma milliárd forintban kifejezve 1.936,4 volt. Ahhoz, hogy ezt az adatot reálisan értékelni tudjuk, össze kell hasonlítanunk más idıszak ugyanezen adatával. Meg kell néznünk, hogy az elızı év forgalmához képest milyen változás következett be, 1994-ben az éves import forgalom 1.537,0 milliárd Ft volt, ehhez képest az 1995. év hasonló adata 399,4 milliárd Ft-tal több. Más viszonyítási alapot választva a viszonylagos nagyság természetesen más nagyságrendő lesz. Mindebbıl következik, hogy a statisztikai adatoknak nem annyira abszolút, hanem inkább viszonylagos nagysága a jelentıs. Ezért a statisztikában nagyon gyakran alkalmazott egyszerő elemzési mód a különbözı statisztikai adatok között a viszonylagos nagyság megállapítása. Ez kétféleképpen történhet: a) Két statisztikai adat különbségének képzésével Induljunk ki egy másik példából: Nem mindegy az, hogy egy bolt napi forgalma százezer forintról százhuszonötezer forintra, vagy ötszázezerrıl ötszázhuszonöt-ezerre növekedett, pedig a különbség mindkét esetben 25.000 forint volt. A különbséget kifejezı számok tehát a fejlıdés ütemét reálisan nem tükrözik vissza. b) Két statisztikai adat hányadosának kiszámításával A külkereskedelmi példánkban az 1995. évi import forgalom (1936,4/1537,0=1,26=126%) 26%-kal nagyobb, mint az 1994. évi. A hányados eredményébıl már a változás (fejlıdés) ütemérıl is képet kapunk.
4.2. A viszonyszám fogalma, fajtái A statisztikai adatok egymáshoz való viszonyát - az elıbbi két mód közül - leggyakrabban a két adat hányadosának megállapítása útján fejezzük ki. Ezt az elemzési eszközt két statisztikai adat hányadosát - viszonyszámnak nevezzük. A hányados nevezıjében levı adatot (amihez viszonyítunk) a viszonyítás alapjának, a számlálójában levı adatot (amit viszonyítunk) a viszonyítás tárgyának nevezzük. A viszonyszámok általános jelölése a következı:
V = ahol:
A B
V - a viszonyszám A - a viszonyítás tárgya B - a viszonyítás alapja Az alapösszefüggés természetesen átrendezhetı, így pl. a viszonyszám és az egyik adat ismeretében a másik kiszámítható:
30
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI
A = B ⋅V
B=
A V
Aszerint, hogy az elemzést milyen céllal végzik el, vagyis a két összehasonlított statisztikai adat milyen jellegő, a viszonyszámoknak alapvetıen két csoportját különböztetik meg: - az egysíkú, egydimenziós és - többsíkú, több dimenziós viszonyszámokat.
4.2.1. Egysíkú, egydimenziós viszonyszámok Egysíkú, egydimenziós viszonyszámokról beszélünk olyan esetben, amikor az összehasonlított adatok egynemőek, azonos mértékegységőek, s csak területileg, idıben vagy egyéb ismérvek alapján térnek el egymástól. Ezeknek a viszonyszámoknak megjelenési formái a következık: - Együtthatós forma Ezt általában akkor alkalmazzuk, ha a viszonyszámokkal további számítási mőveleteket végzünk. Például: egy szerszámgépipari Kft 1997 májusában 208 millió Ft értékő árut adott el vevıinek, szemben az 1996. májusi 175 milliós értékesítéssel. A két adat hányadosából megállapítható, hogy az 1997. évi májusi forgalom (208:175) 1,189-szerese az elızı évinek. - Százalékos forma Ennek segítségével kétféleképpen tehetı fel kérdés: 1. Hány százaléka egyik adat a másiknak? Az elızı példából számítva az eredmény 118,9 % lesz, vagyis az 1997 évi májusi forgalom az elızı évinek 118,9 %-a. 2. Hány százalékkal nagyobb vagy kisebb egyik adat a másiknál? Ugyancsak az elızı példa alapján az eredmény 18,9 % lesz, vagyis az 1993 évi májusi forgalom 18,9 %-kal volt nagyobb az elızı évinél. - Ezrelékes forma Ezt a formát akkor alkalmazzák, amikor a viszonyítás tárgya és alapja között nagyon nagy nagyságrendi eltérés van. (Általában a népmozgalmi statisztikában: pl. a születési és halálozási arányszámokat ezrelékben fejezik ki.) Az egydimenziós viszonyszámoknak három alapfajtája ismeretes: a megoszlási viszonyszám, a koordinációs viszonyszám és a dinamikus viszonyszám.
4.2.1.1. A megoszlási viszonyszám A rendelkezésünkre álló statisztikai sokaság - mint ahogy arra a csoportosítás ismertetésekor rámutattunk - különbözı szempontok, ismérvek szerint kategorizálható, felosztható. Azt, hogy a sokaság egyes részei hogyan aránylanak az egészhez, vagy másképpen fogalmazva: a sokaságot egy egységnek véve a statisztikai sor tagjai az egy-
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI 31 ség részeibıl miként tevıdnek össze, a megoszlási viszonyszám fejezi ki. Írjuk fel a megoszlási viszonyszám képletét;
Vm =
xi n
∑x
i
i =1
vagy ahogy a statisztikában a szumma jelet egyszerősítve használják:
Vm = ahol
xi ∑ xi
Vm : megoszlási viszonyszám xi : a sokaság szóban forgó része
∑x
i
: a teljes sokaság
Példa: A kiskereskedelmi forgalom 1995-ben 2.218,951 millió Ft volt. Ebbıl a ruházati kiskereskedelem - a hivatalos statisztika szerint - 176,327 millió Ft-tal részesedett. Annak megállapítása, hogy a ruházati kiskereskedelmi forgalom milyen arányt képviselt az összforgalmon belül, a következıképpen történik:
Vm =
176,327 = 0,07946 = 7,946%. 2.218,951
Vagyis a megoszlási viszonyszám tulajdonképpen nem más, mint egy egyismeretlenes elsı fokú egyenlet. Ha ismert a viszonyszám, valamint a részsokaság, úgy ebbıl kiszámítható a fısokaság: illetve a viszonyszám és a fısokaság ismerete mellett, a részsokaság abszolút összege. Az elıbbi képlet ez esetben a következıképpen alakítható át: - Ha a részsokaságot keressük:
xi = Vm ∑ xi = 0,07946 2.218,951 = 176,327 - Ha a teljes sokaságot keressük:
∑x
i
=
xi 176,327 = = 2.218,951. Vm 0,07946
Noha a viszonyszámok kiszámítása mindenkor két adatból történik, a statisztikai elemzés során túlnyomó többségben statisztikai sorokkal találkozunk. Mivel a sorok általában több tagúak, ezért több viszonyszám kiszámítására kell, hogy sor kerüljön.
32 4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI Példa a megoszlási viszonyszámsor kiszámítására Egy önkiszolgáló bolt alapterületének megoszlása Megnevezés
Összterület (m2)
Eladótér Raktár Hőtıtér Elıkészítı Személyzeti Összesen
180 73 26 22 7 308
xi ∑ xi
Összterület %-os megoszlása
180:308 73:308 26:308 22:308 7:308 -
59 24 8 7 2 100
A megoszlási viszonyszámok minden csoportosító jellegő statisztikai sor elemzésére alkalmasak. Az elıbbi példában a megoszlási viszonyszámok kiszámítása minıségi sor alapján történt. A minıségi sorokból általában mindig számíthatók megoszlási viszonyszámok. Ugyanez mondható a területi sorokra is. Az idısor, mégpedig tartam-idısor esetében ez a megállapítás azonban már nem általánosítható. Olyan idısorokból például, amelyek a forgalom évenkénti alakulását jellemzik, értelmetlen lenne megoszlási arányokat kiszámítani az egyes évekre vonatkozóan. Más a helyzet, ha például az éven belüli negyedévenkénti, vagy havonkénti forgalom alakulását bemutató tartam-idısorról van szó. Ez esetben már az elemzés megkövetelheti a megoszlás bemutatását. Sıt ez a jelenségek (pl.: az áruforgalom) szezonalitásának vizsgálatához - amellyel a késıbbiekben foglalkozunk egyenesen nélkülözhetetlen. A mennyiségi sorokból viszont minden esetben lehet megoszlási viszonyszámsort számítani, mivel ezek gyakorlatilag mindig csoportosító sorok. Fontos szerepe van a megoszlási viszonyszámoknak a jelenség dinamikai, területi és minıségi elemzésében. Segítségével ugyanis különbözı jellegő összehasonlító vizsgálatok végezhetık. Példaként erre egy érdekes közvélemény-kutatás egyik eredménymegoszlását mutatjuk be. A 6-14 éves gyermekek szüleinek álláspontja a háborús játékokkal szemben A háborús játékokat nem ellenzı nem válaszolt szülık százalékos aránya Budapesten 75 21 4 Városokban 69 23 8 Községekben 59 29 12 Alacsony jövedelmőek 59 29 12 Közepes jövedelmőek 68 25 7 Magas jövedelmőek 72 26 2 Átlagosan 65 26 9 Forrás: Országos Piackutató Intézet vizsgálata, 1991. Megnevezés
ellenzı
Összesen 100 100 100 100 100 100 100
Az eddig bemutatott példákban voltak olyan megoszlási viszonyszámok, amelyeknél csupán egész számok szerepeltek, voltak olyanok, ahol egy tizedest tüntettünk fel, de elképzelhetı akár 2-3 tizedes felhasználása is. Van-e erre valamilyen szabály? A választ erre
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI 33 a kérdésre mindenkor a pontossági igény adja meg. Nagyszámú megoszlásnál, ahol egy-egy résznek, kicsinysége ellenére is, fontos szerepe van, alkalmazható akár két tizedes is. Ugyanakkor például a közvélemény-kutatásnál - ahol az adatok pontosságával szemben támasztott követelmények kisebbek - egész számú megoszlást célszerő szerepeltetni. Ez esetben az egy-két tizedes alkalmazása megtévesztı is, mert az adatok hitelessége ilyen mélységig nem terjed ki. A statisztikai gyakorlatban egyébként általában egy tizedes pontosságú megoszlási viszonyszámokat használnak fel.
4.2.1.2. A koordinációs viszonyszám A megoszlási viszonyszám esetén a csoportosított sokaság részadatait viszonyítottuk az egészhez. A koordinációs viszonyszám meghatározása abban tér el ettıl, hogy most az egyik részadatot viszonyítjuk egy másik részadathoz. Képlettel:
Vk = ahol:
xi xj
Vk : koordinációs viszonyszám xi és x j : a csoportosító sor i-edik és j-edik adata
Például ha egy város harmincezres lakosságából 14 ezer a férfiak és 16 ezer a nık száma, akkor meghatározható, hogy mennyi az 1000 férfira jutó nık száma. Eredmény: (16 000 : 14 000) x 1000 = 1143 fı. (Az 1000-rel való szorzás természetesen nem általános szabály, itt csak azért van rá szükség, mert az egy férfira jutó nık száma (1,143 fı) meglehetısen nehezen lenne értelmezhetı.)
4.2.1.3. A dinamikus viszonyszámok Az idıbeli változás mértékét, vagyis két egynemő, de különbözı idıszakokra (idıpontokra) vonatkozó adat összehasonlítását dinamikus viszonyszámmal fejezzük ki. Azt az adatot, amit viszonyítunk beszámolási (tárgyidıszaki), amihez viszonyítunk; bázisadatnak nevezzük. A dinamikus viszonyszám kiszámítása a két adat hányadosának megállapításával történik oly módon, hogy a beszámolási idıszak adatát elosztjuk a bázisidıszak adatával. Képlettel:
Vd = ahol:
x1 x0
Vd : dinamikus viszonyszám x1 : a beszámolási idıszak adata x 0 : a bázisidıszak adata
Ugyanúgy, ahogy azt a megoszlási viszonyszám szerkesztésénél láttuk, az egyenlet alapján - annak két tagja ismeretében - harmadik ismeretlen tag mindenkor kiszámítható, - ha a bázisadatot keressük:
x0 =
x1 Vd
34
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI
- ha a beszámolási adatot keressük: x1 = x0 ⋅Vd Például: 1996. január 1-jén Tatabánya lakossága 72.510 fı volt, szemben az 1990. évi 74.277 fıvel. Az eredmények:
Vd =
72.510 = 0,9762 = 97,62% 74.277
x0 =
72.510 = 74.277 fı 0,9762
x1 = 74.277 ⋅ 0,9762 = 72.510 fı Az eredmény azt mutatja, hogy a lakosságszám 1996-ban 2,38 %-kal volt kisebb az 1990. évinél. Másképpen kifejezve: az 1996. évi lakosszám 97,6 %-a volt az 1990. évinek. A dinamikus viszonyszámok felhasználása ugyancsak sokrétő. Fontos szerepe van mind a tartam-, mind az állapot-idısorok elemzésénél. A viszonyításnak itt már többféle lehetısége van. A) A bázis- és láncviszonyszámok Induljunk ki egy tartam-idısor abszolút adataiból. A fejlıdés (idıbeli változás) érzékeltetésére az abszolút adatokat tartalmazó idısorokból dinamikus viszonyszámokat számítunk, éspedig oly módon, hogy bázisul kiválasztjuk a sor valamelyik tagját. Vagyis az idısor minden tagjára vonatkozóan azonos bázison számítjuk ki a dinamikus viszonyszámot. A bázisként kiválasztott adat lehet a sor elsı tagja, de akármelyik is. A bázis megválasztásával kapcsolatos problémákra még visszatérünk. Vizsgáljuk meg ennek lehetıségeit egy példa segítségével. Példa a kétféle bázis alapján számított dinamikus viszonyszámsorokra: A házasságkötések számának alakulása Budapesten Év 1989 1990 1991 1992 1993
Házasságkötések száma 12263 11941 10975 10118 9409
1989.év=100% 100,00 97,37 89,50 82,51 76,73
1991.év=100% 111,74 108,80 100,00 92,19 85,73
A példában szereplı dinamikus viszonyszámok az idısor egyes adatainak a sor egy meghatározott, bázisul kiszemelt idıszak (idıpont) adatához való arányát adják. Az ilyen jellegő (állandó bázisú) dinamikus viszonyszámokat másképpen bázisviszonyszámoknak nevezzük.
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI 35 Végeredményben mi a különbség a kétféle bázissor között, hiszen az adatok egymáshoz való aránya a bázismódosítással nem változik? Az elsı sor arról tesz tanúságot, hogy 1989-hez képest hogyan változott a házasságkötések száma (pl. 1989-rıl 1993-ra 23,27%kal csökkent). A második sor viszont azt érzékeli, hogy 1991-hez viszonyítva hogyan alakult a házasságkötések száma (pl. 1989-ben 11,74%-kal több házasságkötés történt, mint 1991-ben). Az idısor elemzésekor nemcsak arra van szükség, hogy képet nyerjünk a vizsgált jelenség idıbeli fejlıdésének mértékérıl, hanem arra is, hogy megállapítható legyen a fejlıdés üteme, vagyis az, hogy idıszakról idıszakra (idıpontról idıpontra) hogyan változott a szóban forgó jelenség. Ez utóbbira a láncviszonyszámok segítségével adhatunk feleletet oly módon, hogy minden idıszak (idıpont) adatát - a sor elsı tagját kivéve, ahol ez nem lehetséges - az elızı adathoz viszonyítjuk. Kiszámítására példaként vizsgáljuk meg az elızı példa alapján a házasságkötések évenkénti alakulásának ütemét. Példa a láncviszonyszámsor kiszámítására: A házasságkötések számának alakulása Budapesten Év Házasságkötések száma 1989 12263 1990 11941 1991 10975 1992 10118 1993 9409
Elızı év = 100% 97,37 91,91 92,19 92,99
Milyen következtetések vonhatók le a láncviszonyszámsorok felhasználása révén? Képet kapunk az idıbeli változás ütemérıl, azaz az évrıl évre történı változásról. Példánkban ez az ütem végig csökkenı (minden láncviszonyszám 100% alatti), s például az utolsó érték azt jelenti, hogy 1992-rıl 1993-ra 7,01%-kal csökkent a házasságkötések száma. B) Összefüggés a bázis- és a láncviszonyszámok között Számszerő összefüggés áll fenn a bázis- és láncviszonyszámok között. Egyik a másikból az abszolút számok kikapcsolásával kiszámítható. A bázisviszonyszámok hányadosai megadják a láncviszonyszámokat, míg a láncviszonyszámok szorzatai a bázisviszonyszámokat. Ez az összefüggés könnyen megérthetı, ha egymás mellé állítjuk a bázis és láncviszonyszámokat, megjelölve a kiszámítási módjukat is, az elızı példa adatai alapján. Példa a bázis- és láncviszonyszám összefüggésére:
36
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI A házasságkötések számának alakulása Budapesten Év 1989 1990 1991 1992 1993
Házasságkötések száma 12263 11941 10975 10118 9409
1989.év = 100%
Elızı év = 100%
12263 : 12263 = 1,0000 11941 : 12263 = 0,9737 10941 : 12263 = 0,8950 10118 : 12263 = 0,8251 9409 : 12263 = 0,7673
11941 : 12263 = 0,9737 10975 : 11941 = 0,9191 10118 : 10975 = 0,9219 9409 : 10118 = 0,9299
Jelöljük az eredeti sor egyes tagjait x-szel 1-5-ig megjelölve idıbeli sorrendjüket. Ekkor a bázisviszonyszámok felírhatók a következı módon:
1;
x 2 x 3 x 4 x5 ; ; ; x1 x1 x1 x1
Az 1989-tıl 1993-ig szereplı láncviszonyszámok a következıképpen írhatók fel: -;
x 2 x 3 x 4 x5 ; ; ; x1 x 2 x 3 x 4
Ha a láncviszonyszámokat megszorozzuk egymással, majd egyszerősítünk:
x 2 x 3 x 4 x 5 x5 ⋅ ⋅ ⋅ = x1 x 2 x 3 x 4 x1 megkapjuk a bázisviszonyszámokat. Ellenırizzük ezt az összefüggést is: Év 1989 1990 1991 1992 1993
Láncviszonyszám 0,9737 0,9191 0,9219 0,9299
A láncviszonyszámok szorzata 0,9737 ⋅ 0,9191 0,9737 ⋅ 0,9191⋅ 0,9219 0,9737 ⋅ 0,9191⋅ 0,9219 ⋅ 0,9299
Bázisviszonyszám 1,0000 0,9737 0,8950 0,8251 0,7673
Az egyes viszonyszámoknak egymásból való kiszámításánál minden esetben figyelembe kell venni, hogy a szorzás vagy osztás útján nyert adatok általában nem egyeznek meg pontosan az ugyanarra vonatkozó, abszolút számokból számított viszonyszámokkal. Az ebbıl a szempontból elégtelen számú tizedes ugyanis rendszerint eltérést eredményez. A gyakorlatban ennek ellenére ezt az átszámítást alkalmazzák, mert a jelentkezı eltérés lényegében elhanyagolható. Az elızıkben bemutatott összefüggés - mint arra elıbb már utaltunk - természetesen fordítva is érvényes: a láncviszonyszámokat megkaphatjuk a bázisviszonyszámok hányadosából. Ugyancsak elıbbi példánk adatait figyelembe véve, tegyük fel, hogy ki akarjuk szá-
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI 37 molni az 1992. évi láncviszonyszámot a rendelkezésre álló bázisviszonyszámsor adatai alapján. Ez esetben úgy kell kezelnünk a bázisviszonyszámokat, mintha abszolút számok lennének. Ennek megfelelıen az 1992. évi bázisviszonyszámot el kell osztani az 1991. évivel, vagyis:
0,8251 = 0,9219 . Igazoljuk ezt az összefüggést általánosítva is: 0,8950 x 4 x 3 x4 : = , tehát a keresett láncviszonyszámot adja. x1 x1 x3 C) A bázis változtatása Gyakran elıfordul, hogy olyan bázisviszonyszámokból álló sorral rendelkezünk, amelynek viszonyítási éve (bázis) elemzésünkhöz nem megfelelı. A kérdés, hogy az abszolút számok nélkül is át tudjuk-e alakítani a sort, más bázison alapuló adatokra. A bázisváltozás igen egyszerő módon történhet: úgy kell venni a meglévı sor bázisviszonyszámait, mintha abszolút adatok lennének, s annak megfelelıen kiszámítani az új bázison alapuló viszonyszámokat. . Tételezzük fel, hogy csak az 1989. évhez viszonyított bázisviszonyszámsorral rendelkezünk. Számítsuk ki az elıbb elmondottak alapján az 1991. évi bázison alapuló viszonyszámsort. Példa a bázis megváltoztatására: Év 1989 1990 1991 1992 1993
1989.év=100% 100,00 97,37 89,50 82,51 76,73
1991.év=100% 1,0000 : 0,895 = 111,74% 0,9737 : 0,895 = 108,80% 0,8950 : 0,895 = 100,00% 0,8251 : 0,895 = 92,19% 0,7673 : 0,895 = 85,73%
D) A bázis közgazdasági meghatározása Korábban már utaltunk arra, milyen fontos a viszonyszámsorok kiszámítása elıtt meggyızıdnünk arról, hogy a mutatók a reális helyzetet tükrözzék. Ezért a bázis kiválasztása minden esetben alapos közgazdasági megfontolással kell, hogy történjen. Általánosító szabályokat erre nehezen lehetne megfogalmazni. A következı néhány megfontolást azonban mindenképpen célszerő figyelembe venni. - A kiskereskedelmi forgalom havonként nem alakul egyenletesen. Januárban, februárban és a nyári hónapokban viszonylag alacsony a forgalom, tavasszal, ısszel, de különösen december hónapban a nagyarányú ajándékozás következtében pedig kiemelkedı. Annak megítélése például, hogy a decemberi forgalom magas vagy alacsony, semmiképpen sem történhet csupán oly módon, hogy a decemberi forgalmat a novemberihez, vagy akármelyik másik hónapéhoz hasonlítjuk. Ilyen esetekben - hasonló ez a negyedévek vonatkozásában is - a viszonyítás mindenkor az elızı év ugyanazon idıszakához, tehát példánkban az elmúlt évi december havi forgalomhoz kell hogy történjék. Ugyanez a helyzet a fogyasztás, különösképpen a szezonális hatásoknak kitett termelés havonkénti vizsgálata esetén.
38
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI - A bázis helyes megválasztása fıképpen a hosszú idısorok elemzésénél jelenthet gondot. Vegyük példaként egy adott termelı vállalat termelésének alakulását 1970-1997. évek között. A termelés mennyisége e hosszú idıszak alatt nemcsak a kapacitás adta lehetıségeknek volt a függvénye, hanem a hetvenes években fıként az alapanyag ellátás ingadozásának, a nyolcvanas években az exportálási jog elnyerésével járó problémáknak, s a kilencvenes években pedig a tulajdonos változásnak, a privatizálásnak. Melyik év tekinthetı reális bázisnak? A statisztika a különbségeket kimutatja, a jelenségek közgazdasági indoklása azonban már más tudomány - jelen esetben a piackutatás - feladata.
4.2.2. Több síkú, többdimenziós viszonyszámok A több síkú, többdimenziós viszonyszám számítási alapját képezı alapadatok különnemőek, többnyire eltérı mértékegységőek, társadalmi vagy közgazdasági szempontból azonban összefüggnek egymással. A különnemő alapadatokból számított viszonyszámok azt fejezik ki, hogy az egyik adatból (jelenségbıl) mennyi jut a másik adat (jelenség) egy egységére. A többdimenziós viszonyszámok csoportjába az intenzitási viszonyszámok tartoznak.
4.2.2.1. Intenzitási viszonyszámok Az intenzitási viszonyszám két különbözı, de valamilyen szempontból összetartozó statisztikai sokaság nagyságának hányadosa. Ezt más szavakkal úgy is mondhatjuk, hogy az intenzitási viszonyszám egy leíró sor két adatának hányadosa, azonban az egymáshoz viszonyítani kívánt adatok kiválasztásánál mindig ügyelni kell arra, hogy értelmezhetı eredményt kapjunk. Képlettel:
Vi = ahol:
A B
Vi : intenzitási viszonyszám
A és B: a két vizsgált sokaság nagysága Például ha egy harmincezres városban 124 üzlet található, akkor kiszámítható, hogy mennyi az egy üzletre jutó lakosok száma. Eredmény: 30 000 : 124 = 242 fı/üzlet. A példában a viszonyszám számlálója és nevezıje különbözı jellegő és különbözı mértékegységben kifejezett adatokat tartalmaz, de mindegyik ugyanarra a városra vonatkozik, s hányadosuknak értelme van. Az intenzitási viszonyszámokat általában természetes mérték-egységben fejezik ki. Ez általában a számláló és a nevezı mértékegységébıl képzett "hányados", vagypedig egyszerően a számláló mértékegysége. Elıfordul bizonyos esetekben, hogy az intenzitási viszonyszámok százalékban vagy ezrelékben is kifejezhetık. Például: ha egy évben az élveszületések száma 187.930 fı, az ország lakosságának száma pedig átlagban 10.448 ezer fı, ebbıl kiszámítható, hogy 1000
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI 39 lakosra hány élveszületés jutott, oly módon, hogy az élveszületések számát elosztjuk az átlagos népességszám ezredrészével:
187.930 = 17,99 10.448 Ez a mutató kétféleképpen fejezhetı ki: - természetes mértékegységben (ezer lakosra közel 18 élveszületés jutott) és - ezrelékben (az élveszületés mértéke 17,99 %0-es volt). Az ezrelékben (vagy százalékban) kifejezett intenzitási viszonyszámokat arányszámoknak is nevezzük. Az elızıekben bemutattuk, hogy a megoszlási viszonyszámok egyaránt kiszámíthatók területi, minıségi, mennyiségi, gyakorisági, egyes esetekben dinamikus sorból, a dinamikus viszonyszámok kiszámítása már csak idısorból történhet. Intenzitási viszonyszámok képzésére a statisztikai sorok közül egyedül a leíró sor alkalmas, mint egyedüli olyan sorfajta, amely közgazdaságilag egymással összefüggı, de különbözı jellegő (mértékegységő) adatokat tartalmaz. Példaként vizsgáljuk meg egy kereskedelmi vállalat 1996. évi tevékenységének jellemzıit: Megnevezés 1996. évi jellemzık * Kereskedelmi árbevétel 317,3 millió Ft (F) Évi átlagos állományi létszám 30 fı (L) Kifizetett éves béralap 10,080 ezer Ft (B) Üzletek száma 12 (Ü) * A mutatók képzése bemutatásának könnyítésére betőjelzéseket is alkalmazunk. A példa adataiból a következı intenzitási viszonyszámok számíthatók ki: 1. Egy dolgozóra jutó éves eladási forgalom:
F 317. 300. 000 = = 10. 576, 7 ezer Ft. L 30 2. Egy dolgozóra jutó éves bruttó kereset:
B 10. 080. 000 = = 336 ezer Ft L 30 3. Egy boltra jutó havi forgalom:
F 317. 300. 000 = = 26. 441, 7 ezer Ft Ü 12 4. 100 Ft forgalomra jutó kifizetett béralap:
B 10. 080. 000 = ⋅ 100 = 3,18 Ft F 317. 300. 000 Az ily módon számított intenzitási viszonyszámok között többféle számszerő kapcsolat áll fenn. Ha például az egy dolgozóra jutó havi eladási forgalmat megszorozzuk a száz forint forgalomra jutó béralappal (illetve 1 forint forgalomra jutó béralappal), megkapjuk az egy dolgozóra jutó átlagos keresetet.
40
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI
4.2.2.2. Egyenes és fordított intenzitási viszonyszámok Az intenzitási viszonyszám kiszámításakor elızetes elhatározás kérdése, hogy melyik adatot viszonyítjuk a másikhoz. Ezt a vizsgált jelenségek tartalma, illetve a vizsgálat célja dönti el. Sok esetben az elemzés megkívánja mindkét viszonyítást, azaz hol az egyik, hol a másik adatnak a nevezıben, ill. számlálóban való szerepeltetését. Ilyen vonatkozásban beszélhetünk egyenes és fordított intenzitási viszonyszámokról. Egyenes intenzitási viszonyszámnak nevezzük azokat a mutatószámokat, amelyek tendenciája a vizsgált jelenség tendenciájával azonos irányú, fordított intenzitási viszonyszámok tendenciája a vizsgált jelenség tendenciájával ellentétes irányú. Ezt más szavakkal úgy is kifejezhetjük, hogy a vizsgált jelenség szempontjából az a kedvezı, ha egy egyenes viszonyszám minél nagyobb értéket, ugyanakkor a fordított viszonyszám minél kisebb értéket vesz fel. Példaként bemutatjuk a kereskedelmi tevékenység elemzésének egyik igen fontos eszközét, az áruk forgási sebességének mutatóit, melyeket egy-egy idıszak áruforgalma és átlagos készlete egybevetésébıl számítanak ki. A forgási sebesség mutatói - amelyek az intenzitási viszonyszámok családjába tartoznak - azt jelzik, hogy egy adott idıszakon belül hányszor fordult meg az árukészlet, illetve hány napig tartott egy-egy fordulat. Az áruforgási sebesség mutatószámának alkalmazása, illetve az annak nyomán létrejövı intézkedések hozzájárulhatnak az árukészletek tárolási idejének optimalizálásához. Az áruk forgási sebességét mindig meghatározott idıszakokra (évre, negyedévre, hónapra) vonatkozóan állapítjuk meg. Kiszámítható a forgási sebesség egyes árukra, árucsoportokra, vállalatokra, sıt szakmákra globálisan is. A forgási sebesség megállapításánál három tényezıt kell figyelembe venni: • a meghatározott idıszak alatt lebonyolított forgalmat, • az idıszakra vonatkozó átlagos árukészletet (az átlagkészlet fogalmával, kiszámításával a késıbbiek során foglalkozunk), • az idıszak napokban kifejezett idıtartamát. A forgási sebességet két különbözı intenzitási viszonyszámmal fejezhetjük ki: a készletek fordulatszámának meghatározásával és a készletek napokban kifejezett forgási idejével, azaz a forgási napok számával. A fordulatszám meghatározása úgy történik, hogy az áruforgalmat kifejezı mutatószámot elosztjuk az átlagos árukészlet mutatójával. Ekkor megkapjuk, hogy hányszor fordult meg (újult meg) az árukészlet az idıszak folyamán. A fordulatszám a következı képlettel számolható ki:
f = ahol:
E K
f = fordulatszám, E = eladási forgalom, K = átlagos árukészlet. A fordulatszám egyenes intenzitási viszonyszám, hiszen minél nagyobb az értéke, annál "gyorsabb" készletforgásra utal, ami a készletgazdálkodás hatékonysága szempontjából kedvezı.
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI 41 Példa: Egy üzlet negyedévi forgalma 12,4 millió Ft, a negyedéves átlagos árukészlete pedig 1,4 millió Ft volt. Ez esetben
f =
12 , 4 = 8, 9. 1, 4
Tehát az üzlet árukészlete a vizsgált negyedévben csaknem 9-szer fordult meg. A forgási napok száma azt fejezi ki, hogy az áru beszerzésétıl az értékesítésig átlagosan hány nap telt el, vagy hogy az átlagos árukészlet hány napra biztosította a zavartalan áruforgalmat. Kiszámítása a következı képlettel történhet:
Fn =
ahol:
K E In
K = átlagos készlet, E = eladási forgalom, I n = idıszak napjainak száma1
A tört átrendezésével megkapjuk a kiszámítás egyszerősített képletét:
Fn =
K ⋅ In E
A forgási napok száma fordított intenzitási viszonyszám, mert értéke minél nagyobb, annál hosszabb átlagos forgási idıre utal, ami kedvezıtlen a készletgazdálkodás hatékonysága szempontjából. Alkalmazzuk ezt a képletet elızı példánkra: Fn =
1. 400. 000 ⋅ 90 = 10, 2. 12. 400. 000
Tehát az üzletben az átlagkészlet egyszeri megfordulásához átlagosan 10,2 napra volt szükség a vizsgált negyedévben.
4.2.2.3. Nyers és tisztított intenzitási viszonyszámok Elıfordul, hogy az az adat, amit viszonyítunk, a viszonyítási alapnak nem teljes egészével, hanem csupán egy részével áll szorosabb összefüggésben. Ilyen esetekben kiszámíthatjuk az intenzitási viszonyszámot oly módon, hogy - a teljes viszonyítási alap, vagy csak - a viszonyítási alap meghatározott része kerül a nevezıbe. Elıbbi esetben nyers viszonyszámokról, utóbbi esetben tisztított viszonyszámokról beszélünk. Az elmondottak magyarázatára vegyünk két példát: a) Az elızıkben bemutattuk, miképpen kell kiszámítani a születési arányszámot. Ennél alapul a lakosság általános számát vettük, s ehhez történt a viszonyítás. Ez a mutatószám azonban csak közvetetten (nyersen) fejezi ki a születési gyakoriságot. Reálisabb képet 1
A forgási sebesség elemzésekor minden hónapot 30 naposnak szokás tekinteni.
42 4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI mutatnak errıl a termékenységi arányszámok, amelyek az élveszületések számát a szülıképes korú (15-49) nık számához viszonyítják. (Ez elıbbi formula nevezıjében tehát a termékenykorú nık száma kerül.) A termékenységi arányszám már tisztított viszonyszámnak tekinthetı. b) A nyers és tisztított viszonyszámokat felhasználhatjuk a kereskedelem tevékenységének vizsgálata során is. Ez esetben például nyers viszonyszámnak tekinthetjük az állományi létszám egy fıjére jutó forgalmat, s tisztított viszonyszámot nyerhetünk akkor, ha a forgalmat csupán, az annak lebonyolításában résztvevı bolti dolgozók létszámára vetítjük. Ha a részsokaság abszolút számban nem áll rendelkezésre, csupán a teljes sokaság százalékában, a nyers viszonyszámból a tisztítottat megkapjuk, ha a nyers viszonyszámot elosztjuk a viszonyítási alapként megjelölt részsokaság százalékos arányával. Igazoljuk ezt az elızı példával: A kereskedelmi éves árbevétel 317.3 millió Ft, az éves átlagos állományi létszám 30 fı volt, a bolti dolgozók aránya pedig az összlétszámnak a 70 %-a volt. Az egy bolti dolgozóra jutó éves forgalom ez esetben
313,7mFt 10576,7eFt / fõ :0,7 = = 15109,5 ezer Ft/fı volt. 30 fõ 0,7 Az összefüggés természetesen fordítva is fennáll: a tisztított viszonyszám és a százalékos arány szorzata megadja a nyers viszonyítás eredményét.
4.3. A viszonyszámok további viszonyításának lehetıségei A statisztikai elemzés során gyakran merül fel annak szükségessége, hogy a már kiszámított viszonyszámokból további viszonyszámokat alakítsunk ki. Ennek lehetıségét mindig az határozza meg, hogy a másodlagosan kiszámított viszonyszámnak van-e közgazdasági tartalma s megérthetı-e külön magyarázat nélkül. A másodlagos viszonyítás szempontjából is különbséget kell tennünk az intenzitási és a többi viszonyszám között. Az intenzitási viszonyszámok - mint láttuk - minden esetben kifejezhetık a viszonyított vagy a viszonyítási alapként felhasznált adat természetes mértékegységében. Két vagy több, egymással közgazdaságilag összefüggı intenzitási viszonyszám százalékos aránya legtöbbször megállapítható, sıt a statisztikai elemzés ezt gyakran egyenesen megköveteli, mert egy intenzitási viszonyszámból megfelelı következtetéseket levonni még nem lehet. Más a helyzet azonban a százalékszámban kifejezett többi viszonyszámoknál, ahol másodlagosan is százalékolást kellene végrehajtani. Ennek azonban csupán korlátozott lehetısége van. Ennek szemléltetésére vegyünk két példát: - Egy fagylaltkészítı gép kísérleti kapacitása egy meghatározott idıegységre vonatkoztatva: 19 kg. A bázisidıszakban a tényleges teljesítmény 10 kg, a tárgyidıszakban 15 kg volt. Mindkét idıszakra vonatkozóan kiszámíthatjuk a kapacitáskihasználás mértékét, amely a bázisidıszakban;
10 = 0,5263 = 52,63% 19
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI tárgyidıszakban:
43
15 = 0,7895 = 78,95% 19
Vajon lehetséges-e a két idıszak kapacitáskihasználási mutatójából dinamikus viszonyszámot számítani
78,95 = 1,5 = 150% 52,63 és ennek alapján azt meghatározni, hogy a beszámolási idıszakban a kihasználás mértéke 50 %-kal növekedett. Noha ez számszerően igaz a kapacitás kihasználása megítélése szempontjából, mégis félrevezetı, mert nem ad reális képet arról, hogy a tényleges teljesítmény mindkét idıszakban mennyire közelítette meg a kapacitás adta lehetıségeket. Ilyen esetekben tehát nem célszerő másodlagos viszonyítást végrehajtani. - Részben hasonló a helyzet a megoszlási viszonyszámok esetében is. Nehezen lenne megérthetı - sıt egyenesen félreérthetı - két, ugyanarra a jelenségre vonatkozó megoszlási viszonyszám dinamikai viszonyítása, s annak kimondása, hogy hány százalékkal nıtt vagy csökkent a részesedési arány. Elıfordulhat azonban olyan eset, amikor az elemzés szempontjából fontos eredményhez juthatunk megoszlási viszonyszámok további százalékos viszonyításából. A lakosság ellátottságának területi elemzésénél általában vizsgálják, hogy az egyes megyék hány százalékkal részesednek az országos forgalomból. Fontos szempont, hogy ez az arány több vagy kevesebb a lakosság számának részesedésénél. Ennek ismerete egyrészt az ellátás elemzése, másrészt a vállalatok piaci részesedésének, ill. forgalomnövelési lehetıségeinek vizsgálata szempontjából bírhat fontossággal. Például: ha egy megye lakossága az ország lakosságának 4 %-át teszi ki, az összes (országos) forgalomból pedig 4,5 %-kal részesedik, akkor
4, 5 ⋅ 100 = 112, 5% -os a lakosság arányához mért forgalma, azaz 12,5 4
%-kal nagyobb, mint amennyi a lakosság aránya szerint jelentkezne. - Az intenzitási viszonyszámokból igen gyakran számítanak dinamikus viszonyszámokat. Miután ez a mutatószám két jelenség összefüggését fejezi ki, az elemzés számára fontos lehet annak ismerete, hogy a vizsgált idıszak alatt milyen változás következett be például a lakosság valamilyen termékkel való ellátottságában, az ipari és kereskedelmi termelékenységben, stb. A kiszámítás menete két ütemben történik: elıször meghatározzák az egyes idıszakok intenzitási viszonyszámait, majd közöttük idıbeli összehasonlítást végeznek. Mindebbıl következik, hogy az intenzitási viszonyszámokból dinamikus viszonyszámok, kettınél több idıszak esetén pedig bázis- és láncviszonyszámsorok is számíthatók. Két idıszak intenzitási viszonyszámainak összehasonlítása esetén:
Vd (Vi ) =
Vd (Vi )
Vi1 ahol: Vi 0 : az intentizási viszonyszám idıbeli változását mutató dinamikus viszonyszám
44
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI
A1 : a beszámolási idıszak intenzitási viszonyszáma B1 A Vi0 = 0 : a bázisidıszak intenzitási viszonyszáma B0 Vi1 =
Elıfordulhat olyan eset, hogy csak az intenzitási viszonyszám számlálójában és nevezıjében szereplı adatok idıbeli változásának mértéke ismert, s nem az abszolút adatok. Ekkor is ki lehet számítani az intenzitási viszonyszám idıbeli változását a következıképpen:
Vd (Vi ) =
Vd ( A) Vd ( B)
, ahol:
Vd ( A) =
A1 : a számlálóban szereplı sokaság idıbeli változása A0
Vd ( B ) =
B1 : a nevezıben szereplı sokaság idıbeli változása B0
Példa: Egy mezıgazdasági szövetkezet az egyik évben 10 ha területen összesen 480 q rozst termelt. A következı évben 12 ha-on termesztettek rozst, s a termés 612 q volt. Számítsuk ki, hogy hogyan változott egyik évrıl a másikra a rozs termésátlaga. 1. lehetıség: Kiszámítjuk mindkét év termésátlagát, majd ezeket viszonyítjuk egymáshoz:
A0 480q = = 48q / ha az elsı év termésátlaga B0 10ha A 612q Vi1 = 1 = = 51q / ha a második év termésátlaga B1 12ha V 51q / ha Vd (Vi ) = i1 = = 1,0625 = 106,25% Vi 0 48q / ha Vi 0 =
Tehát a rozs termésátlaga a vizsgált idıszak alatt 6,25%-kal nıtt. 2. lehetıség: Kiszámítjuk külön a termés és külön a termıterület változását, majd ezeket viszonyítjuk egymáshoz:
A1 612q = = 1,275 = 127,5% a termés változása A0 480q B 12ha Vd ( B) = 1 = = 1,2 = 120% a terület változása B0 10ha Vd ( A) =
Vd (Vi ) =
Vd ( A) Vd ( B )
=
1,275 = 1,0625 = 106,25% 1,2
4. A VISZONYSZÁMOK FOGALMA ÉS FAJTÁI 45 Tehát a termés mennyisége 27,5%-kal, a termıterület pedig 20%-kal lett nagyobb, melyek hatására a termésátlag 6,25%-kal nıtt. A két eljárás természetesen azonos eredményre vezet, s alkalmazhatóságuk függ a megadott adatok jellegétıl.
46
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS A mindennapi életben és ennek megfelelıen a társadalmi-gazdasági jelenségek elemzése során gyakran elıfordul annak szükségessége, hogy egy-egy jelenséget egyetlen adattal, mutatószámmal jellemezzünk oly módon, hogy az a sokaság legfontosabb tulajdonságáról megfelelı tájékoztatást nyújtson. Ez történik például akkor, amikor egy-egy vállalat dolgozóinak fizetését, egy-egy termék eladási árát, vagy egy-egy termény holdankénti mezıgazdasági hozamát kívánjuk jellemezni. Ilyen esetekben átlagos fizetésrıl, átlagos eladási árról és átlagos terméshozamról beszélünk. A középérték kiszámítására ott van szükség, ahol a vizsgált sokaság egyes egyedeinek értéke eltér egymástól. Az olyan mutatószámokat, amelyek egy adattal kifejezve valamilyen statisztikai sokaság általánosított jellemzését adják egy meghatározott mennyiségi ismérv alapján, győjtınéven középértéknek nevezzük.
5.1. A középértékek jellemzıi és fajtái Ha egy statisztikai sokaságot egy adattal, a középértékekkel kívánjuk jellemezni, ezt a számot minden egyes esetben el kell vonatkoztatnunk a vizsgált sokaság egyes egyedeitıl, s azokat egyforma nagyságúaknak kell feltételeznünk. Tegyük fel az egyszerőség kedvéért, hogy a következı árak középértékét kell meghatároznunk: 130 Ft, 135 Ft, 140 Ft, 160 Ft, 165 Ft, 170 Ft. Az átlagos ár kiszámításához összeadjuk az egyes adatokat s a kapott végösszeget osztjuk az elıfordulások számával. Tehát:
130 + 135 + 140 + 160 + 165 + 170 = 150 Ft 6
Ha a tényleges árakat az átlagossal váltjuk fel, a vásárlás összege nem változik: 130+135+140+160+165+170 = 900 Ft. 150+150+150+150+150+150 = 900 Ft. A leíró sor kivételével valamennyi statisztikai sor jellemezhetı a középértékkel, felhasználásuk azonban elsısorban a mennyiségi (gyakorisági) és a területi sorok vonatkozásában fontos. A minıségi sorokból általában ritkábban szükséges középértékek számítása. Mint az az elmondottakból kitőnik, a középértékek elvonatkoztatott mutatószámok. Erre a tényre az elemzés során mindenkor figyelemmel kell lenni. Számításának bizonyos elıfeltételei, értelmezésének pedig bizonyos korlátai vannak. Vegyük ezeket sorra: - Az az elv, hogy egy adattal egy egész statisztikai sor jellemezhetı, mindenkor viszonylagosnak tekintendı. Egy adattal ugyanis egy társadalmi-gazdasági jelenséget, egy statisztikai sokaság valamennyi tulajdonságát kifejezni, ill. összefoglalni nem lehet. A középérték ily módon a sokaságot teljesen nem jellemezheti. - A középértékek csak egynemő adatokból számíthatók. Ez nemcsak annyit jelent, hogy az átlagolandó értékeknek azonos tartalmuk, illetve mennyiségi egységük kell, hogy legyen. Vonatkozik ez a megállapítás arra is, hogy középértékeket csak közgazdasági szempontból azonos nemő adatokból célszerő számítani.
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS 47 - A középérték nem jellemzi a sor tagjainak számát sem, vagyis nem mutatja ki, hogy hány tagból áll a sor (azonos átlaga lehet egy háromtagú és egy háromszáz tagú sornak), sem pedig azt, hogy milyen szélsı értékeket tartalmaz. Ugyanaz lehet az átlaga olyan sor adatainak, amelyek egyes értékei egymástól csak kismértékben különböznek, másrészt olyannak, amelynek adatai az átlagtól jobbra-balra nagy távolságban találhatók. Ezt szemlélteti az 5.1. (nem arányos) ábra. A középérték nem jellemzi a sor tagjainak számát
95
105
75
125
55
145
35
165
15
185 Átlag=100
5.1. ábra - Könnyen elıfordulhat, hogy középértékként olyan mutatót kapunk, amellyel egyezıt a sor tagjai között egyáltalán nem találunk. Jól jellemzi ezt a helyzetet a következı fiktív példa: Egy városban kizárólag egy- és háromemeletes házak találhatók, s tegyük fel, hogy azonos mértékben. Ha átlagot számítanánk a házak emeletnagyságából, olyan eredményhez jutnánk, ami semmiképpen nem jellemzi a város házait. Bár matematikailag a számítás nem kifogásolható. Eszerint a város házai átlagosan kétemeletesek, noha egyetlenegy ilyen sem akad. - Sok hasonlóság fedezhetı fel a középértékek és az intenzitási viszonyszámok között. Ennek oka elsısorban abban keresendı, hogy az intenzitási viszonyszám ugyanazt az eredményt adja, mint a középérték. Ha például egy vállalat dolgozóinak keresetét vizsgáljuk, kiszámítható az egy dolgozóra jutó kereset, illetve a dolgozók átlagbére. Az elsı esetben intenzitási viszonyszámot, a második esetben középértéket számítottunk, s világos, hogy mindkét mutató azonos eredményt ad. Ez a példa azonban semmi esetre sem jelenti azt, hogy minden középérték egyben intenzitási viszonyszám is és fordítva. Az egy négyzetméter eladótérre jutó forgalom mutatója például intenzitási viszonyszám, de nem középérték, mert nem minden egyes négyzetméterre jutó forgalom adatainak az átlagát számítottuk ki (ez egyébként lehetetlen is lett volna), hanem két sokaságot: az eladótér területét és a forgalmat viszonyítottuk egymáshoz. Ugyanakkor az átlagos életkor kizárólag középértéknek tekinthetı, mert a vizsgált egyedek mindegyikét külön-külön számításba kellett venni a mutató szerkesztésekor.
48
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS A középértékeknek két nagy csoportját különböztetjük meg: számított középértéket (átlagokat) és a helyzeti középértékeket. Mindkét csoporton belül többféle mutatószám kiszámítására kerülhet sor. (5.2. ábra) A középértékek fajtái
Kö zé pé rté kek
Helyzeti kö zé pé rté k
Számí tott középértékek (Átlagok)
Mó dusz
Szá mtani (aritmetikai) á tlag
Né gyzetes á tlag
Mediá n
Mé rtani (geometriai) á tlag
Kronologikus á tlag
Harmonikus á tlag
5.2. ábra
5.2. A számított középértékek 5.2.1. A számtani (aritmetikai) átlag Ezzel a középértékkel a statisztikai elemzésben jóformán mindenütt találkozhatunk. Kiszámítása úgy megy végbe, hogy az átlagolandó értékeket összeadjuk, s a kapott összeget elosztjuk az adatok számával. Képlet formájában: x = ahol:
∑x
i
n x : az átlagos érték,
x i: az egyes tagok értéke, n : az átlagolandó értékek száma.
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS Példa a számtani átlag kiszámítására:
49
Egy Kft boltjainak forgalma 1997. augusztusában Árbevétel ezer Ft-ban A 2 800,5 B 1 950,3 C 3 018,2 D 3 312,0 E 4 151,0 Összesen: 15 232,0 Boltonként átlagosan 3 046,4 A teljes forgalmat osztva a boltok számával, egy üzlet átlagos bevételét kaptuk meg. Az ily módon számított mutatót egyszerő számtani átlagnak nevezzük. Az egyszerő számtani átlag kiszámításánál - mint láttuk - az átlagolandó értékek mindegyikének ugyanolyan jelentıséget, egyforma súlyt tulajdonítottunk. Gyakran elıfordul azonban, hogy az átlagolandó értékek mögött eltérı számú elıfordulások szerepelnek. Ilyenkor az átlag kiszámításánál ezeket az eltérı gyakoriságokat is figyelembe kell venni. Vegyünk ennek bizonyítására egy egyszerősített példát: Bolt
Egy fıiskola statisztikai kollokviumán a következı eredmények (osztálytatok) születtek: Osztályzat 5 (jeles) 4 (jó) 3 (közepes) 2 (elégséges) 1 (elégtelen) Összesen
Fı 10 42 30 8 2 92
Az egyedi adatokból s gyakoriságukból az átlagos eredményt úgy kapjuk meg, hogy minden osztályzatot annyiszor veszünk számításba, amennyi elıfordulásának (gyakoriságának) a száma, s az így kapott összeget osztjuk a tanulók összlétszámával. Vagyis:
10 ⋅ 5 + 42 ⋅ 4 + 30 ⋅ 3 + 8 ⋅ 2 + 2 ⋅ 1 = 3,54 92
Az ily módon nyert számtani átlagot súlyozott (mérlegelt) számtani átlagnak nevezzük. Képletét a következıképpen határozhatjuk meg:
x=
∑fx ∑f i
i
i
ahol f i az elıfordulások (súlyok) számát jelenti.
50
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS
5.2.2. A gyakoriság szerepe az átlagszámításban Az átlagolandó értékek meghatározzák, hogy az átlag milyen értékközben, a súlyarányok pedig eldöntik, hogy ezen az értékközön belül hol helyezkedik el az átlag. Végeredményben a súlyozott átlag értékét nem a súlyszámok nagysága, hanem egymáshoz viszonyított arányai határozzák meg. Ebbıl következik az is, hogy nemcsak súlyszámok segítségével számíthatunk átlagot, hanem megoszlási viszonyszámokat is használhatunk súlyszámokként. Az eljárás természetesen ugyanaz. A statisztikai elemzés során elıfordul, hogy gyakorisági sorokból kell az átlagot megállapítani. Ilyen esetben minden egyes kategóriánál elızetesen meg kell határozni az osztályköz átlagát. Ezek lesznek az átlagolandó értékek. (5.1. táblázat) A mindennapos gyakorlatban azonban nem mindig kapja így készen a statisztikus az alapadatokat. Szinte általános jelenség, hogy a gyakorisági sor (vagy értékösszegsor) elsı és utolsó tagjánál az osztályköznek csupán az egyik határát adják meg. Ilyenkor tapasztalati számok (becslések) alapján kell eldönteni, hogy ezekben a kategóriákban milyen "belsı átlagot" vegyünk figyelembe. Példa a gyakorisági sorból számított súlyozott számtani átlag meghatározására: 75 villamosenergia-fogyasztó fogyasztásának megoszlása (fiktív adatokkal) Fogyasztás (kilowattóra) 5 - 24,9 25- 44,9 45- 64,9 65- 84,9 85-104,9 105-124,9 125-144,9 145-164,9 Összesen
Fogyasztók száma (f)
Osztályközép (x)
4 6 14 22 14 5 7 3 75
15 35 55 75 95 115 135 155 -
fx 60 210 770 1650 1330 575 945 465 6005
5.1. táblázat
x=
6005 = 80,1 kilowattóra 75
5.2.3. A harmonikus átlag A harmonikus átlag lényegének megértéséhez induljunk ki egy alternatív példából: Valamely gyümölcs piaci forgalmára két változatban a következı adatok állnak rendelkezésre:
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS A-változat:
51
Egy gyümölcs forgalma és ára N város piacain Az eladásra kínált áruk mennyisége (kg) 6000 7300 3800
Piac 1. 2. 3.
Egységár (Ft/kg) 53 52 49
B-változat: Egy gyümölcs forgalma és ára N város piacain Az eladásra kínált áruk összértéke (Ft) 31 800 37 960 18 620
Piac 1. 2. 3.
Egységár (Ft/kg) 53 52 49
A feladat az, hogy mindkét változat alapján számítsuk ki a város egészére jellemzı piaci átlagárat. Az A-változat esetében a már ismert súlyozott számtani átlagot kell alkalmazni. Vagyis:
x=
6000 ⋅ 53 + 7300 ⋅ 52 + 3800 ⋅ 49 = 51,7 Ft 6000 + 7300 + 3800
A B-változatnál - mivel az átlagolandó értékek (egységárak) s a súlyszámok (forgalom) között származékos kapcsolat van - súlyozott harmonikus átlagot kell alkalmaznunk, amelynek egyszerősített képlete a következı:
xh =
ahol
∑f f ∑x
i i i
f i : a súlyszámok összege fi : az átlagolandó értékek reciprokának a súlyszámmal való szorzata xi
Ennek alapján az átlagár kiszámítása a következıképpen történik:
xh =
318000 + 379600 + 186200 = 51,7 Ft 318000 379600 186200 + + 53 52 49
Mint látjuk, az ily módon felírt tört eredménye ugyanaz, mint a súlyozott számtani átlagé, hiszen a számlálóban található "súlyok" számtani átlag vonatkozásában megfelelnek az átlagolandó értékek és a reájuk jutó súlyszámok szorzatának, vagyis az érték-
52 5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS összegnek. A nevezıben pedig a számtani átlagnak megfelelı súlyok találhatók, hiszen ha a forgalmat elosztjuk az egységárral, eredménye az eladott mennyiség lesz. Az elızı példából levonhatjuk a következtetést: adott esetben milyen átlagfajtát kell alkalmazni, az dönti el, hogy milyen kapcsolat áll fenn az átlagolandó értékek és a rendelkezésre álló súlyszámok között. A harmonikus átlag természetesen kiszámítható nemcsak abszolút számokban kifejezett súlyszámokkal, hanem százalékos arányok alapján is. Ennek bizonyítására induljunk ki ismét elızı példánk alapadataiból azzal a különbséggel, hogy a piaci forgalom nem abszolút számokban, hanem megoszlási viszonyszámokban álljon rendelkezésünkre. Példa a megoszlási viszonyszámokkal számított harmonikus átlagra: Egy gyümölcs forgalmi megoszlása és ára N város piacán
Piac 1. 2. 3. Együtt
Az eladásra kínált áruk összértékének %-os megoszlása 35,9 42,9 21,2 100,0
Egységár (Ft/kg) 53 52 49 .
A már ismert képlet alapján írjuk fel a megoldást:
xh =
100 = 51,7 Ft 35,9 42,9 21,2 + + 53 52 49
Látható, hogy az eredmény megegyezik az abszolút számokban kifejezett súlyszámokkal kapott átlagárral. A harmonikus átlag eddig bemutatott megoldási lehetıségeibıl a következı általánosítható tapasztalatok szőrhetık le: - Nem számítható számtani átlag olyan esetekben, amikor az átlagolandó értékek és a hozzá kapcsolódó súlyszámok között származékos kapcsolat áll fenn. Ilyen esetekben a harmonikus átlagot kell alkalmazni. A-változat alapján tehát: ha az átlagolandó értékek egységárak, a súlyszámok pedig az egyes egységárak mögött álló mennyiségek - mivel származékos kapcsolat az átlagolandó érték és a súlyszámok között nincs -, számtani átlag számolható. Ha viszont az átlagolandó értékek: az egységárak, a mögöttük álló súlyszámok pedig a forgalom értékösszeg adatai (B-változat) - mivel az átlagolandó értékek és a súlyszámok között származékos kapcsolat áll fenn -, harmonikus átlag számítandó. A súlyozott számtani átlagnál a súlyszámok és az átlagolandó értékek szorzatának mindig van közgazdasági értelme (példánkban kilogramm szorozva egységárral = forgalom értékösszege), a harmonikus átlagnál ugyanekkor ennek soha sincs közgazdasági tartalma. (Vajon mit eredményezne, ha az egységárakat a forintban kifejezett forgalmi
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS 53 adatokkal szoroznánk?) Értelme van viszont a súlyok és az átlagolandó értékek hányadosának: példánkban a forgalom értékének (ha Ft-ban és nem %-ban van kifejezve) és az árnak a hányadosa az értékesített mennyiséget adja eredményül.
5.2.4. A mértani (geometriai) átlag A statisztikai elemzés során gyakran elıfordul, hogy ilyen kérdésekre kell választ adnunk:: • Hány százalékkal növekedett évente átlagosan a termelés, az áruforgalom, ezen belül egyes termékcsoportok, termékek forgalma? • Hány százalékkal nıttek évente átlagosan a fogyasztói árak, stb.? Ezekre - és ehhez hasonló kérdésekre - a dinamikus sor adataiból számított átlaggal adható válasz. Induljunk ki példaként egy forgalmi idısorból. Egy termék eladása 1992-1996. években Év 1992 1993 1994 1995 1996
Kiskereskedelmi forgalom (ezer db) 523,1 601,9 551,3 535,3 620,3
A feladat annak kiszámítása, hogy évente átlagosan hány százalékkal nıtt az értékesítés. Könnyen bizonyítható, hogy az eddig megismert átlagok erre a példára nem alkalmazhatók, 1996-ban 1992-höz képest a forgalom 523.100 darabról 620.300 db-ra növekedett. Ez 18,6 %-os növekménynek felel meg. Ha ezt elosztjuk az eltelt négy évvel, eredményként évi 4,65 %-ot kapunk. Próbáljuk ennek alapján kiszámítani a bázishoz képest az 1996-os esztendı forgalmát: 1993-ban az 1992. évi 104,65 %-a = 547.424 db 1994-ben az 1993. évi 104,65 %-a = 572.879 db 1995-ben az 1994. évi 104,65 %-a = 599.518 db 1996-ban az 1995. évi 104,65 %-a = 627.396 db E számítással azonban az utolsó évben jóval több, mint hétezer darabbal nagyobb forgalom szerepelne, mint a valóságban. Ez az átlagszámítási módszer tehát semmiképpen nem felel meg a követelményeknek. A helyes átlag, vagyis a növekedés évi átlagos ütemének megállapításához a láncviszonyszámokból kell kiindulni, hiszen ezeknek átlagát kell kiszámítanunk.
54
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS Az értékesítés évenkénti növekedési üteme 1992-1996. években Év 1992 1993 1994 1995 1996
Kiskereskedelmi forgalom (ezer db) 523,1 601,9 551,3 535,3 620,3
Láncviszonyszám (együtthatós formában) 1,15064 0,91593 0,97098 1,15879
A forgalom változása korántsem egyenletes - sıt egyes években egyenesen csökkenı -, ezért olyan átlagszámot kell keresnünk, amelyet az átlagolandó értékek helyébe téve azok szorzata változatlan marad. Ezt az átlagot nevezzük mértani (geometriai) átlagnak. Kiszámítása úgy történik, hogy az átlagolandó értékek (láncviszonyszámok) szorzatából olyan kitevıjő gyököt vonunk, mint ahány láncviszonyszámmal rendelkezünk. A mértani (geometriai) átlag képlete tehát:
x g = n x1 ⋅ x 2 ⋅...⋅x n Helyettesítsük be a képletbe példánk láncviszonyszámait:
x g = 4 115064 , ⋅ 0,91593 ⋅ 0,97098 ⋅ 115879 , = 4 118581 , = 1,0435 = 104,35% Ez annyit jelent, hogy a forgalom minden évben átlagosan 4,35%-kal emelkedett. Ellenırizzük a számítás helyességét: a sor utolsó tagjának meg kell egyeznie az elsı tag és az átlag negyedik hatványú szorzatával. Vagyis: 523.100 (1,0435)4 = 620300 db. Mint látható, a végeredmény megegyezik az 1996. évi eredeti adattal. A mértani átlag felhasználását illetıen egy fontos momentumra kell felhívnunk a figyelmet: Ha szemügyre vesszük a láncviszonyszámok szorzatai alapján felállított képletet, kiderül, hogy az nem más, mint a sor elsı és utolsó értékének hányadosa, azaz a bázisviszonyszám.
xg = 4
601,9 551,3 535,3 620,3 620,3 ⋅ ⋅ ⋅ =4 523,1 601,9 551,3 535,3 523,1
A mértani átlag képlete ennek alapján a következıképp is felírható:
x g = n −1 ahol:
xn x1
x1 és x n : a sor elsı és utolsó tagja, x g : a keresett mértani átlag.
A képletben azért szerepel (n-1)-edik gyök, mert az átlagolandó értékek (láncviszonyszámok) száma eggyel kevesebb, mint a vizsgált idıszakok száma (hiszen az elsı idıszakhoz nem tudunk láncviszonyszámot rendelni). Az elıbbi példában tehát az évenkénti értékesítés növekedésének üteme:
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS
xg = 4
55
620,0 = 1,0435 523,1
Vagyis a mértani átlag kiszámítása a sor elsı és utolsó tagja alapján történik, az átlagot a közbensı tagok nem befolyásolják.
5.2.5. A négyzetes átlag A négyzetes (quadratikus) átlag használatának olyan esetekben van létjogosultsága, amikor az átlagolandó tagok között egyaránt elıfordulnak pozitív és negatív elıjelőek, de a vizsgálat szempontjából az elıjelnek nincs jelentısége. Mivel a négyzetre emeléssel eltüntethetı az elıjelek különbözısége, ilyen esetekben (pl. a szóródás kiszámításánál) alkalmazzuk a négyzetes átlagot. A négyzetes átlag kiszámítása - ha súlyok nem állnak rendelkezésre - úgy történik, hogy az átlagolandó értékeket négyzetre emeljük, osztjuk a sor tagjainak számával, s a kijelölt eredménybıl négyzetgyököt vonunk, vagyis:
xq =
∑x
2 i
n
Ha a súlyok is rendelkezésre állnak, a képlet a következıképpen módosul:
xq =
∑f x ∑f i
2 i
i
Mivel a négyzetes átlag felhasználására a szóródás mutatószámainak kiszámításánál kerül sor, ezért gyakorlati példát is ott mutatunk be.
5.2.6. A kronologikus átlag A kronologikus átlagot az idısorok átlagolásánál használjuk fel. A tartam-idısorok esetében az átlagok kiszámítása számtani, míg az állapot-idısorok esetében kronologikus átlag segítségével történik. Ennek könnyebb megértéséhez induljunk ki a következı példából: Egy fogyasztási cikk kiskereskedelmi forgalma és árukészletei 1992-ben A kiskereskedelem Negyedév forgalma készlete a negyedév (millió Ft) 1. napján (millió Ft) I. 96 44 II. 71 40 III. 77 36 IV. 103 42 Megjegyzés: a december 31-i készlet 43 millió Ft. A tábla második oszlopa tartam-idısor. A negyedévek átlagos forgalmát ebbıl a sorból egyszerő számtani átlaggal számoljuk ki.
56
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS Vagyis:
96 + 71 + 77 + 103 = 86,75 . Tehát a negyedéves átlagos forgalom 86,75 mil4
lió forint volt. Ugyanezt a módszert a készletek átlagának kiszámításánál nem követhetjük. Egyrészt azért, mert csak negyedév eleji készletadatok állnak rendelkezésre, másrészt azért, mert ezek az adatok sem az egyes negyedéveket, hanem annak csupán, egy napját, illetve az ennek megfelelı készleteket jellemzik. Ezért az átlagolást két lépcsıben kell elvégeznünk: 1. ki kell számítani az egyes negyedéveket jellemzı átlagos készleteket a negyedév eleji és végi, azaz a következı negyedév eleji készletadatokból, majd 2. a negyedéves átlagkészletekbıl meg kell határozni az éves átlagos készletet. Végezzük el a számításokat: I. negyedévi átlagos készlet II. negyedévi átlagos készlet III. negyedévi átlagos készlet IV. negyedévi átlagos készlet
40 + 44 = 42 2 36 + 40 = 38 2 42 + 36 = 39 2 43 + 42 = 42,5 2
Az egyes negyedévekre vonatkozó átlagkészletekbıl most már kiszámítható az éves átlag: x k =
42 + 38 + 39 + 42,5 = 40,4 . 4
Vizsgáljuk meg a negyedéves készletátlagokat megadó törteket. Kiderül, hogy azokban az év eleji és az évzáró készletadatok egy-egy alkalommal, míg az évközbeni készletadatok két-két alkalommal szerepelnek. Pl. az április 1-jei adat részt vesz egyrészt az I. negyedév, másrészt a II. negyedév átlagának meghatározásában. Ugyanilyen szerep jut a július 1-i és október 1-i készletadatoknak. A január 1-jei adatok azonban csupán egyszer szerepelnek a negyedéves készletek kiszámításában. (5.3. ábra) A kronologikus átlag alkotó adatai
5.3. ábra
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS 57 Ennek megfelelıen az éves átlagos készlet kiszámítását egyszerősíthetjük, s olyan törtet állíthatunk fel, amelynek számlálójában az év eleji és év végi adat csupán fél-fél súllyal, míg a közbeesı adatok teljes súllyal szerepelnek. Az ily módon felírt adatok összegét elosztjuk a teljes értékő adatok számával. Mivel pedig a tagok között kettı csupán fél súllyal szerepel, a teljes értékő tagok száma mindig eggyel kevesebb lesz, mint ahány adat a számlálóban szerepel. Vonatkoztassuk ezt elızı példánkra:
44 43 + 40 + 36 + 42 + 2 = 40,4 xk = 2 4 Az eredmény nyilvánvalóan megegyezik a negyedéves átlagos adatokból számított eredménnyel. Az ily módon számított átlagot - amely végeredményben nem más, mint a számtani átlag egy módosított formája - kronologikus átlagnak nevezzük, s képletét általánosítva a következıképp írhatjuk fel:
x1 x + x 2 ...+ x n −1 + n 2 xk = 2 n −1 A megfigyelési idıpontok között eltelt idıtartamok egyenlıtlensége esetén súlyozott kronologikus átlagot kell számítani. Ilyenkor természetesen nem lehet a fenti módon egyszerősíteni.
5.3. A helyzeti középértékek Az elızıekben bemutatott középértékek - számtani, harmonikus, geometriai, négyzetes és kronologikus átlagok - megállapítása minden esetben megfelelı számítások alapján történt. Az általánosítás egyben azt is jelentette, hogy a kiszámított átlagok ún. elvont értékként jelentkeztek olyan értelemben, hogy ilyen érték a vizsgált sorban esetleg egyáltalán nem található. Az elemzés során azonban elıfordul annak szükségessége, hogy a statisztikai sokaságot, illetve a statisztikai sorokat a valóságban ténylegesen elıforduló értékkel jellemezzük. Erre a célra szolgálnak az ún. helyzeti középértékek: a módusz és a medián. A helyzeti középértékek jellege, megállapításának módja alapvetıen eltér a számított középértékekétıl.
5.3.1. A módusz A latin eredető módusz szó a leggyakoribb értéket jelenti. Valamely sokaság módusza tehát a sokaság leggyakrabban elıforduló értéke. Ebbıl következik az, hogyha a sokaság egyes értékei egyforma gyakorisággal fordulnak elı, úgy a sokaságnak nincs kifejezett módusza. Ugyanakkor elképzelhetı, hogy egy-egy sornak egynél több módusza van. A módusz meghatározásának bemutatására induljunk ki a következı adatokból.
58 5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS Egy gyümölcsfajta piaci árának elıfordulásai N város piacán egy meghatározott idıpontban Sor- Ár szám Ft
Sor- Ár szám Ft
Sor- Ár szám Ft
Sor- Ár szám Ft
Sor- Ár szám Ft
Sor- Ár szám Ft
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40.
41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60.
61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80.
81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100.
101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120.
50 51 48 47 50 58 52 58 59 50 42 43 49 53 57 54 50 51 52 54
43 49 59 56 50 53 51 52 49 54 53 52 51 56 57 51 54 48 49 50
50 59 50 51 49 51 51 48 51 52 53 47 46 57 50 50 52 51 50 53
44 50 44 51 50 53 50 51 47 50 57 54 50 53 47 54 55 50 50 50
50 53 49 50 57 56 51 48 47 50 55 52 55 49 48 54 54 50 50 51
49 51 50 50 50 53 59 42 49 44 46 53 47 47 41 46 45 44 53 54
5.2. táblázat Mivel a piacon az 50 Ft-os egységár fordul elı a leggyakrabban, ezért a módusz értéke: 50Ft. Ezután képezzünk egy olyan gyakorisági sort, amelynél az ismérvértékek egyenletesen növekednek, s az osztályközök azonos terjedelmőek. (5.3. táblázat) A módusz ez esetben az az árkategória, amelyhez a legtöbb elıfordulás kapcsolódik, vagyis a példában a 49 - 51 Ft-os kategória. A módusz megállapítása - mint látjuk - nem okozhat különösebb problémát. A kereskedelmi tevékenység elemzésében gyakran használják fel a móduszt s jelentısége olykor nagyobb az átlagénál.
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS 59 Egy gyümölcsfajta piaci árának gyakorisága N város piacán egy adott idıpontban Eladási ár (Ft) 41,0 - 43 43,1 - 45 45,1 - 47 47,1 - 49 49,1 - 51 51,1 - 53 53,1 - 55 55,1 - 57 57,1 - 59 Elıfordulások száma
Elıfordulások száma 5 7 8 14 42 18 12 8 6 120
5.3. táblázat A fentieken túlmenıen lehetıség van arra is, hogy megbecsüljük a módusz értékét a móduszt tartalmazó osztályközön belül. A számítás a következı képlet alapján végezhetı el:
Mo = x mo ,0 +
d a = f mo − f mo −1 ahol:
Mo:
x mo,0 :
f mo : f mo−1 : f mo+1 : hmo :
da ⋅ hmo da + d f d f = f mo − f mo +1
a módusz pontos értéke a móduszt tartalmazó osztályköz alsó határa a móduszt tartalmazó osztályközhöz tartozó gyakoriság a módusz elıtti osztályközhöz tartozó gyakoriság a módusz utáni osztályközhöz tartozó gyakoriság
a móduszt tartalmazó osztályköz hossza (Megjegyezzük, hogy az f gyakoriságok helyett a belılük számított megoszlási viszonyszámokkal is ugyanígy el lehet végezni a számítást.) Példánkban:
Mo = 49 +
42 − 14 ⋅ (51 − 49) = 50,08 Ft (42 − 14) + (42 − 18)
Eszerint az 50,08 Ft körüli ár fordult elı leggyakrabban a vizsgált sokaságban. Szerepe van a módusz megállapításának igen sok területen. Így például a fogyasztói kereslet tanulmányozásában, többek között annak eldöntésénél, hogy melyek a legkeresettebb választékelemek (színek, fazonok, méretek stb.), másrészt az árak megfigyelésében is.
60
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS
5.3.2. A medián A medián a középsı értéket jelenti az ismérvértékek nagyság szerinti sorrendjében. Úgy állapítjuk meg, hogy a vizsgált sokaság egyedeit (adatait) nagyságrendileg sorakoztatjuk egymás után: páratlan számú adatok esetén a középsı, páros számú tagok esetén a középen található két adat számtani átlaga lesz a medián. Az 5.4. táblázat adatainak nagyságrendben való felállítását követıen a medián a 60. és a 61. adat egyszerő számtani átlagával egyenlı. Mivel ezek az adatok azonosak, a medián 50 Ft. Nagyság szerint rendezett adatok a medián megállapításához Sorszám 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
Ár Ft 41 42 42 43 43 44 44 44 44 44 44 45 46 46 46 47 47 47 47 47
Sorszám
Ár Ft
Sorszám
Ár Ft
Sorszám
Ár Ft
Sorszám
Ár Ft
Sorszám
Ár Ft
21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40.
48 48 48 48 48 48 49 49 49 49 49 49 49 49 50 50 50 50 50 50
41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60.
50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50
61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80.
50 51 51 51 51 51 51 51 51 51 51 51 51 51 51 51 52 52 52 52
81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100.
52 52 52 53 53 53 53 53 53 53 53 53 53 53 54 54 54 54 54 54
101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120.
54 54 54 55 55 55 56 56 56 57 57 57 57 57 58 58 59 59 59 59
5.4. táblázat Ebben a példában egyértelmően meghatározható volt a medián pontos értéke az 5.4. táblázat alapján. Gyakran elıfordul azonban, hogy nem áll rendelkezésre minden adat egyenként, hanem csak az azokból készített gyakorisági sor (ld. 5.3. táblázat). A medián ekkor is meghatározható a következı módon: Elıször megkeressük azt az osztályközt, mely a középsı elemet, vagyis a mediánt tartalmazza. Ennek legegyszerőbb módja az, ha a gyakoriságokat összeadjuk (kumuláljuk) mindaddig, míg el nem érkezünk a középsı (N/2-dik) elemhez.
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS 61 Példánkban: N/2 = 120/2 = 60. A kumulált gyakorisági sor: Eladási ár (Ft) Kumulált gyakoriság 41,0 - 43 5 43,1 - 45 12 45,1 - 47 20 47,1 - 49 34 49,1 - 51 76 51,1 - 53 94 53,1 - 55 106 55,1 - 57 114 57,1 - 59 120 Összesen Ahol a kumulált gyakorisági sor eléri (illetve meghaladja) az N/2 = 60 értéket, az a 49,1 - 51 Ft-os osztályköz, tehát ebben az osztályközben van a medián. Ezek után a lenti képletet alkalmazva meghatározható a medián pontos értéke:
Me = x me ,0 +
N 2 − f me′ −1 ⋅ hme ahol: f me
x me,0 : a mediánt tartalmazó osztályköz alsó határa N/2 : az elemek számának fele f me′ −1 :a medián elıtti osztályközhöz tartozó kumulált gyakoriság
f me : a mediánt tartalmazó osztályközhöz tartozó gyakoriság hme : a mediánt tartalmazó osztályköz hossza (Megjegyezzük, hogy az f gyakoriságok helyett itt is szerepelhetnek megoszlási viszonyszámok.) Példánkban: Me = 49 +
120 2 − 34 ⋅ (51 − 49) = 50,24 Ft 42
Tehát kb. ugyanannyiszor fordult elı 50,24 Ft-nál magasabb és alacsonyabb ár a vizsgált sokaságban. Ez az eredmény megközelíti a medián tényleges értékét (az 50 Ft-ot), de ha nem ismerjük az egyes árakat, csak a gyakorisági sort, akkor ennél (az 50,24 Ft-nál) pontosabb eredményre nem juthatunk. Gyakran elıfordul, hogy a középsı érték, a medián jobban jellemzi a sort, mint az átlag vagy a módusz. Elıbbi példánkból kiszámítva, ha összehasonlítani akarjuk a számtani átlag, módusz és medián értékét, a következı képet kapjuk: számtani átlag: módusz: medián:
50,30 Ft 50,08 Ft 50,24 Ft
62
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS A fenti középértékek közötti nagyságrendi viszony jelentıségére az 5.6. fejezetben visszatérünk.
5.4. Viszonyszámok átlagolása A viszonyszámok és az átlagok között kapcsolat létesíthetı: egyrészt oly módon, hogy a viszonyszámokból számítunk átlagot, másrészt átlagokból képezünk viszonyszámokat. A viszonyszámok átlagolását a dinamikus viszonyszámok példáján keresztül mutatjuk be. Az átlagolás logikája bármelyik fajta rész- és összetett viszonyszám esetében használható. A számításhoz a következı adatok állnak rendelkezésünkre: Négy termék forgalmának alakulása 1995-96-ban Termék A B C D Cikkcsoport öszszesen:
1995 21 034 35 967 62 360 25 691
1996 21 981 36 687 61 113 26 462
Dinamikus viszonyszám (1995=100%) 104,5 102,0 98,0 103,0
145 052
146 243
...
Forgalom (ezer Ft)
5.5. táblázat Ki kell számítani a cikkcsoport egészére vonatkozó dinamikus viszonyszámot. a) A számítás legegyszerőbb formája:
146. 243 = 100, 8%. 145. 052
A cikkcsoport egészére vonatkozó viszonyszámot összetett viszonyszámnak nevezzük, szemben az egyes részadatokra - cikkekre - számított ún. részviszonyszámokkal. Az összetett viszonyszám a részviszonyszámokhoz képest közepes nagyságrendet foglal el. Kézenfekvı, hogy az összetett viszonyszámot a részviszonyszámok súlyozott átlagaként is kiszámíthatjuk. b) Súlyozott számtani átlagként, ahol a bázisadatokkal súlyozunk:
21034 ⋅ 1, 045 + 35. 967 ⋅ 1, 02 + 62. 360 ⋅ 0, 98 + 25. 691⋅ 1. 03 = 145. 052 21. 981 + 36. 687 + 61.113 + 26. 462 146. 243 = = = 100, 8%. 145. 052 145. 052 x=
c) Súlyozott harmonikus átlagként, ahol súlyszámként a beszámolási idıszak adatait használjuk fel:
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS
63
146. 243 146.243 = = 21. 981 36. 687 61113 . 26. 462 21. 034+ 35.967+ 62. 360+ 25.961 + + + 1, 045 1, 02 0, 98 1, 03 146. 243 = = 100, 8%. 145. 052 xh =
Részviszonyszámokból összetett viszonyszámot tehát - általánosítva az eddigieket - a következı módon számíthatunk: Ha a nevezıben szereplı adat a súly, akkor mindig számtani, ha a számlálóban szereplı adat a súly, akkor mindig harmonikus átlagot használunk. Képletekkel: n
Az összetett viszonyszám alapformában: V =
∑A
i
i =1 n
∑B
i
i =1
A részviszonyszámok: vi =
Ai Bi
i = 1,..., n n
Az összetett viszonyszám kiszámítása súlyozott számtani átlagként: V =
∑B
i
⋅ vi
i =1
n
∑B
i
i =1 n
Az összetett viszonyszám kiszámítása súlyozott harmonikus átlagként: V =
∑A
i
i =1 n
Ai
∑v i =1
i
5.5. A szóródás fogalma és mutatói Az átlagok tulajdonságuknál fogva csak elvontan adhatják egy-egy sokaság, sor általános jellemzését. Ugyanakkor nem válaszolhatnak arra a kérdésre, hogy a sor egyes tagjai (a sokaság egyedei) hogyan helyezkednek el az átlaghoz képest. Az elızıkben már említettük, könnyen elıfordulhat, hogy két sorból számított átlag megegyezik, ugyanakkor az adatok átlagtól való távolsága terén rendkívül nagy a különbség. Az átlagtól való eltérés, azaz az adatok szóródásának vizsgálata a statisztikai elemzésben - így a marketing tevékenység vizsgálatában is - nagy fontosságú. A szóródás vizsgálata egyúttal fontos kiegészítıje a középértékek felhasználásának. Ahhoz, hogy a szóródás mértékérıl megfelelı képet nyerjünk, s ennek segítségével az egyes sorokat egymással összehasonlítani tudjuk, a szóródás jellemzésére is mutatószámo-
64 5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS kat kell szerkesztenünk. A statisztikában alkalmazott legfontosabb szóródást mérı mutatószámok a következık: - a szóródás terjedelme, - a szórás (átlagos négyzetes eltérés), - a relatív szórás (variációs koefficiens). a) A szóródás mérésére alkalmazott legegyszerőbb mutatószám a sor legalacsonyabb és legmagasabb értéke közötti különbség, azaz a szóródás terjedelme (R) (range). Képlettel:
R = x max − x min Ez a mutatószám azonban nem adhat teljes képet a szóródás mértékérıl, mert a sor nagyságrendben közbeesı értékeit nem veszi figyelembe. A szélsı értékek ugyanakkor gyakran kiugró értékek lehetnek, olyanok, amelyek elıfordulását legtöbb esetben a véletlen okozza. Ilyen esetekben a range nem használható fel, mert teljesen megtévesztı képet ad. Például, ha azt vizsgáljuk, hogy egy bolt napi forgalmában egy év folyamán milyen különbségek mutatkoznak, elég egy olyan nap, amikor a bolt valamilyen oknál fogva csak pár órát tartott nyitva, s ennek következményeként más napokhoz képest minimális forgalmat bonyolított le; a szóródás terjedelme megállapításánál alsó határként ennek a napnak forgalma kell, hogy szerepeljen. A statisztikai elemzésben azonban a range-et - korlátai mellett is - felhasználjuk. b) A szórás (σ σ) már pontosabb képet nyújt a szóródásról. E mutatószám a sor egyes tagjainak az átlagtól való eltérésébıl indul ki, s megadja az eltérések átlagát. Kiszámításánál számolnunk kell azzal, hogy az átlagtól való eltérések pozitív és negatív irányban egyaránt jelentkeznek, s ha a középérték - amelytıl a különbséget megállapítjuk - a számtani átlag, úgy a különbségek összege 0 lesz. Annak érdekében, hogy - függetlenül az eltérések elıjelétıl - megállapíthassuk az eltérések összegét, s ennek alapján annak átlagát, a négyzetes átlagot kell felhasználnunk. Ennek segítségével kiszámíthatjuk az átlagos négyzetes eltérést, amely már reális képet nyújt a szóródás mértékérıl. A gyakorlatban a szóródást rendszerint gyakorisági sorból kell kiszámítani. Ebben az esetben súlyozott négyzetes átlagot alkalmazunk. A kiszámítás menete általánosan a következı módon megy végbe:
f 1 ( x1 − x ) + f 2 ( x 2 − x ) +...+ f n ( x n − x ) 2
σ=
2
f 1 + f 2 +...+ f n
2
.
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS
65 n
Ennek alapján meghatározhatjuk a szórás képletét: σ =
∑f i =1
i
(
⋅ xi − x
)
2
n
∑f
i
i =1
A szórás kiszámítására az 5.6. táblázatban mutatunk be példát. A csokis nápolyi árának alakulása 120 eladóhelyen, s az ár szórásának kiszámítása
Egy dkg ára (Ft)
4,10-4,30 4,31-4,50 4,51-4,70 4,71-4,90 4,91-5,10 5,11-5,30 5,31-5,50 5,51-5,70 5,71-5,90 Összesen
Osztályközép
Az oszÁrjegy- tály-közép zések és a száma gyakoriság szorzata
x
f
fx
4,20 4,40 4,60 4,80 5,00 5,20 5,40 5,60 5,80
5 7 8 14 42 18 12 8 6 120
21,0 30,8 36,8 67,2 210,0 93,6 64,8 44,8 34,8 603,8
-
Átlag
Az átlagtól való eltérés
Az eltérések négyzete
Az eltérések négyzete és a gyakoriság szorzata
x
x−x
(x − x )2
f (x − x)
-0,83 -0,63 -0,43 -0,23 5,03 -0,03 +0,17 +0,37 +0,57 +0,77 -
0,6889 0,3969 0,1849 0,0529 0,0009 0,0289 0,1369 0,3249 0,5929 -
2
3,4445 2,7783 1,4792 0,7406 0,0378 0,5202 1,6428 2,5992 3,5577 16,8003
5.6. táblázat A képlet alapján a kiszámítást a következı szakaszokban kell elvégezni: 1. Meg kell határozni a gyakorisági sor súlyozott számtani átlagát, majd a sor egyes értékeinek az átlagtól való eltérését. 2. Ezt követi az eltérések négyzetre emelése és 3. a gyakoriságok számával való megszorzása. 4. Az ily módon nyert szorzatokat összegezzük, s az eredményt elosztjuk a gyakoriságok számával és 5. a hányadosból négyzetgyököt vonunk. A kiszámítás gyakorlatának bemutatására vegyük elı az 5.6. táblázatban szereplı példát. Az átlagtól való eltérések négyzetének szorzatait miután összeadtuk, el kell osztanunk a gyakoriságok számával, majd a kapott eredménybıl négyzetgyököt vonunk:
66
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS
σ=
16,8003 = 0,14 = 0,37 120
A szórás tehát 0,37 Ft, ami azt jelenti, hogy az egyes elárusító helyeken a csokis nápolyi dekagrammonkénti ára átlagosan 0,37 Ft-tal (vagyis közel 40 fillérrel) tér el az átlagártól, vagyis az 5,03 Ft-tól. Megjegyezzük, hogy egyes statisztikai elemzési módszereknél közvetlenül nem a szórást, hanem annak négyzetét, a szórásnégyzetet vagy más néven varianciát (σ σ2) használják fel. Ezekre majd a 7. és 10. fejezetekben láthatunk példákat. c) A szórás kiszámításával eljutottunk egy olyan általánosító mutatószámhoz, amelynek csak az átlaggal való összehasonlítása esetén van jelentısége. Az összehasonlítást egyszerő százalékszámítással végezhetjük el. A kijelölt eredmény megadja a szóródás mértékét az átlag százalékában. Ezt a mutatószámot relatív szórásnak (variációs koefficiensnek, V) nevezzük. Kiszámításának képlete tehát:
V = Az elıbbi példára alkalmazva: V =
σ
x
0,37 = 0,074 = 7,4% 5,03
A csokis nápolyi ára tehát átlagosan 7,4%-kal tér el az 5,03 Ft-os dekagrammonkénti átlagártól.
5.6. Eloszlások vizsgálata a középértékek és a szóródás felhasználásával A középértékek és a szóródási mutatók alkalmasak arra, hogy segítségükkel jellemezzük a gyakorisági sorok "alakját" a szimmetria szempontjából. Erre többnyire akkor van szükség, ha meg akarjuk tudni, hogy a sokaság elemeinek többsége kisebb-e vagy nagyobb, mint a számtani átlag. Grafikus módszerrel is választ adhatunk erre a kérdésre, ha ábrázoljuk a gyakorisági sort koordináta-rendszerben oly módon, hogy az x-tengelyen feltüntetett osztályközök közepéhez hozzárendeljük a gyakoriságokat, melyeket az y-tengelyen ábrázolunk, s az így keletkezett pontokat összekötjük. Ekkor ún. gyakorisági poligont kapunk. Ha az osztályközök száma igen nagy, a poligon egyre inkább gyakorisági görbe alakot vesz fel. A görbe alakja dönti el az eloszlás szimmetrikus vagy aszimmetrikus voltát. (5.4. ábra)1
1
Természetesen léteznek más alakú eloszlások is, de jegyzetünkben csak ezekkel a legegyszerőbb esetekkel foglalkozunk.
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS Eloszlások alakja
67
Szimme trikus e loszlá s y
x
Mo = Me = x Ba lra fe rde e loszlá s y
x
Mo〈 Me〈 x
68
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS Jobbra fe rde e loszlá s y
x
x 〈 Me〈 Mo 5.4. ábra Ahogyan az az 5.4. ábrán látható, az eloszlások alakjára - magán az ábrán túl - a rájuk jellemzı középértékek összehasonlításából is következtethetünk. Szimmetrikus eloszlás esetén a helyzeti középértékek és a számtani átlag egybeesnek, míg aszimmetria esetén a következı nagyságrendi viszony érvényesül: Baloldali aszimmetria: Mo < Me < x Jobboldali aszimmetria:
Mo > Me > x
Látható, hogy baloldali aszimmetria esetén a sokaság elemeinek többsége kisebb, mint az átlag, tehát az átlagnál kisebb értékek jellemzıbbek a sokaságra, míg jobboldali aszimmetria esetén a nagyobbak. Az aszimmetria mértéke a különféle eloszlások esetén nyilván eltérı lehet. Ennek mérésére több mutatószám is alkalmas, melyek közül egyet mutatunk be, a Pearson-féle aszimmetria-mutatót (A):
A=
x − Mo
σ
A mutató 0 értéket vesz fel, ha x = Mo , tehát ha szimmetrikus az eloszlás. Pozitív értéke akkor lesz, ha x > Mo , tehát az eloszlás balra ferde. Negatív akkor lesz, ha x < Mo , tehát az eloszlás jobbra ferde. Minél nagyobb a mutató abszolút értéke, az aszimmetria mértéke annál nagyobb. Példa: Az 5.6. táblázat adatai alapján számítsuk ki és értelmezzük az ott szereplı eloszlás Pearson-féle aszimmetria-mutatóját! Adatok:
x = 5,03 Ft = 0,37 Ft
Mo = ?
5. A KÖZÉPÉRTÉKEK ÉS A SZÓRÓDÁS
Mo = 4,9 +
69
42 − 14 ⋅ (5,1 − 4,9) = 5 Ft (42 − 14) + (42 − 18)
A Pearson-féle mutató: A =
5,03 − 5 = 0,08 0,37
Mivel x > Mo , így a mutató pozitív, ami baloldali aszimmetriára utal. Ám az A abszolút értéke igen kicsi, tehát csak enyhe aszimmetriáról beszélhetünk, az eloszlás közel áll a szimmetriához. Jól mutatja ezt az 5.5. ábra. A csokis nápolyi árának megoszlása 50
Elıfordulási gyakorisága
40 30 20 10 0 4,2
4,4
4,6
4,8
5,0
5,2
5,4
5,6
5,8
Ár (Ft/dkg)
5.5. ábra
70
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA Ahhoz, hogy a statisztikai adatok, az azokból képzett sorok alkalmasak legyenek az elemzésre, összefüggı rendszerbe kell foglalnunk. Erre a célra szolgálnak az ún. statisztikai táblázatok. Igen gyakran azonban a jobb szemléltetés végett az adatokból ábrákat, grafikonokat kell szerkeszteni. Az adatok ábrázolása tehát a táblázatokkal együtt a statisztikai adatok közlésének, szemléltetésének eszköze.
6.1. A statisztikai táblák fogalma és szerkesztése A statisztikai táblázatok a statisztikai sorok meghatározott formában jelentkezı összefüggı rendszere. Szerkesztése tehát a sorok különbözı rendszerben való összeillesztésén alapul. A statisztikai táblák rendeltetésük szerint két csoportba oszthatók: - Az elsı csoportba sorolhatjuk azokat, amelyek az adatok elsıdleges rendezésére szolgálnak, s az adatok feldolgozását teszik lehetıvé. Ezeket a táblákat feldolgozási tábláknak nevezzük, s jellemzıjük, hogy általában nagy terjedelmőek. - A második csoportba tartozó táblák a statisztikai vizsgálat végsı eredményeit tartalmazzák. Ezek az ún. bemutató vagy közlési táblák. A táblák terjedelem szempontjából különböznek ugyan egymástól, azonban szerkezetük, felépítésük ugyanazon elven alapul. Szerkezetileg minden tábla rovatokból álló hálózat, amely a táblafejbıl, az oldalrovatokból, összegrovatokból, sorokból, illetve oszlopokból áll. (6.1. táblázat) A statisztikai táblák szerkezeti sémája
Oldalrovat
Fejrovat
Oldalrovat
Összeg rovat
Oszlop Sor
Összeg rovat 6.1. táblázat Aszerint, hogy a táblák milyen mélységben szemléltetik a vizsgált jelenséget, beszélünk - egyszerő,
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA - csoportosító és - kombinációs táblákról.
71
6.1.1. Egyszerő táblák Az egyszerő táblák jellemzıje, hogy nem tartalmaznak csoportosító sort (így összegrovatot sem), vagyis képzésük leíró és/vagy összehasonlító sorokból történik. Példaként erre a 6.2. táblázatot mutatjuk be, amelynek oszlopai egymástól eltérı mértékegységő adatokat tartalmaznak: az elsı és a harmadik oszlop abszolút számokban kifejezett sor; a második és negyedik oszlop megoszlási viszonyszámokat tartalmaz; míg az utolsó oszlop (az 2 egy km -re jutó lakosok száma) intenzitási viszonyszámokból áll. Vízszintesen a tábla leíró sorokat, függılegesen pedig területi sorokat tartalmaz. Példa az egyszerő tábla szerkesztésére Az alföldi megyék területe, lakossága és népsőrősége 1996. január 1-jén
Megye
Bács-Kiskun Békés Csongrád Hajdú-Bihar Pest Szabolcs-Szatmár Szolnok
A terület (km2) az országos %ában 8362 9,0 5632 6,0 4263 4,6 6212 6,7 6393 6,9 5937 6,4 5608 6,0
A lakosság száma az orszá(ezer fı) gos %ában 539,7 5,3 402,5 3,9 427,1 4,2 549,7 5,4 985,1 9,6 572,4 5,6 420,7 4,1
Népsőrőség (lakos/km2) 64,5 71,5 100,1 88,5 154,1 96,4 75,0
Forrás: Magyar Statisztikai Évkönyv, 1996. 85.old. adatai alapján
6.2. táblázat
6.1.2. Csoportosító táblák A csoportosító táblák nem annyira formájukban, mint tartalmukban különböznek az egyszerő tábláktól. Adatai egy-egy jelenségre vonatkozó adatfeldolgozás csoportjait, illetve az ezt kifejezı abszolút vagy származékos számokat tartalmazzák. Egyik irányban tartalmaznak csoportosító sort, s ennek megfelelıen összegrovatot is, míg másik irányban nem. Az erre például szolgáló 6.3. táblázat oszlopai százalékban kifejezett gyakorisági, míg sorai megoszlási viszonyszám sorok.
72 6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA Példa a csoportosító táblára Az instant babkávé fogyasztásának gyakorisága családnagyság-csoportonként, %-ban Család-
Rendszeresen
nagyság
fogyaszt instant kávét az összes megkérdezett %-ában
1-2 fıs 3 fıs 4 fıs 5 fıs 6 és több fıs
55,2 49,9 52,6 54,7 61,6
Néha
19,1 22,6 22,9 17,6 17,8
Sohasem
14,5 20,6 17,1 16,9 11,0
Nem
Összesen
válaszolt 11,1 6,9 7,3 10,8 9,6
100,0 100,0 100,0 100,0 100,0
Forrás: Országos Piackutató Intézet 1983. évi vizsgálatai
6.3. táblázat
6.1.3. Kombinációs táblák A statisztikai értékelés számára az egyszerő és a csoportosító táblázatok alkalmazása még nem elégséges. A legtöbb analízisnél szükség van a vizsgált jelenségek közötti összefüggések mélyebb bemutatására. Ha a statisztikai sokaság több ismérv szerinti csoportosítását kívánjuk táblázatban bemutatni oly módon, hogy az oldal- és a fejrovatban szereplı csoportokat egymással kombináljuk, úgy kombinációs táblázatot kell szerkesztenünk. Aszerint, hogy a kombinációs táblázatban milyen mélységben történik a csoportosítás, beszélhetünk kettıs, hármas, négyes, stb. osztályozású, vagyis két- három- négydimenziós, stb. táblázatról. Noha elvileg többszörös osztályozásra van lehetıség, három ismérvnél mélyebb bontású táblázatok már csak nehezen áttekinthetık. Ezért bemutató (közlési) célokra általában a két, legfeljebb a hármas osztályozású kombinációs táblázatokat használjuk. Példa a kombinációs táblára A pezsgıvásárlás gyakorisága lakóhely szerinti bontásban egy piackutatás adatai alapján (fı) Lakóhely A vásárlás gyakorisága Összesen Hetente vagy Kb. haÉvente né- Ritkábban gyakrabban vonta hányszor Budapest 25 32 106 17 180 Város 20 28 140 12 200 Község 12 15 79 14 120 Összesen 57 75 325 43 500 6.4. táblázat
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA
73
6.1.4. A táblaszerkesztés szabályai A statisztikai táblázatok szerkesztése látszólagosan egyszerő mővelet. A táblázatok az elemzés céljainak azonban csak akkor tudnak megfelelni, ha a szerkesztésük a legnagyobb körültekintéssel, pontossággal történik. Ennek biztosítása érdekében mindenkor a következı fontos irányelveket kell figyelembe venni: - a táblázatok közérthetısége, - a rovatok számának meghatározása, - az összesen rovatok biztosítása, - a rovatok megszámozása, - a tábla mértékegysége, - az abszolút számok - viszonyszámok együttes szerepeltetése, - az adatok kerekítése, - a sorrendiség biztosítása, - egyéb szabályok. A táblázatok közérthetısége A statisztikai adatok közlésekor figyelembe kell venni, hogy a táblázatokat statisztikusok, vagy legalábbis a statisztikában gyakorlattal rendelkezık készítik, ugyanakkor azonban olvasóik jelentıs része nem ezek körébıl kerül ki. Ebbıl következik, hogy a bemutató vagy közlési táblázatnak mindenkor a szaktudással nem rendelkezık számára is világosnak, félre nem érthetınek és áttekinthetınek kell lenniük. Ez az elv mintegy megszabja a táblázatok nagyságát, illetve terjedelmét is. A rovatok számának meghatározása A táblázatok szerkesztése elıtt kell meghatározni, hogy az adatokat milyen csoportosításban kívánjuk bemutatni, vagyis hány dimenziós, milyen kombinációkat tartalmazó táblázatot kívánunk készíteni. A kombinációkra, illetve azok bemutatására természetesen több lehetıség van. Ezeknek különbözı verzióit a statisztikai gyakorlatok során ismertetjük. Az "összesen" rovat biztosítása A statisztika nemcsak a "csoportosítás, hanem az összesítés tudománya" is. A bemutató táblázatok túlnyomó többsége egy vagy több összesítı rovatot tartalmaz. Az "összesen" rovatok a táblázatokban három helyen szerepelhetnek. Ahol a táblában csoportosító sor van, ott "összesen" rovatot is kell készíteni. (6.5. táblázat)
74
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA Táblaséma 1. ismérv
Megnevezés
2. ismérv
albontás
albontás
Összesen
albontás
1
2
1+2
3
1. és 2. ismérv összesen
albon Össze-tás sen 4
3+4
albontás
albontás
Összesen
1+3
2+4
1+2+3+4
6.5. táblázat Ebben a táblasémában a satírozott részeken találhatók az "összesen" rovatok, éspedig: - a táblázat belsejében (az albontások összesítésére), - a táblázat legalsó sorában (az oszlopok adatainak összesítésére), - a táblázat utolsó fıoszlopában (az ismérvek, illetve albontások összesítésére, feltéve, ha azok összeadhatók). A mindennapos gyakorlatban találkozhatunk olyan megoldással, hogy az összegrovatokat nem a sorok (oszlopok) végén, hanem azok elején helyezik el. Ilyen esetekben az "összesen" rovat alá "Ebbıl:" szót írunk, s ezt követıen soroljuk fel a vizsgált ismérv egyes változásait. Ezt a megoldást fıként akkor alkalmazzuk, ha nem kívánunk teljes felsorolást nyújtani, csupán a leglényegesebb jellemzık kiemelését. A rovatok megszámozása Olyan táblázatokban, ahol a fejléc sok rovatot tartalmaz, az áttekinthetıség növelése és a hivatkozás megkönnyítése érdekében célszerő az egyes oszlopokat megszámozni (lásd példaként a 6.6. táblázatot). Megye
1
Kereskedelmi forgalom (millió Ft)
Üzletek forgalma
Kiskereskedelmi dolgozók száma (fı)
1996
1997
1996
1997
1996
1997
2
3
4
5
6
7
6.6. táblázat Sok oszlopot tartalmazó táblázatnál a könnyebb soron követés végett az egyes vízszintes sorokat is számozzák, mégpedig a sor mindkét végén. Például olyan tábláknál, ahol a cikkenkénti bontásban a fogyasztás hosszú idısorai szerepelnek, vagy területi
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA 75 soroknál, ahol egy-egy területi egységre vonatkozóan mutatják be különbözı jelenségek idıbeli változását. Ilyen megoldást alkalmaznak a statisztikai évkönyvek. A táblázatok mértékegysége A statisztikai táblázatnak elengedhetetlen kelléke a mértékegység. Ha ezt elfelejtjük feltüntetni, a késıbbiekben problémákat okozhat utólagos megállapítása. (Pl. az adatok tonnára, mázsára vagy kilogrammra, vagy ezer forintra vonatkoznak-e?) Ha a táblázat valamennyi adata azonos mértékegységben szerepel, úgy ezt vagy a táblázat fejléce felett, vagy pedig magában a fejlécben tüntetjük fel. Ily módon elkerülhetı, hogy a táblázat minden egyes adata mellett kelljen feltüntetni (esetleg kettızni) a mértékegységet. Ha a táblázat adatai, illetve oszlopai vagy sorai más-más mértékegységben kifejezettek, úgy a sorok vonatkozásában az oldalrovatban, oszlopoknál pedig a fejrovatban kerülnek a mennyiségi egységek feltüntetésre. Mindkét változat alkalmazása kötelez arra, hogy az azonos oszlopokban és sorokban csak azonos mértékegységeket szerepeltethetünk. Ennek a szabálynak megsértése számos félreértésre adhat alapot. Az abszolút számok és viszonyszámok együttes szerepeltetése Mint láttuk, a táblázatok egyaránt tartalmazhatnak abszolút számokat és viszonyszámokat. Készülhet táblázat kizárólag abszolút számokból vagy kizárólag viszonyszámokból, de igen gyakori egy táblázaton belüli együttes alkalmazásuk is. Különösen gyakori az abszolút és viszonyszámok együttes alkalmazása egy-egy jelenség megoszlásának bemutatásánál. Az adatok kerekítése A táblázatok adatai gyakran tartalmaznak kerekítést. Ez szükséges egyrészt a könynyebb áttekintéshez, másrészt számos jelenség vizsgálatánál elhanyagolható az aprólékos kimutatás s csak a nagyságrend meghatározása fontos. Vizsgáljunk meg példaként egy adatot: Egy élelmiszer-kiskereskedelmi vállalat 1996. évi teljes forgalma 734 162 510 forint volt. Ezt az összeget többféleképpen írhatjuk fel: 734 162 510 Ft 734 162,5 ezer Ft 734,2 millió Ft 0,7 milliárd Ft. A mutatók közül az elsı és a második a kis mértékegységek alkalmazása miatt kevésbé áttekinthetı. Gondoljuk csak el, milyen lenne egy sokoszlopos táblázat ilyen részletességő adatokkal. Ahhoz, hogy - a példánál maradva - az egyes vállalatok és ennek alapján az országos kiskereskedelmi forgalom évenkénti alakulását érzékelhessük a "millió forintos" (esetleg a milliárdos) mértékegység látszik a legmegfelelıbbnek. A kerekítés mértékét mindenkor az áttekinthetıség és a vizsgált jelenség természete hatá-
76 6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA rozza meg. A kerekítésnél egyébként általános szabály, hogy ha az elhagyandó összegrész 0,5-nél kevesebb, úgy egyáltalán nem vesszük számításba, ha pedig 0,5-nél több, úgy a megmaradó összeg utolsó számjegyét eggyel növeljük. A sorrendiség biztosítása A táblázatban szereplı sorok adatainál a sorrendiséget tekintve négy lehetıség áll fenn: a) idırendi, b) alfabetikus, c) nagyságrendbeli és d) ún. szokásos sorrend. a) Idırendi sorrendet követünk minden esetben az idısoroknál, valamint olyan tábláknál, amelyekben a dolgokat keletkezésük sorrendjében kívánjuk, illetve logikus bemutatni. (Pl. a lakosság demográfiai jellemzıit szemléltetı táblázatban a halálozások száma mindenkor az élveszületésekre vonatkozó adat után következik.) Elıfordul azonban, hogy valamilyen meggondolásból külön kiemelünk, ill. elhagyunk egy bizonyos idıszakot. b) Alfabetikus sorrendet akkor alkalmazhatunk, ha egyébként meggondolás a sorrendre vonatkozólag nem áll fenn. Ennek szerepeltetése tehát annyit jelent, hogy a szerkesztık számára közömbös volt, hogy milyen sorrendet használjanak. Az alfabetikus sorrendnek elınye - különösen nagy terjedelmő táblázatoknál -, hogy megkönnyíti az adatkeresést. Alfabetikus sorrend található a nemzetközi (egyes országok termelési, szállítási stb. eredményeit összehasonlító) statisztikai táblázatokban, meghatározott esetekben a megyénkénti megoszlás vizsgálatánál az egyes megyék alfabetikus sorrendben követik egymást stb. c) Nagyságrendbeli sorrend egyike a leggyakrabban használtaknak. Ezt alkalmazzuk minden esetben a mennyiségi, gyakorisági sorokat tartalmazó tábláknál, továbbá olyan esetekben, amikor szükségesnek tartjuk a figyelmet épp a nagyságrendbeli alakulásra felhívni. (Pl. az országos áruforgalom megyénkénti megoszlásának bemutatásánál, a megyéket nem alfabetikus, hanem forgalmi nagyságrend szerint is besorolhatjuk.) d) Szokásos sorrend is kialakulhat a statisztikai gyakorlat során, akár mőszaki, akár logikai, vagy más meggondolások alapján. Egyéb szabályok Az elızıkben említetteken kívül a táblaszerkesztésnek sok fontos egyéb elıírása is van. Így elsısorban azt kell kiemelnünk, hogy a táblázatok minden rovatát ki kell tölteni. Elıfordul, hogy egyes esetekben a következı okok miatt nem rendelkezünk adattal, illetve megfelelı adattal: - elıfordulás nem volt (pl. a vizsgált idıszakban egy bizonyos cikket nem értékesítettek). Ilyen esetekben a táblázat megfelelı rovatában (rekeszében) - jelt teszünk; - nem ismerjük, nem áll rendelkezésünkre a megfelelı adat, elıfordulásában azonban biztosak vagyunk. Ez esetben . vagy .. jelet alkalmazunk; - amennyiben az elıfordulás mértéke olyan kicsiny, hogy azt a táblázat mértékegységében kifejezni nem tudjuk (pl. ha a mértékegység millió Ft-ban megadott s egy tizedest tüntetünk fel, akkor a 49 000 Ft-on aluli forgalom már nem fejezhetı ki). Ilyenkor 0 vagy 0,0 jelölést alkalmazunk.
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA 77 Ezek a jelenségek egységesek, s valamennyi ország statisztikai kiadványaiban - csakúgy, mint a nemzetközi statisztikai szervezetek (ENSZ Statisztikai Hivatala, UNCTAD stb.) publikációiban - azonos értelmezéssel használják. Nem tartoznak ugyan szerkezetileg a táblázathoz, tartalmilag azonban fontos kiegészítı részei: - a cím, - a forrás megjelölése és - a jegyzetek. Igen fontos a táblázat címének helyes meghatározása. A jó címnek tartalmaznia kell a táblázatban bemutatott sokaság leglényegesebb közös tulajdonságait, a csoportosítás szempontjait, s el kell határolni a leírt sokaságot idıben és térben. Ezeknek a követelményeknek gyakran csak úgy lehet megfelelni, hogy az egyes táblázatokat még külön alcímmel is ellátjuk. A rosszul fogalmazott cím félrevezetı lehet, s megnehezíti a táblázat helyes felhasználását. Elégtelen cím esetén pedig az olvasó arra kényszerül, hogy végignézze az oldal és fejrovatokat s maga próbáljon következtetni arra, hogy valójában milyen sokaságok bemutatásáról van szó. Az adatok felhasználása két formában történhet: a) A táblázatokat teljes egészükben vesszük át s használjuk fel az elemzéshez (ez esetben a táblázat alatt jelöljük meg a forrást egységesen oly módon, ahogy azt e tankönyvben felhozott példatábláknál is alkalmazzuk). b) A különbözı forrásokból szerzett adatokból magunk állítjuk össze a táblázatot. A szakszerő ellenırzés biztosítására ilyenkor külön-külön kell megjelölni az egyes adatok forrását, illetve felsorolni valamennyi, a táblázat szerkesztésénél felhasznált forrásmunkát. Nem elhanyagolható szerepe van a táblaszerkesztésben a jegyzeteknek. Mind a táblázat egészére, mind pedig egyes adataira vonatkozóan az adatok értelmezése szempontjából fontos körülményre a jegyzetben fel kell hívni a figyelmet. Gyakran elıfordul például, hogy kényszerőségbıl - megfelelı adat híján - egy-egy rovatba más mértékegységben kifejezett adat kerül. Ilyen esetben is az eltérésre a táblázat alatt közölt jegyzetben kell a figyelmet felhívni. Hasonlóan jelentkezhet, a táblázat többi adataitól elérı idıpontra, idıszakra vonatkozó adat. Ilyenkor is a jegyzetben kell erre utalnunk.
6.2. A statisztikai adatok ábrázolása A feldolgozott és rendszerezett statisztikai adatok bemutatása, szemléltetése nemcsak táblázatokon, hanem különbözı ábrák segítségével is történhet. Az ábrázolás célja: az áttekintés megkönnyítése, az arányok, tendenciák plasztikusabb szemléltetése. A statisztikai ábráknak más vonatkozásban is nagy jelentısége van. Lehetıvé teszi a statisztikát nem ismerık számára is a statisztikai feldolgozás eredményeinek könnyebb megértését. Ezért van különösen nagy szerepe az ábrázolásnak az oktatásban és a vállalati propagandában - reklámban is. Az ábrák alapadatai egyaránt lehetnek abszolút számok, viszonyszámok, átlagok, vagy a késıbbiekben ismertetett indexszámok. Az abszolút számok alapján szerkesztett ábrák tulajdonképpen ugyanolyan viszonyítást szemléltetnek, mintha az ábra a viszonyszámok alapján készült volna.
78
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA A statisztikai ábrának - csakúgy, mint a táblázatoknak - különbözı követelményeknek kell eleget tennie. Ezek között a legfontosabb, hogy az ábrák világosak, könnyen érthetıek legyenek. Kerülni kell tehát a bonyolult rajzokat és a zsúfoltságot, azaz minden olyan törekvést, hogy egy rajzzal próbáljunk sok jelenséget összehasonlítani, illetve bemutatni. Ami pedig az ábrák szerkesztését illeti, a grafikon szerzıjének nem rajzolónak, hanem statisztikusnak kell lennie, aki jól ismeri azokat a statisztikai adatokat, amelyeket grafikailag ábrázolni kíván. A rajzoló csupán a rajz kivitelezıje. Még egy fontos irányelv: Az ábráknak célja a statisztikai elemzés eredményeinek könnyebb megértése, szemléltetése. Ebbıl következik, hogy ábrákat akkor alkalmazunk, ha azok valóban "többet mondanak" a táblázatban foglalt adatoknál. Az ábráknak sokféle fajtája, megoldása lehetséges. Errıl nyújt áttekintést a 6.1. ábra. A következıkben - a jegyzet korlátozott terjedelme miatt -, a rendkívül változatos ábrázolási lehetıségeknek csupán az alapjait tudjuk bemutatni. A részletesebb tájékoztatásról a statisztikai gyakorlatok gondoskodnak. A statisztikai ábrák fontosabb fajtái Ábrá k
Diagramok
Piktogramok
Koordiná ta rendszeren alapuló á brák
Statisztikai té rké pek
Kartogram Kartodiagram
Vonaldiagram Pontté rké p Oszlopdiagram Kö rdiagramok Egyé b diagramok
6.1. ábra
6.2.1. Koordináta-rendszeren alapuló diagramok A statisztikai ábrák többsége a koordináta-rendszeren épül fel. Szerkesztésük a függvények ábrázolásának megfelelıen történik. Kiinduló rajzát a 6.2. ábra mutatja be. A vízszintes (x-) tengely és a függıleges (y-) tengely metszıpontjában áll a 0 érték, amelytıl jobbra és felfelé a pozitív, balra és lefelé a negatív értékek foglalnak helyet. A gyakorlatban az ábrázolásra általában az y- és x-tengely pozitív szektorait használják fel, a negatív szektorok felhasználására ritkábban kerül sor.
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA A koordináta-rendszer alapsémája
79
6.2. ábra A koordináta-rendszer alapján egyrészt a vonal-, másrészt oszlopdiagramok szerkeszthetık.
6.2.1.1. Vonaldiagramok A vonaldiagramok szerkesztése minden esetben statisztikai sorokból, fıként pedig idısorokból történik. Ez utóbbi esetben az x-tengelyen szerepelnek az idıegységek, az ytengelyen pedig a hozzá tartozó értékek. A sor minden egyes tagjánál meghatározzuk az xés az y-tengely megfelelı metszéspontját. Ezeknek a pontoknak vonallal való összekötésével jutunk el a vonaldiagramhoz. A szerkesztés bemutatására induljunk ki egy egyszerősített, dinamikus sorokból álló táblázat adataiból. (6.7. táblázat) A behozatali és kiviteli forgalom alakulása 1995. március-december hónapokban Hónap
Behozatal
Kivitel (milliárd Ft)
március április május június július augusztus szeptember október november december
179,9 161,3 168,8 167,0 155,1 151,4 168,7 177,0 186,6 180,1
Forrás: Statisztikai Havi Közlemények 96/5. 3. old.
6.7. táblázat
121,9 111,6 132,9 133,9 139,3 137,5 159,0 167,0 171,6 161,1
80
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA Ábrázoljuk a tábla adatait vonaldiagrammal (6.3. ábra) A behozatali és kiviteli forgalom alakulása 1995. március-december hónapokban 200 180
Behozatal
160 140
Kivitel
120 100 80
milliárd Ft
60 40 20 0 március
április
május
junius
julius
augusztus
szeptember október november
december
6.3. ábra A vonaldiagramok szerkesztésénél a következı irányelveket kell figyelembe venni: - Az idı- és az értékegységek meghatározását (távolságát) egymással arányosan kell megszabni. (Ez alól kivétel a logaritmus-léptékkel készült vonaldiagram, amelyet a gyakorlati foglalkozás mutat be.) Ellenkezı esetben a valóságtól távol esı, torzított képet kaphatunk. - Gyakran elıfordul, hogy a 0-érték és a táblázat többi, ábrázolandó adatai között igen nagy a térköz. Ilyen esetben a következı ábramegszakítást alkalmazzuk:
100 90 80 70
0 - Egy-egy diagramban általában nem csak egy, hanem több sokaság idıbeni változása is bemutatásra kerül. Ilyen esetben az egyes vonalakat - feltéve, hogy színes ábrázolás nem lehetséges - megkülönböztetı jelzésekkel kell ellátnunk (egyenes, pontozott stb. vonal).
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA 81 - Fontos szabály, hogy egy ábrában csak annyi egységet szerepeltethetünk, amennyi még nem teszi nehézzé az áttekintést. - A vonaldiagramok egyaránt készülhetnek abszolút számokból és viszonyszámokból.
6.2.1.2. Oszlopdiagramok Túlmenıen a vonaldiagramokon az eredmények bemutatásánál alkalmazott grafikonok egyik legegyszerőbb és legelterjedtebb fajtája az oszlopdiagram. Szerkesztése - a vonaldiagraméhoz hasonlóan - ugyancsak a koordináta-rendszeren alapul, s lényegében ugyanúgy is történik azzal a különbséggel, hogy az x- és az y-tengely meghatározott pontjaira húzott merılegesek metszéspontjait nem kötik össze vonallal, hanem az x-tengelyre a megfelelı értékek és a metszési pontok között egyenlı vastagságú oszlopok kerülnek. Ebbıl következik, hogy mindazok a sorok, amelyeket ezideig vonaldiagrammal ábrázoltunk, oszlopábrában is kivitelezhetık. Hasonlóan a vonaldiagramhoz, oszlopábrákat használhatunk több jelenség egy, vagy ugyanazon jelenség több idıszakra vonatkozó adatainak egyidejő ábrázolásához is. Ez esetben a különbözı idıszakra, vagy más ismérvre vonatkozó oszlopokat közvetlenül egymás mellé állítjuk. Példaként vegyük ismét a 6.6. táblázat adatait. (6.4. ábra). A behozatali és kiviteli forgalom alakulása 1995. március-december hónapokban (md Ft) 200 179,9 161,3
168,8
167
160 121,9 120
132,9 133,9
155,1 151,4 139,3 137,5
168,7 159
177 167
186,6 180,1 171,6 161,1
111,6
80 40
Behozatal
december
november
október
szeptember
augusztus
julius
junius
május
április
Md Ft
március
0
Kivitel
6.4. ábra Az oszlopok egymás mellett szerepeltetésének is elıfeltétele az, hogy az ábráknak áttekinthetınek kell maradnia, tehát csak korlátozott számban szerepeltethetünk oszlopokat. Az oszlopok egymás mellé helyezésének különbözı más technikai megoldása is lehetséges.
82 6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA Ennek egyik tipikus példája az ún. korfa, amelynek y-tengelyén a népesség évenkénti kormegoszlása, míg kétoldalt az x-tengelyen a lakosság száma nemenként szerepel. Ilyen esetekben szalagdiagramokról beszélünk. Mind az oszlop-, mind a szalagdiagramok alkalmasak arra, hogy szemléltessék a sokaság megoszlását. Erre két lehetıség van: a) az egyes oszlopokat (szalagokat) a tényleges arányuknak (nagyságuknak) megfelelıen szerepeltetjük; b) az egyes oszlopokat (szalagokat) azonos nagyságban felosztjuk a sokaság megoszlásának megfelelıen. Formailag az oszlopdiagramok körébe tartozik, de tartalmilag mégis eltérı - és a statisztikai elemzésben alapvetı fontosságú - a hisztogram. Ez az ábratípus kifejezetten osztályközös gyakorisági sorok ábrázolására szolgál. Általában koordináta-rendszerben helyezkedik el hézagmentesen egymás mellett lévı oszlopok formájában, ahol az x-tengelyen tüntetjük fel az osztályközöket, az y-tengelyen pedig a hozzájuk tartozó gyakoriságokat. Fontos szabály azonban, hogy nem az osztályközökhöz tartozó oszlopok magassága, hanem azok területe arányos a megfelelı gyakoriságokkal (ennek nyilván csak akkor van jelentısége, ha az osztályközök nem azonos terjedelmőek.) Példaként lássuk az 5.3. táblázat adataiból készült hisztogramot: Egy gyümölcsfajta egyes piaci árainak elıfordulási gyakorisága N város piacán egy meghatározott idıpontban
Elıfordulások száma 50 42 40 30 18
20 10
14 5
7
12
8
8
6
0
Ár (Ft)
6.5. ábra
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA
83
6.2.2. Kördiagramok Sokrétően használható fel a sokaság megoszlásának szemléltetésére a kördiagram, amelynek egyes cikkelyei a sokaság megfelelı részarányait jelzik. A kördiagramot általában a sokaság százalékosan kiszámított részadatai alapján rajzolják meg oly módon, hogy a kör kerületének 360 fokát 100 %-kal veszik egyenlınek, azaz 1 % = 3,6 fok. (Példa a 6.6. ábrában). A keresık megoszlása nemzetgazdasági ágazatok szerint, 1990-ben
Egyéb ágazatok 25%
Ipar 31%
Vizgazdálkodás 2% Kereskedelem 11%
Épitıipar 7% Mezıgazdaság 15%
Közlekedés, posta 9%
6.6. ábra A kördiagramokkal nem csak a sokaságok (pl.: egyes évek) százalékos megoszlása mutatható be, hanem érzékeltethetı a sokaságok nagyságbeli különbsége is. Ilyen esetekben az egyes sokaságok arányainak megfelelı nagyságú köröket vesznek alapul.
6.2.3. Statisztikai térképek A területi megoszlás szemléltetésére statisztikai térképeket használunk. Ezeknek sokféle fajtája közül legelterjedtebb a kartogram. Szerkesztése hasonló a földrajzi helyvízrajzi térképekéhez, ahol a zöldtıl a barna színig, a színárnyalatokat (vagy az árnyékolást, ha színes készítésére nincs lehetıség) az egyes területegységeknek az összeshez képest mutatkozó aránya vagy intenzitása határozza meg. (6.7. ábra)
84
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA
6.7. ábra Ez az ábrázolás egydimenziós, mert csak egyféle ismérv szempontjából történı megoszlást mutat be. A grafikus ábrázolás ezen túlmenıen lehetıvé teszi a több dimenziós megoszlás bemutatását is, az ún. kartodiagramokkal. A kiindulás ez esetben ugyancsak a kartogram. Ezen túlmenıen azonban az egyes, egymástól elhatárolt (és különbözı színekkel vagy árnyékolással jelzett) területekre (például az egyes megyék területére) kördiagramokat vagy oszlopdiagramokat helyezünk, amelyek képet adhatnak a területen belüli megoszlásról, illetve a jelenség dinamikájáról is. A kartogramokon és kartodiagramokon kívül említést kell tennünk az ún. ponttérképekrıl is, amelyek elsısorban arra alkalmasak, hogy szemléltetı képet adjanak a vizsgált jelenség területi elhelyezkedésérıl, sőrősödésérıl. A térképen szereplı minden pont meghatározott számú egységet jelent.
6.2.4. Piktogramok Az elért eredmények népszerősítésére, nemzetközi összehasonlításra, vagy vállalati propagandacélokra olyan megoldásokat is alkalmaznak, amelyek az eddig bemutatottaknál még egyszerőbbek és kifejezıbbek, noha pontosságuk csak hozzávetıleges. Ezt a célt szolgálja a piktogram, amely figurális rajzokkal szemlélteti a statisztikai adatokat. A házak számát például kis házzal, a boltok számát kis kirakattal ábrázolják. Mivel a figurális rajz nagyságával (azaz a rajz által behatárolt területtel) az adatok csak hozzávetılegesen pontosak, a megfelelı százalék- vagy abszolút adatokat a rajzok mellett külön fel szokták tüntetni. A piktogrammal történı ábrázolásnak két fajtája ismeretes:
6. A STATISZTIKAI ADATOK KÖZLÉSE ÉS ÁBRÁZOLÁSA 85 - Az idıbeli fejlıdés, vagy a területi (minıségi) különbségek érzékelésére ugyanaz a figurális ábra különbözı nagyságban kerül bemutatásra. - Az idıbeli fejlıdés és a területi különbség szemléltetésére rajzsorozat is bemutatható, ahol több azonos nagyságú figurális ábra kerül egymás mellé. Minden figura meghatározott számú egységet fejez ki.
86
7. Ismérvek kapcsolatának vizsgálata 7.1. Az ismérvek közötti kapcsolat fogalma A statisztikai sokaságok egységei általában nagyon sokféle tulajdonsággal rendelkeznek, tehát sokféle ismérvvel jellemezhetık. Ebben a fejezetben a sokaságokat egyszerre két ismérv alapján fogjuk vizsgálni. Ekkor felvetıdik a következı kérdés: ha egy megfigyelési egységrıl tudjuk, hogy az elsı vizsgált ismérvnek mely ismérvváltozata jellemzı rá, akkor ebbıl következtethetünk-e arra, hogy a második ismérvnek melyik változata jellemzi ugyanezt az egységet. Ezt a kérdést más szavakkal úgy is megfogalmazhatjuk, hogy vajon van-e kapcsolat, összefüggés a két vizsgált ismérv között? Nézzük meg mindjárt egy konkrét példa alapján, hogy mit is értünk két ismérv kapcsolatán! Példa: Egy országban megvizsgáltak 50 nagyvállalatot abból a szempontból, hogy az elmúlt egy év során fizettek-e környezetszennyezési bírságot vagy sem. A vállalatok közül 20 textilipari, 30 pedig élelmiszeripari cég volt. a/ Tételezzük fel, hogy a vizsgálat eredménye a következı volt:
Az 50 cég megoszlása az iparág és a bírságfizetés alapján Iparág Textilipar Élelmiszeripar Összesen
Bírságot fizetett nem fizetett 20 30 20 30
Összesen 20 30 50
7.1. táblázat
Látható, hogy minden textilipari cég fizetett bírságot, míg az élelmiszeripariak közül egyik sem. Az adatok alapján tehát kijelenthetjük, hogy a bírságfizetést befolyásolja az iparági hovatartozás. Ez a befolyásolás oly mértékő, hogy amennyiben egy cégrıl ismert, hogy melyik iparágba tartozik, akkor egyértelmően meg lehet állapítani, hogy fizetett-e bírságot vagy nem. Ezt a fajta összefüggést két ismérv között függvényszerő kapcsolatnak nevezzük. b/ Most tegyük fel, hogy a vizsgálat eredménye mást mutat:
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA
87
Az 50 cég megoszlása az iparág és a bírságfizetés alapján Iparág Textilipar Élelmiszeripar Összesen
fizetett 18 5 23
Bírságot nem fizetett 2 25 27
Összesen 20 30 50
7.2. táblázat
Az a/ esethez hasonlóan látható, hogy most is a textilipari cégek "jártak elıl" a bírságfizetésben, de a kép már kicsit árnyaltabb. Igaz, hogy a textilipari cégek többsége fizetett bírságot, az élelmiszeripariak többsége pedig nem, de a nem fizetık között is volt textilipari cég, s a fizetık között is volt élelmiszeripari. Az iparághoz való tartozás tehát nem határozza meg egyértelmően a bírságfizetést, de befolyásolja azt. Az ilyen összefüggést sztochasztikus kapcsolatnak nevezzük. c/ Végezetül lássuk a következı lehetséges eredményt:
Az 50 cég megoszlása az iparág és a bírságfizetés alapján Iparág Textilipar Élelmiszeripar Összesen
fizetett 16 24 40
Bírságot nem fizetett 4 6 10
Összesen 20 30 50
7.3. táblázat A táblázat azt mutatja, hogy mind a textilipari, mind pedig az élelmiszeripari cégeknek az 80%-a fizetett bírságot, 20%-a pedig nem (így természetesen ez az arány érvényes az egész sokaságra nézve is). Ezért a bírságfizetés szempontjából közömbös, hogy az adott cég melyik iparágba tartozik, tehát az iparági hovatartozás nem befolyásolja a bírságfizetést. Ebben az esetben a két ismérv független egymástól. Az eddigieket összefoglalva és általánosítva a következıket mondhatjuk: Két ismérv között • függvényszerő kapcsolat van, ha a sokaság egységeinek egyik ismérv szerinti hovatartozása egyértelmően meghatározza a másik ismérv szerinti hovatartozást • sztochasztikus kapcsolat van, ha a sokaság egységeinek egyik ismérv szerinti hovatartozása befolyásolja a másik ismérv szerinti hovatartozást • függetlenség van, ha a sokaság egységeinek egyik ismérv szerinti hovatartozása nincs hatással a másik ismérv szerinti hovatartozásra.
88
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA A gyakorlatban a sztochasztikus kapcsolat fordul elı leginkább, a függvényszerő kapcsolat és a függetlenség csak két szélsıséges eset.
Két ismérv kapcsolatát vizsgálva általában minden további nélkül eldönthetı, hogy melyik ismérv hat a másikra, azaz melyik tölti be az "ok", s melyik az "okozat" szerepét. A fenti példában is teljesen nyilvánvaló, hogy az iparági hovatartozás van (lehet) hatással a bírságfizetésre, nem pedig fordítva. Ilyenkor azt az ismérvet, amelyik befolyásol(hat)ja a másikat, független változónak, amelyikre pedig a másik hat(hat), függı változónak nevezzük. Általában az elıbbit szokás X-szel, az utóbbit pedig Y-nal jelölni. Természetesen elıfordulhat, hogy ez az ok-okozati összefüggés egyáltalán nem ilyen egyértelmő. (Például ha 10 éven keresztül megvizsgálják egy gyárban az átlagos termelékenység és az átlagbér alakulását, s mindkettı növekedést mutat, akkor nem egészen egyértelmő, hogy a béremelés hatott-e "serkentıen" a munkások teljesítményére, vagy pedig a teljesítménynövekedést honorálta a vezetıség béremeléssel.) Ilyenkor egyszerően a két ismérv kölcsönhatásáról, együtt-ingadozásáról beszélünk. Fontos megjegyezni még azt is, hogy a statisztikai kapcsolatvizsgálatok során nagyon körültekintıen kell eljárni a vizsgálandó ismérvek kiválasztásakor. Csak olyan ismérvek kapcsolatát elemezzük, amelyek között elképzelhetı értelmes összefüggés, mert különben könnyen elıfordulhat egy látszólagos, de a valóságban nem létezı kapcsolat kimutatása. (Például elıfordulhat, hogy egy osztályban minden jó tanuló kék szemő, a többiek pedig barna szemőek, de hiba lenne ebbıl azt a következtetést levonni, hogy a szemszín hatással van az értelmi képességekre.)
7.2. A kapcsolat fajtái az ismérvek mérési szintje szerint A statisztikai ismérvek négy alapvetı fajtája: a minıségi, a mennyiségi, a területi és az idıbeli ismérvek. Ezen ismérvek ismérvváltozatait a mennyiségi és többnyire az idıbeli ismérvek esetében számokkal, a minıségi és a területi ismérvek esetében pedig verbálisan fejezzük ki. Azonban lehetıség van arra, hogy bármely ismérv változatait számokkal helyettesítsük, azaz kódoljuk. Ilyenkor meg kell vizsgálni azt, hogy az így kialakított kódszámok mely tulajdonságai érvényesek az eredeti ismérvváltozatokra is. Ez alapján az ismérvek négyféle mérési szinten (skálán) mérhetık: . Nominális (névleges) skála: A kódszámok egyezısége vagy különbözısége jelzi az egyes ismérvváltozatok egyezıségét vagy különbözıségét, de ezen túl semmiféle egyéb információt nem hordoznak, velük matematikai mőveletek nem végezhetık. (Például a lakosság nem szerinti csoportosításakor a férfiakat 1-gyel, a nıket 2-vel jelöljük.) Általában a minıségi és a területi ismérvek ezen a skálán mérhetık. . Ordinális (sorrendi) skála: A kódszámok az elıbbieken kívül az ismérvváltozatok sorrendjérıl is felvilágosítást adnak, de velük matematikai mőveletek továbbra sem végezhetık, mert a kódszámok abszolút nagyságának itt sincs jelentısége, csupán az egymáshoz viszonyított sorrendjüknek. (Például a lakosság legmagasabb iskolai végzettség szerinti csoportosításakor a magasabb végzettséget nagyobb kódszámmal jelöljük: 8 általános vagy alatta - 1, szakmunkásképzı - 2, érettségi - 3, diploma - 4.) Ezen a skálán bizonyos minıségi, esetleg területi vagy mennyiségi ismérvek mérhetık.
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA 89 . Intervallum- (különbségi) skála: Itt már a kódszámok sorrendjén túl azok különbségének nagysága is információt hordoz. Ehhez a skálához már valamilyen mértékegység kapcsolódik, s itt matematikai mőveletek is végezhetık, de nem korlátlanul. Ez abból adódik, hogy a skálának nincs természetes 0 pontja, csak megállapodás szerinti, így két értéknek csak a különbsége értelmezhetı, de az aránya nem. (Ilyen például a hımérséklet mérése: az igaz, hogy a 30 °C éppen 15 fokkal több, mint a 15 °C, de értelmetlen lenne azt mondani, hogy ez utóbbi esetben "fele olyan meleg van".) Ezen a skálán mérhetık tipikusan az idıbeli ismérvek, de bizonyos mennyiségi ismérvek is. . Arányskála: Ezen a skálán már a matematikai mőveleteknek széles köre végezhetı, mert természetes 0 pontja van. A mennyiségi ismérvek túlnyomó többsége ezen a skálán mérhetı. (Például jövedelmi adatok, értékesítési adatok, stb.) A nominális és az ordinális skálát együttesen nem metrikus skáláknak, az intervallum- és az arányskálát pedig metrikus skáláknak nevezzük. *** Az ismérvek közötti összefüggés vizsgálatának módszerei eltérıek aszerint, hogy milyen mérési szinten mérhetı ismérvek (változók) közötti kapcsolatról van szó. A 10.1. táblázatban az egyes kapcsolattípusok láthatók.
A kapcsolat fajtái az ismérvek mérési szintje szerint Kapcsolat fajtája Asszociáció Vegyes kapcsolat Korreláció
X ismérv nem metrikus nem metrikus metrikus
Y ismérv nem metrikus metrikus metrikus
7.4. táblázat Megjegyezzük, hogy könyvünkben a korrelációs kapcsolat egyik eseteként kezeljük a rangkorrelációt, amely azonban egy lényeges vonatkozásban eltér a korrelációtól, nevezetesen: rangkorreláció esetén mindkét változó ordinális (tehát nem metrikus) skálán mérhetı. Bármelyik esetrıl legyen is szó a fentiek közül, a kapcsolatvizsgálat során a következı kérdésekre kell választ keresni: 1. Van-e kapcsolat a két ismérv között? 2. Ha van kapcsolat, az milyen szoros? (Egy kapcsolat annál gyengébb, minél közelebb áll a függetlenséghez, s annál szorosabb (erısebb), minél közelebb áll a függvényszerő kapcsolathoz.) 3. Milyen további elemzéseket lehet végezni, milyen egyéb következtetéseket lehet levonni a két ismérv összefüggésére nézve? (Ezt az egyes kapcsolattípusokra külön-külön lehet konkretizálni.)
90
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA A következıkben ezekre a kérdésekre keressük a választ az egyes kapcsolattípusok esetében.
7.2.1. Asszociáció Két nem metrikus változó (általában minıségi vagy területi ismérv) közötti asszociációs kapcsolat vizsgálatakor a sokaságnak a két ismérv szerinti kombinatív osztályozásából indulunk. ki. Ez általánosságban a 7.5. számú kombinációs táblával adható meg.
Két ismérv szerinti kombinatív osztályozás X ismérv
Y ismérv változatai
Összesen
változatai
Y1
Y2
.
.
Yj
.
.
Yc
X1
f11
f12
.
.
f1j
.
.
f1c
f1.
X2
f21
f22
.
.
f2j
.
.
f2c
f2.
. . Xi . . Xb
. . fi1 . . fb1
. . fi2 . . fb2
.
.
.
.
. . fij . . fbj
. . fi. . . fb.
Összesen
f.1
f.2
.
.
f.j
N
.
.
.
.
. . fic . . fbc
.
.
f.c
7.5. táblázat Jelölések: N: a sokaság elemszáma fij: tényleges (empirikus) gyakoriságok, melyek a sokaságnak a két ismérv szerinti kombinatív osztályozásából származnak fi.: peremgyakoriságok, melyek csak az X ismérv szerinti osztályozásból származnak f.j: peremgyakoriságok, melyek csak az Y ismérv szerinti osztályozásból származnak b: az X ismérv változatainak száma (i = 1, ... ,b) c: az Y ismérv változatainak száma (j = 1, ... ,c) A vizsgálat következı lépése, hogy meghatározzuk azokat az elméleti (vagy más néven feltételezett) gyakoriságokat (jelölésük: fij*), amelyek akkor jellemeznék a sokaságot, ha az X és az Y ismérv független lenne egymástól. Az elméleti gyakoriságok kiszámítási módja a következı:
f ij* =
f i. ⋅ f . j N
Ezzel a számítási móddal biztosítjuk azt, hogy az egyes ismérvváltozatok szerinti csoportokban olyan gyakoriságok szerepeljenek, melyeknek egymáshoz viszonyított aránya megegyezik az egész sokaságban tapasztalható hasonló arányokkal, vagyis tulajdonképpen az egész sokaságra jellemzı arányokat vetítjük ki a csoportokra.
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA 91 Mivel az elméleti gyakoriságok a függetlenség esetét jellemzik, ezért ha a tényleges gyakoriságok ezekkel megegyeznek, akkor a két ismérv nyilván független egymástól. Minél jelentısebb azonban az eltérés a tényleges és az elméleti gyakoriságok között, annál szorosabb a kapcsolat X és Y között. Ezen alapul az asszociációs kapcsolat mérésének alapjául 2 szolgáló mutató, a χ (khí négyzet): b
c
χ2 = ∑∑
(f
ij
− f ij*
)
2
f ij*
i =1 j =1
A képlet alapján nyilvánvaló, hogy χ ≥ 0 értékeket vehet fel. Abban az esetben, ha: 2 a/ χ = 0 → nincs kapcsolat X és Y között. Látható, hogy ez csakis akkor következik be, ha minden i-re és j-re igaz, hogy fij = fij*. 2 b/ χ > 0 → van kapcsolat X és Y között. 2
2
A χ mutató segítségével tehát megállapítható a kapcsolat léte, de szorosságának meghatározásához további számítások szükségesek. Az eddigiekbıl következik, hogy a kapcso2 lat annál szorosabb, minél nagyobb a χ értéke. Bizonyítható, hogy:
{
}
χ 2 ≤ N ⋅ min{(b − 1), (c − 1)}
ahol min (b − 1), (c − 1) a (b - 1) és a (c - 1) értékek közül a kisebbiket jelenti. 2
Ha a χ -et ehhez a maximális értékhez viszonyítjuk majd gyököt vonunk a hányadosból, akkor az asszociációs kapcsolat szorosságának mérésére alkalmas egyik mutatóhoz jutunk. Ez az ún. Cramer-féle asszociációs együttható:
C=
{
χ2
}
N ⋅ min (b − 1), (c − 1)
A mutató a következı értékeket veheti fel: 0 ≤ C ≤ 1 . Értelmezése: 2 C = 0 → függetlenség (természetesen, hiszen ez akkor lehetséges, ha χ = 0) 2 C = 1 → függvényszerő kapcsolat (ekkor χ egyenlı a saját maximumával) 0 < C < 1 → sztochasztikus kapcsolat Ezen belül a kapcsolatszorosság megállapításához nincsenek merev határértékek, csak a következıket lehet elmondani: C ≈ 0,5 (kb. 0,4 ≤ C ≤ 0,6) → közepesen erıs kapcsolat C << 0,5 (kb. C < 0,4) → gyenge kapcsolat C >> 0,5 (kb. C > 0,6) → szoros kapcsolat Megjegyezzük, hogy a Cramer-féle asszociációs együtthatón kívül a gyakorlatban más mutatókat is alkalmaznak az asszociáció szorosságának mérésére. Ezek közül az egyik legfontosabb a Csuprov-féle asszociációs együttható:
92
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA
T=
χ2
(b − 1) ⋅ (c − 1)
N
, amelyre igaz, hogy 0 ≤ T ≤ 1 , s a C-hez hasonlóan ér-
telmezhetı. Mivel azonban a T-mutató nagysága függ az ismérvváltozatok számától, s az 1et csak a b = c esetben veheti fel, ezért - a jobb értelmezhetıség kedvéért - a C-mutatót részesítjük elınyben. Példa: A 7.1. fejezetben szereplı példában asszociációs kapcsolatról van szó, hiszen két minıségi ismérv összefüggését vizsgáltuk. Térjünk most vissza erre a példára, s tételezzük fel, hogy az ott tárgyalt b/ eset felel meg a valóságnak, azaz:
Az 50 cég megoszlása az iparág és a bírságfizetés alapján Iparág
Bírságot fizetett nem fizetett 18 2 5 25 23 27
Textilipar Élelmiszeripar Összesen
Összesen 20 30 50
7.6. táblázat A táblázatban megtalálhatók a tényleges gyakoriságok (fij) és a peremgyakoriságok (fi. és f.j), így meghatározhatók az ezekhez tartozó elméleti gyakoriságok (fij*):
Az 50 cég megoszlása az iparág és a bírságfizetés alapján Iparág fizetett 9,2 13,8 23
Textilipar Élelmiszeripar Összesen
Bírságot nem fizetett 10,8 16,2 27
Összesen 20 30 50
7.7. táblázat Például: 9,2 =
23 ⋅ 20 50
2
Az adatok alapján kiszámítható a χ mutató:
χ
2
2 2 2 2 18 − 9,2) 2 − 10,8) 5 − 13,8) 25 − 16,2) ( ( ( ( = + + +
9,2
10,8
Eszerint a Cramer-együttható: C = (Itt b=c=2, tehát b - 1 = c - 1 = 1.)
13,8
25,98 = 0,72 50 ⋅ 1
16,2
= 25,98
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA 93 Az iparági hovatartozás és a bírságfizetés között tehát szoros sztochasztikus kapcsolat van. *** Végezetül az asszociáció vizsgálatakor a kapcsolatszorosság megállapításán túl ki kell térni annak elemzésére is, hogy az egyik ismérv egyes változatai a másik ismérv mely változatával (változataival) járnak együtt. Ez könnyen meghatározható a tényleges és az elméleti gyakoriságok páronkénti összehasonlításával. Ha fij>fij*, akkor felülreprezentációról beszélünk, ami azt jelenti, hogy az ezekhez a gyakoriságokhoz tartozó ismérvváltozatok "vonzzák egymást". Ellenkezı esetben, ha fij < fij*, akkor alulreprezentációról van szó, így az érintett ismérvváltozatok "taszítják egymást". Példa: Az elıbbi példára vonatkoztatva mindezt, az alábbi következtetések vonhatók le: Iparág Textilipar Élelmiszeripar Összesen
Bírságot fizetett nem fizetett 18 > 9,2 2 < 10,8 alulreprezentáció felülreprezentáció 5 < 13,8 25 >16,2 alulreprezentáció felülreprezentáció 23 27
Összesen 20 30 50
7.8. táblázat Így tehát megállapítható, hogy a textilipari cégekre inkább az jellemzı, hogy fizettek környezetszennyezési bírságot, míg az élelmiszeripari cégekre inkább az, hogy nem fizettek.
7.2.2. Vegyes kapcsolat Vegyes kapcsolat esetén a független változó (X) általában valamilyen minıségi vagy területi ismérv (nem metrikus változó), a függı változó (Y) pedig mindig mennyiségi ismérv (metrikus változó). A kapcsolatvizsgálat elsı lépéseként csoportosítjuk a sokaságot az X ismérv ismérvváltozatai szerint. Az ezután alkalmazandó elemzési módszer a következı meggondoláson alapul: Amennyiben az X ismérv hatással van az Y alakulására, akkor az X ismérv szerinti csoportokon belüli sokasági elemekhez tartozó Y értékek "hasonlítani" fognak egymásra, míg az egyes csoportok között jelentıs lesz az eltérés. Más szavakkal az X ismérv szerinti csoportok belülrıl homogének, egymás között viszont heterogének lesznek az Y ismérv alapján. Ha azonban nincs összefüggés (vagy nagyon laza a kapcsolat) X és Y között, akkor az Y értékek hasonlóak lesznek egymáshoz a különbözı csoportokba tartozó elemek esetében.
94
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA Egy mennyiségi ismérv értékeinek hasonlóságára illetve különbözıségére a szóródási mutatók alapján következtethetünk: nyilván minél közelebb állnak egymáshoz az ismérvértékek, annál kisebb mértékben térnek el saját számtani átlaguktól is, tehát annál kisebb lesz a szórás. Ezen alapul a vegyes kapcsolat vizsgálatára szolgáló statisztikai elemzési módszer, a szórásnégyzet-felbontás. A módszer lényege, hogy az egész vizsgált sokaság szórásnégyzetét (teljes szórásnégyzet) felbontjuk két részre: az X ismérv szerinti csoportokon belül tapasztalható szórásnégyzetre (belsı szórásnégyzet) és a csoportok közötti szórásnégyzetre (külsı szórásnégyzet).
∑ ∑ (Y M
Nj
ij
A teljes szórásnégyzet (variancia) kiszámítása:
σ2 =
−Y
j =1 i =1
)
2
, ahol:
N
M: az X ismérv szerinti csoportok száma (j = 1, ... ,M) Nj: a j-edik csoportba tartozó sokasági elemek száma (i = 1, ... ,Nj)
M
∑N
N: a sokaság elemszáma
j
j =1
= N
Yij: a j-edik csoport i-edik eleméhez tartozó Y érték Y : az Y ismérvnek az egész sokaságra vonatkozó átlaga, azaz a fıátlag
Y =
M
Nj
∑ ∑Y
ij
j =1 i =1
N
A belsı szórásnégyzet (variancia) kiszámítása:
∑∑( M
σ 2B =
Nj
Yij − Y j
j =1 i =1
N
) ∑N σ M
2
j
=
j =1
N
2 j
, ahol:
Nj Yij ∑ Y j : az Y ismérv átlaga a j-edik csoportban, azaz a részátlag Y j = i =1 Nj
2 σ j : az Y ismérv varianciája a j-edik csoportban σ 2j =
∑ (Y Nj
ij
−Y j
i =1
Nj
)
2
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA 95 (Megjegyezzük, hogy a fıátlag a részátlagok súlyozott számtani átlagaként is meghaM
∑N tározható:
Y=
j =1
N
j
Yj .) M
A külsı szórásnégyzet (variancia) kiszámítása:
σ 2K =
∑N j =1
j
(Y
j
−Y
)
2
N
Az egyes varianciák között a következı összefüggés áll fenn:
σ 2 = σ 2B + σ 2K Ismeretes, hogy a varianciákhoz nem kapcsolódik jelentéstartalom, de a belılük kiszámított szórásokhoz annál inkább. Így tehát: Teljes szórás:
σ = σ2
Megmutatja, hogy az egyes Y értékek átlagosan mennyivel térnek el a fıátlagtól. Belsı szórás:
σ B = σ 2B
Megmutatja, hogy az egyes Y értékek átlagosan mennyivel térnek el a saját részátlaguktól. Külsı szórás:
σ K = σ 2K
Megmutatja, hogy az egyes részátlagok átlagosan mennyivel térnek el a fıátlagtól. (A szórások között az additív összefüggés természetesen nem érvényes!) A szórásnégyzet-felbontás eredményein alapulnak a vegyes kapcsolat létének és szorosságának megállapítására szolgáló mutatók: Variancia-hányados:
H2 =
σ 2K σ 2B = 1 − σ2 σ2
Szóráshányados:
H=
H2 2
Ezekre a mutatókra igaz, hogy 0 ≤ H, H ≤ 1. Az eddig elmondottakból következik, hogy a két ismérv között annál szorosabb a kapcsolat, minél nagyobb a külsı és minél kisebb a belsı szórás. Így tehát a mutatók minél nagyobb értéket vesznek fel, annál szorosabb kapcsolatot jeleznek. 2
H:
H:
Pontos értelmezésük a következı: A mutatót mindig %-ban fejezzük ki. Megmutatja, hogy az X ismérv hány %-át magyarázza az Y ismérv szóródásának. A mutatót együtthatós formában értelmezzük. A kapcsolat szorosságáról ad felvilágosítást:
96
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA
a/ H = 0 → függetlenség Ez csak akkor lehetséges, ha σ 2K = 0 és σ 2B = σ 2 . Vagyis az egyes részátlagok nem térnek el a fıátlagtól, így egymástól sem, tehát az X ismérv szerinti csoportokhoz való tartozás nem befolyásolja Y nagyságát. b/ H = 1 → függvényszerő kapcsolat Ez viszont akkor áll fenn, ha σ 2B = 0 és σ 2K = σ 2 . Azaz az egyes csoportokon belüli Y értékek nem térnek el a saját részátlaguktól, tehát egyenlıek egymással is, így az elemek X ismérv szerinti hovatartozása egyértelmően meghatározza Y nagyságát. c/ 0 < H < 1 → sztochasztikus kapcsolat Értelmezésére ugyanaz érvényes, mint amit a C mutatónál már láttunk, vagyis: H ≈ 0,5 (kb. 0,4 ≤ H ≤ 0,6) → közepesen erıs kapcsolat H << 0,5 (kb. H < 0,4) → gyenge kapcsolat H >> 0,5 (kb. H > 0,6) → szoros kapcsolat Példa: Egy vállalat három munkakörben foglalkoztat fizikai dolgozókat, s ezen dolgozók havi keresetei a következık: Munkakör α β γ
Munkások száma (fı) 5 9 6
Havi keresetek (ezer Ft) 25, 30, 28, 32, 29 23, 24, 28, 25, 25, 22, 29, 24, 27 21, 26, 20, 23, 23, 22 7.9. táblázat
Állapítsuk meg, hogy a munkakör befolyásolja-e a keresetet, vagy másként fogalmazva az egyes munkakörökben dolgozó munkások átlagkeresetei eltérnek-e egymástól! Elsıként a szórásnégyzet-felbontáshoz szükséges átlagokat kell kiszámítani. Részátlagok:
25 + 30 + 28 + 32 + 29 144 = = 28,8 eFt 5 5 23 + 2 ⋅ 24 + 28 + 2 ⋅ 25 + 22 + 29 + 27 227 Yβ = = = 25,2 eFt 9 9 21 + 26 + 20 + 2 ⋅ 23 + 22 135 Yγ = = = 22,5 eFt 6 6 Yα =
Fıátlag:
Y=
5 ⋅ 28,8 + 9 ⋅ 25,2 + 6 ⋅ 22,5 506 = = 25,3 eFt 5+ 9 + 6 20
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA 97 Ezután elvégezzük a szórásnégyzet-felbontást. Legegyszerőbb a külsı szórásnégyzet kiszámítása:
5(28,8 − 25,3) + 9(25,2 − 25,3) + 6(22,5 − 25,3) 2
σ
2 K
=
2
2
5+9 + 6
⇒ σ K = 2,328 eFt
=
108,38 = 5,419 20
A belsı szórásnégyzethez célszerő elıször a csoporton belüli varianciákat meghatározni:
σα 2
2 2 25 − 28,8) +...+(29 − 28,8) ( =
5 (23 − 25,2) +...+(27 − 25,2) 2
=
26,8 = 5,36 5
=
43,56 = 4,84 9
=
21,5 = 3,58 6
2
σ 2β =
9 (21 − 22,5) +...+(22 − 22,5) 2 2
σ γ2 =
6
Így a belsı szórásnégyzet:
σ 2B =
5 ⋅ 5,36 + 9 ⋅ 4,84 + 6 ⋅ 3,58 91,84 = = 4,592 ⇒ σ B = 2,143 eFt 5+ 9 + 6 20
A teljes szórásnégyzet legegyszerőbben a varianciák közötti összefüggés felhasználásával számítható ki: σ 2 = 5,419 + 4,592 = 10,011 ⇒ σ = 3,164 eFt Természetesen alkalmazhatjuk itt is az eredeti képletet a számításhoz, s ekkor:
σ
2
2 2 2 25 − 25,3) + (30 − 25,3) +...+(22 − 25,3) ( =
20
= 10,011
A kapcsolatszorossági mutatók tehát:
H2 =
5,419 4,592 = 1− = 0,541 = 54,1% 10,011 10,011
H = 0,541 = 0,735 Tehát a H mutató alapján a munkakör és a keresetek között szoros sztochasztikus kap2 csolat van, s a H mutató szerint a munkakör a keresetek szóródásának 54,1%-át magyarázza. (A keresetek szóródásának (eltérésének) fennmaradó 45,9%-át más, általunk nem vizsgált tényezık magyarázzák.) Másként fogalmazva azt mondhatjuk, hogy az egyes munkakörökben dolgozók átlagkeresetei eltérnek egymástól: általában az α munkakörben dolgozók keresnek a legtöbbet, s a γ munkakörben dolgozók a legkevesebbet. A teljesség kedvéért nézzük meg, hogy hogyan értelmezhetık az egyes szórások: σ = 3,164 eFt : Az egyes munkások keresetei átlagosan 3,164 eFt-tal térnek el az együttes átlagkeresettıl (azaz a 25,3 eFt-tól).
98
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA σK = 2,382 eFt : Az egyes munkakörökben dolgozók átlagkeresetei átlagosan 2,382 eFt-tal térnek el az együttes átlagkeresettıl (azaz a 25,3 eFt-tól). σB = 2,143 eFt : Az egyes munkások keresetei átlagosan 2,143 eFt-tal térnek el a saját csoportjukban érvényes átlagkeresettıl (az egész sokaságra vonatkozóan).
7.2.3. Korreláció A korrelációszámítás során két vagy több mennyiségi ismérv kapcsolatát vizsgáljuk.1 Az eddigiekhez hasonlóan itt is megállapítható a kapcsolat léte és szorossága, de most többféle - különbözı bonyolultságú és pontosságú - számítási módszer áll ehhez rendelkezésre. Ezen kívül korrelációs kapcsolat esetén - mivel mennyiségi ismérvekrıl van szó meghatározható az is, hogy az egyik ismérv növekedésével a másik ismérvnek általában a növekedése vagy a csökkenése jár-e együtt. Ezt fejezi ki a kapcsolat iránya, mely a két ismérv azonos irányú változása esetén pozitív, ellentétes irányú változása esetén pedig negatív. Korábban már volt szó a rangkorrelációs kapcsolatról, melynek sajátossága, hogy két ordinális mérési szintő változó összefüggését vizsgálja. Elsıként ezt mutatjuk be, majd pedig rátérünk a metrikus változók közötti korrelációs kapcsolat elemzési módszereinek tárgyalására.
7.2.3.1. Rangkorreláció A rangkorrelációnak elsısorban olyan összefüggés-vizsgálatoknál van jelentısége, ahol az egyes tényezık nem, vagy csak nehezen számszerősíthetık, de arra mód van, hogy a tényezık egyes tagjait fontossági sorrendbe állítsák, rangsorolják. Természetesen a rangsorolás elvégezhetı oly esetben is, ha a tényezık számszerősíthetık. Ilyenkor a rangsor az egyes tagok értékének nagyságrendbe állításával alakítható ki. A rangkorreláció-számítás menete a következı: a) Felállítjuk egymás melletti oszlopokba a vizsgált két jelenség adatait (X és Y). b) Meghatározzuk mindkét oszlop adatainak rangsorát (DX és DY). c) Soronként meghatározzuk ezek különbségét (DX - DY = D). d) Az eltérést (D) négyzetre emeljük (D2). e) A kapcsolat erısségét és irányát a Spearman-féle rangkorrelációs együttható mutatja: N
ρ =1−
6∑ Di2 i =1 3
N −N
A mutató - 1 ≤ ρ ≤ 1 határok között mozog, s a következı módon értelmezhetı: 1
A többváltozós korrelációszámítással jegyzetünk 12.2. fejezete foglalkozik.
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA a/ A kapcsolat iránya megegyezik a ρ elıjelével:
99
ρ < 0 → negatív irányú kapcsolat ρ > 0 → pozitív irányú kapcsolat b/ A kapcsolat szorossága a ρ abszolút értékétıl függ: ρ = 0 → függetlenség ρ = 1 → függvényszerő kapcsolat 0 < ρ < 1 → sztochasztikus kapcsolat Ezen belül: ρ ≈ 0,5 (kb. 0,4 ≤ ρ ≤ 0,6) → közepesen erıs kapcsolat ρ << 0,5 (kb. ρ < 0,4) → gyenge kapcsolat ρ >> 0,5 (kb. ρ > 0,6) → szoros kapcsolat Példa:
Tíz cég eladási forgalmának és reklámköltségének alakulása Eladási forgalom Reklámköltség (md Ft) X (m Ft) Y 1,3 18 1,5 19 1,4 21 1,8 23 1,9 25 2,2 27 2,5 30 2,4 34 2,8 39 3,2 44
Cégek 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
2
DX
DY
D
D
1 3 2 4 5 6 8 7 9 10
1 2 3 4 5 6 7 8 9 10
0 1 -1 0 0 0 1 -1 0 0
0 1 1 0 0 0 1 1 0 0
7.10. táblázat (Annak megállapítása, hogy melyik a függı (Y) és a független (X) változó, ebben a példában nem egészen egyértelmő, de a korrelációszámítás esetén megelégedhetünk azzal, hogy a két ismérv között kölcsönhatás van, s bármelyiket jelölhetjük X-szel vagy Y-nal.) Számítások:
∑D
2
6 ⋅ ∑ D 2 = 24
=4
N = 10
N 3 = 1000
N 3 − N = 990
100
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA N
ρ = 1−
6∑ Di2 i =1 3
N −N
= 1−
24 = 0,976 990
Tehát a cégek eladási forgalma és reklámköltsége között igen szoros pozitív irányú sztochasztikus kapcsolat van (vagyis a két rangsor majdnem megegyezik egymással), azaz a nagyobb forgalom nagyobb reklámköltséggel jár együtt, a kisebb forgalom pedig kisebbel.
7.2.3.2. Elıjel-korreláció A legegyszerőbb eljárás két metrikus változó kapcsolatának elemzésére az elıjelkorreláció. Ez a számítás az egyes tényezık átlagának s az adatsorok egyes tagjai átlagtól való eltérésének figyelembevételén alapul. Az elıjel-korrelációs számítás a jelenségek térbeli és idıbeli összefüggésének mérésére egyaránt használható. Alkalmazását az elızı fejezet példája alapján mutatjuk be. Példa:
Tíz cég eladási forgalmának és reklámköltségének alakulása Cégek 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Összesen Átlag
Eladási forgalom (md Ft) X 1,3 1,5 1,4 1,8 2,0 2,1 2,5 2,4 2,8 3,2 21,0 2,1
Reklámköltség (m Ft) Y 18 19 21 23 25 27 30 34 39 44 280 28
Az átlagtól való eltérés X Y + + + + + + + + +
Az elıjelek szorzata + + + + + + + + +
7.11. táblázat
A szorzat oszlopban a pozitív elıjelek száma (p) = 9 negatív elıjelek száma (q) = 1 A kapcsolat erıssége és iránya: Kr =
p − q 9 −1 = = 0,8 p + q 9 +1
A mutató - 1 ≤ Kr ≤ 1 értékeket vehet fel, s értelmezése teljesen megegyezik a rangkorrelációs együttható értelmezésével.
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA 101 Eszerint tehát ismét szoros pozitív irányú sztochasztikus kapcsolat állapítható meg az eladási forgalom és a reklámköltségek alakulása között, vagyis az átlagnál nagyobb forgalomhoz általában az átlagnál nagyobb reklámköltség tartozik, s a kisebbhez kisebb. *** Az elıjel-korrelációs módszer két jelenség összefüggésének vizsgálatára alkalmas. A társadalmi, gazdasági életben azonban - mint azt korábbi fejezeteinkben bemutattuk - számtalan vagy legalábbis igen sok jelenség (hatótényezı) érvényesül. Az elızıkben bemutatott példából is kitőnnek az egyszerő módszerek felhasználásának korlátai. Az a lehetıség, hogy a számítás minden esetben csupán két jelenségre vonatkozóan végezhetı el, nem jelenti azt, hogy külön-külön nem vizsgálható meg valamennyi ható-, illetve általunk feltételezetten ható tényezı kapcsolata. Erre egyenesen szükség is van. Így az elıbbi példa esetében elképzelhetı lenne az eladási forgalom összefüggését megvizsgálni például a cégek mérlegfıösszegével vagy termelékenységi mutatóival, illetve a reklámköltségek kapcsolatát elemezni például szintén a cégek mérlegfıösszegével vagy éppen mőködési idejével.
7.2.3.3. Lineáris korreláció és regresszió A mennyiségi ismérvek közötti összefüggés vizsgálatakor lehetıség van az összetartozó X-Y értékpárok koordináta-rendszerben történı ábrázolására. Ez az ábrázolás egy új, a korrelációszámítás eddigi eredményein túlmutató elemzési módszernek, a regressziószámításnak a kiindulópontja. A regressziószámítás lényege, hogy két mennyiségi ismérv összefüggését egy függvény segítségével írja le. Az X-Y értékpárok koordináta-rendszerben megjelenı ábrája egy pontdiagram. Ennek "alakja", azaz a pontok elhelyezkedése árulkodik arról, hogy az X és Y ismérvek közötti összefüggést lehet-e közelíteni egy analitikus függvénnyel, s ha igen, akkor milyennel. Természetesen a pontdiagramra leginkább illeszkedı függvénytípust célszerő választani, de hogy pontosan melyik is ez, azt nem mindig egyszerő eldönteni.
102 7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA A leggyakrabban alkalmazott görbetípusok, illetve közelítı függvények a következık:
A közelítı függvénytípus
A közelítı függvénytípus
megnevezése
egyenlete
lineáris
Y = A + BX
másodfokú parabola
Y = A + BX + CX 2
hiperbola (1)
Y=
hiperbola (2)
Y = A+
hatvány
Y = AX B
féllogaritmus
Y = A + B log X
exponenciális
Y = AB X
logisztikus
Y=
1 A + BX B X
k 1 + e a +bx
Jelmagyarázat: Y : függı változó (a jelenségre vonatkozó adat számértéke) X : független változó (a jelenséget meghatározó vagy lényegesen befolyásoló tényezık adata) A, B, c, k : paraméterek, ahol k = a telítettségi színvonalat kifejezı paraméter e : 2,718281... a természetes logaritmus alapszáma Az igen sok közelítı függvénytípus láttán jogos kérdés, mikor melyiket célszerő felhasználni. Erre vonatkozóan a következıket mondhatjuk: Nagyon mélyrehatóan ismerni kell a vizsgált jelenség természetét, és ennek alapján dönthetı el a megközelítésre felhasznált görbe típusa. Általában elvként csak az szögezhetı le, hogy az a görbetípus a legmegfelelıbb, amely a legkisebb mértékben tér el a valós adatsortól. Nagy segítséget nyújt, ha a vizsgálandó anyagot a számolás elkezdése elıtt grafikonon ábrázoljuk. Így - kis gyakorlattal - szemmérték alapján eldönthetjük azt, hogy milyen görbe az, amely a legmegfelelıbb megközelítést adja. Az eddig leírt szempontok tisztán formális meggondolások alapján választanak a megfelelı függvénytípusok közül. Amennyiben egyéb támpontunk van - közgazdasági témáról lévén szó - valamilyen közgazdasági törvény vagy egyéb meggondolás alapján tudunk az
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA 103 összefüggés jellegérıl képet nyerni, akkor a grafikus módszer csak ellenır-zésre szolgálhat. Tekintettel azonban a jó kontroll-lehetıségre, a csekély idıre és fáradságra, még ez esetben is célszerő elvégezni a grafikus vizsgálatot. Könyvünkben az analitikus regressziófüggvények közül csak a legegyszerőbbel, a lineáris regressziófüggvénnyel foglalkozunk. *** Ha az empirikus regressziógüggvényt ábrázoló pontdiagram pontjai közelítıleg egy egyenes mentén helyezkednek el, akkor minden bizonnyal egy lineáris függvény írja le legpontosabban a kapcsolatot. Az Y$ = A + BX függvényt az Y változó X-re vonatkozó lineáris regressziófüggvényének nevezzük. E függvény segítségével becslés adható az egyes X értékekkel együtt elıforduló Y értékek átlagos nagyságára. A lineáris regressziós egyenlet konkrét meghatározása lényegében az A és B regreszsziós paraméterek kiszámítását jelenti. Ehhez az ún. legkisebb négyzetek módszerét hívjuk segítségül, melynek célja, hogy minden konkrét esetben a lehetséges lineáris egyenesek közül annak az egyenletét tudjuk meghatározni, amelyik a leginkább illeszkedik a pontdiagramra, azaz amelyik leginkább közelíti az empirikus adatokat. Ez alapján a következı szélsıérték-számítási probléma adódik:
∑( n
i =1
Yi − Y$i
)
2
→ min.
ahol: n: az Y értékek száma (i = 1,...,n) Yi: az i-edik empirikus Y érték Y$i : a regressziófüggvény által becsült i-edik Y érték
∑ (Y − ( A + BX )) n
Konkretizálva ezt a lineáris esetre:
i
i
2
→ min.
i =1
Ezt megoldva a következı normálegyenleteket kapjuk:
∑Y = A ⋅ n + B ⋅ ∑ X ∑ XY = A ⋅ ∑ X + B ⋅ ∑ X
2
Ha transzformáljuk az adatokat úgy, hogy az alapadatok helyett azok átlagtól vett eltéréseivel számolunk, a normálegyenletek a következıképpen módosulnak:
∑d ∑d
= A⋅n + B⋅∑dX
2 X dY = A ⋅ ∑ d X + B ⋅ ∑ d X ahol: d X = X − X és d Y = Y − Y minden X-re és Y-ra. Y
104
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA Mivel az átlagtól vett eltérések összege 0, a fenti transzformált normálegyenletek közül az elsı megszőnik, a másodikból pedig a következı képlet adódik:
B=
∑d d ∑d X
Y
2 X
Az A paramétert az átlaghelyen lévı összefüggés alapján célszerő meghatározni:
A = Y − BX A regressziós paraméterek a következı módon értelmezhetık: A: Könnyen belátható, hogy ha X = 0, akkor Y$ = A, tehát az A paraméter az X = 0 értékhez tartozó regresszió alapján becsült Y értéket jelenti. Értelmezhetıségét mindig meg kell vizsgálni, hiszen nem biztos, hogy az X minden konkrét esetben felveheti a 0 értéket, s az sem, hogy az A értéke szerepel az Y változó elméletileg lehetséges értékei között. B: Ez a paraméter mindig értelmezhetı. Ha az X változó értéke egy egységgel nı, akkor a regresszió alapján becsült Y érték B egységgel fog változni. Ez a változás csökkenést jelent, ha a B negatív, s növekedést, ha a B pozitív. Így tehát a B paraméter elıjele megmutatja a kapcsolat irányát. Példa: Tíz cég eladási forgalmának és reklámköltségének alakulása Eladási forga- Reklámlom (md Ft) költség X (m Ft) Y 1. 1,3 18 2. 1,5 19 3. 1,4 21 4. 1,8 23 5. 1,9 25 6. 2,2 27 7. 2,5 30 8. 2,4 34 9. 2,8 39 10. 3,2 44 Összesen 21,0 280 Cégek
2
dX
dY
d
- 0,8 - 0,6 - 0,7 - 0,3 - 0,2 0,1 0,4 0,3 0,7 1,1 0,0
- 10 - 9 - 7 - 5 - 3 - 1 2 6 11 16 0
0,64 0,36 0,49 0,09 0,04 0,01 0,16 0,09 0,49 1,21 3,58
X
d
2 Y
dXdY
100 81 49 25 9 1 4 36 21 256 682
8,0 5,4 4,9 1,5 0,6 - 0,1 0,8 1,8 7,7 17,6 48,2
Megjegyzés: 1) A forgalom és a reklámköltség kölcsönhatásban van egymással, így nem teljesen egyértelmő, hogy melyiket tekintjük függı és független változónak. Most a példamegoldás során azt vizsgáljuk, hogy az eladási forgalom (bevétel) növekedése hogyan hatott a reklámköltségek alakulására. 2) A fenti táblázatban található adatsorok egy része a regresszió-számításhoz nem szükséges, de késıbb felhasználjuk majd azokat.
7.12. táblázat
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA Az adatok alapján az ismérvek átlaga:
X =
21 = 2,1 md Ft 10
Y=
105
280 = 28 m Ft 10
A paraméterek kiszámításához szükséges adatokat a fenti táblázat tartalmazza:
B=
48,2 = 13,46 3,58
A regressziós egyenlet:
A = 28 − 13,46 ⋅ 2,1 = −0,266 Y$ = −0,266 + 13,46 X
Az A paraméter nem értelmezhetı, mivel egyrészt a forgalom értéke - hacsak a cég meg nem szőnik - nem lehet 0, másrészt pedig a reklámkiadás összege nem lehet negatív. A B paraméter azt mutatja, hogy ha egy cég forgalmának értéke 1 md Ft-tal nagyobb, mint egy másiké, akkor a regresszió alapján átlagosan 13,46 m Ft-tal többet költ reklámra. *** Ha két ismérv összefüggése lineáris regressziós egyenlettel írható le, akkor a kapcsolatszorosság jellemzésére a kovarianciát, valamint a lineáris korrelációs együtthatót és a determinációs együtthatót alkalmazzuk. Az elızıekben már megismerkedtünk az elıjel-korrelációs együtthatóval, amely szintén két metrikus ismérv közötti kapcsolat szorosságát jellemezte. Ez a mutató azonban csak az átlagtól vett eltérések irányát vette figyelembe. A kovariancia (C) mutatója ezzel szemben már az átlagtól vett eltérések nagyságával is számol, s a következıképpen határozható meg:
C=
∑d
X
dY
n
A mutatószám hátránya, hogy mivel nincs határozott alsó- és felsı korlátja, ezért nehezen értelmezhetı. A kapcsolat szorosságára egyértelmően nem utal, csak annak irányára: ha C = 0 → függetlenség, ha C < 0 → negatív irányú sztochasztikus kapcsolat, ha C > 0 → pozitív irányú sztochasztikus kapcsolat van a két ismérv között. Annak érdekében, hogy a kapcsolat erısségét is meg tudjuk állapítani, a kovariancia mutatóját elosztjuk saját maximumával, s ekkor a lineáris korrelációs együtthatót (r) kapjuk eredményül:
r=
C
σ Xσ Y
A lineáris korrelációs együtthatót gyakran a következı képlettel határozzuk meg:
r=
∑d d ∑d ⋅∑d X
2 X
Y
2 Y
(Ez nem más, mint az elızı képlet n-nel egyszerősített változata.)
106
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA A mutató - 1 ≤ r ≤ 1 közötti értékeket vehet fel, s értelmezése teljesen azonos a korábban tárgyalt korrelációs együtthatók értelmezésével. 2
A determinációs együttható a lineáris korrelációs együttható négyzete (r ), s mindig százalékban fejezzük ki. Megmutatja, hogy a független változó (X) hány százalékban magyarázza a függı változó (Y) szóródását. Példa: Az elızı példát folytatva vizsgáljuk meg a kapcsolat szorosságát a cég forgalmának és reklámköltségének alakulása között! Elıször számítsuk ki a kovarianciából kiindulva a lineáris korrelációs együtthatót és a determinációs együtthatót: A kovariancia: C =
48,2 = 4,82 . A szórások: 10
3,58 ∑ d Y = 682 = 8,258 mFt σX = = = 0,598 mdFt, σ Y = 10 n 10 n 4,82 A lineáris korrelációs együttható: r = = 0,976 0,598 ⋅ 8,258 A determinációs együttható: r 2 = 0,976 2 = 0,952 = 95,2%
∑d
2
2 X
Most alkalmazzuk a másodikként közölt képletet az r-re:
r=
48,2 3,58 ⋅ 682
= 0,975
r 2 = 0,975 2 = 0,951 = 95,1%
Eszerint a cég forgalma és reklámköltségei között nagyon szoros pozitív irányú sztochasztikus kapcsolat van, s a forgalom alakulása 95,2%-ban (95,1%-ban) magyarázza a reklámköltségek szóródását (alakulását). (A kétféle számítási mód eredményei közötti jelentéktelen eltérést a kerekítések okozzák.)
7.2.3.4. Elaszticitás Az elaszticitási (rugalmassági) számítások - a korreláció- és regressziószámításhoz hasonlóan - fontos eszközei a mennyiségi ismérvek közötti térbeli és idıbeli összefüggések és tendenciák vizsgálatának. Az elaszticitási (rugalmassági) számítások arra adnak választ, hogy az egyik mennyiségi ismérv 1%-os változása hány %-os változást idéz elı a másik mennyiségi ismérvben. A rugalmassági mutatók a két ismérv azonos irányú változása esetén pozitív, ellentétes irányú változása esetén pedig negatív elıjelőek lesznek. Ez természetesen megegyezik a két ismérv közötti korrelációs kapcsolat irányával. A mutatóknak nincs abszolút alsó és felsı korlátjuk, s értelmezésük a következı (a rugalmasságot általánosan E-vel jelöljük):
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA 107 a/ E = 1 → egységnyi rugalmasság Az egyik ismérv 1%-os változása a másik ismérv pontosan 1%-os változását idézi elı. b/ E < 1 → enyhe rugalmasság vagy rugalmatlanság Az egyik ismérv 1%-os változása kevesebb mint 1%-os változást idéz elı a másik ismérvben. Minél közelebb áll a mutató 0-hoz (ami a teljes rugalmatlanságot jelzi), annál enyhébb a rugalmasság. c/ E > 1 → rugalmasság Az egyik ismérv 1%-os változása több mint 1%-os változást idéz elı a másik ismérv esetében. A gazdaságstatisztikában ezzel az elemzési eszközzel leggyakrabban azt vizsgálják, hogy a jövedelem illetve az ár változása hogyan hat a kereslet alakulására. A/ A kereslet jövedelemrugalmassága A kereslet jövedelemelaszticitási mutatója arra a kérdésre ad választ, hogy a jövedelem változása (általában növekedése) milyen módosulást idéz elı a lakosság vagy egyes rétegei keresletének, kiadásainak nagyságában. Másként fogalmazva: a jövedelem 1%-os növekedésére az egyes kiadási tételek (áruvásárlásra, szolgáltatásra fordított kiadások), vagyis a kereslet hány százalékos változása következik be. Példa: Két idıszak között az egy fıre jutó jövedelem adott lakossági csoportban (szegmensben) 10 %-kal növekedett. Ezzel egyidıben a vizsgált termék egy fıre jutó fogyasztása 14 %-os emelkedést mutatott. Könnyen megállapítható ennek alapján, hogy egy százalékos jövedelemnövekedés az adott termék fogyasztásának (14/10) 1,4 %-os emelkedését idézte elı. B/ A kereslet árrugalmassága Az értékesítési árak változása és a kereslet, illetve forgalom (fogyasztás) közötti öszszefüggések megállapításához kétféle rugalmassági mutató használható fel: - a kereslet direkt árrugalmassági és - a kereslet kereszt-árrugalmassági mutatója. Mindkét mutatószám egyaránt kiszámítható a kereslet (fogyasztás) forintértékére és természetes mértékegységben kifejezett mennyiségére vonatkozóan. a) A kereslet direkt árrugalmassági mutatója azt fejezi ki, hogy a fogyasztói árak 1%-os változására - egyéb feltételek, illetve tényezık hatását változatlannak véve - a fogyasztás, illetve kereslet hány százalékos változása következett be. A kereslet direkt árrugalmasságának megállapítására jelenleg is Alfred Marshallnak még a múlt század végén ajánlott formuláját alkalmazzák:
108
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA
Ep =
dq d p : q 0 p0
ahol: E p = meghatározott cikk árrugalmassági együtthatója d q = meghatározott cikk keresletváltozásának mértéke q0 = meghatározott cikk kereslete az árváltozás elıtt (q1 - q0) d p = meghatározott cikk árváltozásának mértéke (p1 - p0) p0 = meghatározott cikk ára az árváltozás elıtt Az ár és a kereslet között általában negatív irányú összefüggés áll fenn, vagyis adott cikkbıl a fogyasztói árak csökkenése keresletemelkedést, növekedése pedig keresletcsökkenést idéz elı. Ennek megfelelıen a kereslet direkt árrugalmassági mutatója is többnyire negatív szám.
Példa: Egy termék árának és eladási forgalmának alakulása egy üzletben Idıszak 1990. január 1990. február
Forgalom (db) q 1000 800
Ár (Ft) p 200 220
7.13. táblázat A kereslet árrugalmassági mutatója: E p =
800 − 1000 220 − 200 : = −0,2 / 0,1 = −2 1000 200
Az áru árának 1%-os növekedése 2%-os keresletcsökkenést eredményezett, tehát a kereslet rugalmasan reagált az árváltozásra. b) A kereslet kereszt-árrugalmassági mutatója kifejezi, hogy az x termék árának 1%-os változása y termék keresletének hány százalékos változását eredményezi. Ilyen mutató számításának azért van értelme, mert az egyes cikkek árának módosítása nemcsak a szóban forgó cikk, hanem más áruk (helyettesítı vagy kiegészítı jellegő cikkek) keresletére is kihatással van. A számítás módja hasonló az elızıhöz: x,y
Ep =
dq y dp x : , ahol: qy 0 px 0
E p = a kereslet kereszt-árrugalmassági mutatója
dq y qy0 dp x px0 Példa:
x,y
= y cikk keresletváltozásának mértéke (qy1 - qy0) = y cikk kereslete az árváltozás elıtt = x cikk árváltozásának mértéke (px1 - px0) = az x cikk fogyasztói ára az árváltozás elıtt
7. ISMÉRVEK KAPCSOLATÁNAK VIZSGÁLATA 1. Helyettesítı termékek esete:
109
A vaj árának és a margarin keresletének adatai egy üzletben Idıszak 1990. január 1990. február
Vaj ára (Ft/ csomag) px 80 100
Margarin forgalma (kg) qy 100 140
7.14. táblázat A kereslet kereszt-árrugalmassági mutatója: x,y
E p=
140 − 100 100 − 80 : = 0,4 / 0,25 = 1,6 100 80
A vaj árának 1%-os növekedése a margarin forgalmának 1,6%-os növekedését idézte elı (rugalmas kereslet).
2. Kiegészítı termékek esete: Egy kerékpárüzlet adatai Idıszak 1990. január 1990. február
Kerékpár ára (Ft/db) px 15.000 18.000
Pumpa forgalma (db) qy 100 80
7.15. táblázat A kereszt-árrugalmassági mutató x , y E p =
80 − 100 18.000 − 15.000 : = −0,2 / 0,2 = −1 100 15.000
A kerékpár árának 1%-os növekedése 1%-kal csökkentette a pumpa iránti keresletet.
111
8. A STATISZTIKAI INDEXEK 8.1. Az indexszám fogalma A társadalmi-gazdasági jelenségek idıbeli változását általában a dinamikus viszonyszámok segítségével fejezzük ki. Ez a mutatószám azonban korántsem ad minden esetben megfelelı képet a jelenségek fejlıdésérıl. Gyakran van szükség arra, hogy azonos jellegő, de különbözı mértékegységő sokaságok együttes, átlagos fejlıdési mértékérıl vagy ütemérıl adjunk jellemzést. A mezıgazdaságban az állattenyésztés fejlıdésének mérésére kialakították a "számosállat" fogalmát, amely 500 kg élısúlyt jelentı egység. Ennek segítségével a különbözı tételesen meghatározott - fajta háziállatok száma összeadható. Az ipari termelés és a kereskedelem tevékenységének mérésénél is szükség van ilyen átszámítási eljárásra ahhoz, hogy egy egész ágazat, azon belül,egy-egy csoport (aggregátum) együttes eredményét ki tudjuk fejezni. Mindezek megértéséhez induljunk ki egy példából: Ki kell számítanunk meghatározott tartós fogyasztási cikkek forgalmában jelentkezı változások általánosító mutatószámát egy meghatározott idıszakra vonatkozóan. Ez a forgalom azonban különbözı fajtájú, egymással össze nem mérhetı termékekbıl áll. (8.1. táblázat)
Egyes háztartási villamos gépek és hıtechnikai készülékek kiskereskedelmi eladásának alakulása 1989-ben és 1990-ben Megnevezés Mosógép Centrifuga Hőtıszekrény Porszívó gép Tőzhely (villamos)
Az eladás mennyisége 1989 1990 (ezer db) 268,1 222,5 142,5 112,9 591,4 582,8 207,3 174,4 18,7 14,3
Az 1990.évi eladás az 1989.évi %-ában 83,0 79,2 98,5 84,1 76,5
Forrás: Gazdaság Statisztikai Évkönyv 1990. 330.old. 8.1. táblázat A táblázat adataiból kitőnik, hogy egyet kivéve, valamennyi terméknél a forgalom jelentısen csökkent. A kérdés már most az, hogy a forgalom a háztartási villamos gépek és hıtechnikai készülékek egészére vonatkozóan, vagyis jelen esetben az öt cikket együttesen véve tekintetbe milyen mértékben csökkent. Azt a mutatószámot, amely példánkban a tartós fogyasztási cikkek forgalmának átlagos változását jellemzi - amely, mint láttuk, különbözı fajtájú és minıségő termékekbıl tevıdik össze -, a statisztikai szaknyelv indexnek
112 8. A STATISZTIKAI INDEXEK nevezte el. Pontosabban meghatározva: a közvetlenül nem összesíthetı, de közgazdaságilag egy jelenség keretébe utalható adatok összehasonlító viszonyszámát indexszámnak nevezzük. Mint összehasonlító komplex mutató, egyaránt felhasználható idıbeli és területi öszszehasonlításra. Az indexeket a gyakorlati közgazdasági életben - így a kereskedelmi tevékenység elemzése során is - széles területen alkalmazzák. Anélkül, hogy teljességre törekednénk, a kereskedelmi gyakorlatban a következı kérdések vizsgálatánál használják fel az indexeket az elemzés céljára: - az árak változása egyik fontos értékmérıje a piaci keresletnek s egyúttal a vállalatok üzletpolitikájának is. Az árszínvonalban, árarányokban bekövetkezett változásokat indexekkel érzékeltetjük; - indexekkel mérjük a forgalom - ezen belül az értékbeli és mennyiségi forgalom idıbeli változását; - indexek révén állapítjuk meg, hogy a vizsgálandó vállalat által elért forgalmi eredmények hogyan aránylanak más vállalatokéhoz vagy a szakma átlagos fejlıdéséhez; - indexek révén hasonlítjuk össze az ország egyes területein (megyékben, városokban) elért forgalmat; - indexeket alkalmazunk általában a termelés, a forgalom, a szolgáltatások átlagos változása mértékének és ütemének meghatározására. Az indexszámítást alapvetıen idıbeli változások mérésére és területi összehasonlításra alkalmazzák. Ez azonban nem jelenti azt, hogy más esetekben nem használhatunk fel indexeket. Gyakori például a tervezett és a tényleges termelés vagy forgalom összehasonlítása, s ez ugyancsak indexszámok segítségével történik. Hogy a késıbbi félreértéseket elkerüljük, meg kell jegyeznünk, hogy a gyakorlati életben - sok esetben statisztikai évkönyvekben, tájékoztatókban is - az idıbeli változást kifejezı mutatószámokat - függetlenül attól, hogy azok dinamikus viszonyszámok vagy indexek - győjtınéven indexeknek nevezik. Az indexszámok fogalmának általános meghatározása után ismerkedjünk meg az indexszámítás módjával és problémáival.
8.1.1. Az értékindex Térjünk vissza elızı példánkra (8.1. táblázat). Keresnünk kell egy olyan közös mértékegységet, amelyben mind az öt cikk eladása kifejezhetı. Ez a közös nevezı: az eladott termékek forintban kifejezett értéke. Ezért a különbözı fajtájú, más-más mértékegységő termékek termelésének vagy forgalmának összesítésénél nem a termékek mennyiségét, hanem pénzben kifejezett értékét összegezzük. Ezek az összegek már egynemőek s összeadhatók. A forgalom értékének megállapításához ismernünk kell az egyes cikkek forgalmazott mennyiségét (természetes mértékegységben) és eladási árát. A két adat szorzata adja meg egy-egy cikkre vonatkozóan a keresett értékadatot. Az ily módon minden egyes termékre
8. A STATISZTIKAI INDEXEK 113 megállapított értéket összegezve, két idıszak kereskedelmi forgalma most már összehasonlítható.
Végezzük el a számításokat a következı egyszerősített példán.
Néhány, egy árucsoportba tartozó cikk forgalma 1996. és 1997. május hónapokban 1996 májusában Cikk
eladás fogyasztói ár (db) (Ft/db)
1997 májusában
forgalom (Ft)
eladás (db)
fogyasztói ár (Ft/db)
forgalom (Ft)
A
1000
10
10000
1200
11,0
13200
B
800
5
4000
600
6,0
3600
C
2000
4
8000
4000
4,0
16000
D
700
3
2100
1000
3,5
3500
-
-
24100
-
-
36300
Együtt
8.2. táblázat A forgalom értékében az egy év alatt bekövetkezett változást most már a dinamikus viszonyszámhoz hasonlóan könnyőszerrel megállapíthatjuk. A változás mértéke:
36.300 = 1,50622 = 150,6% 24.100
vagyis a forgalom értéke májusban, az elızı év ugyanezen idıszakához képest 50,6 %-kal növekedett. A bemutatott példa alapján felírhatjuk a számítás általánosítható menetét is, a következı jelölések figyelembevételével: q01 , q02 , q03 stb. = a bázisidıszakban értékesített cikkek mennyiségei; p01 , p02 , p03 stb. = a bázisidıszakban értékesített cikkek egységárai; q11 , q12 , q13 stb. = a beszámolási idıszakban értékesített cikkek mennyiségei; p11 , p12 , p13 stb. = a beszámolási idıszakban értékesített cikkek egységárai; Ennek alapján kapjuk meg az ún. értékindexet (Iv): n
q p + q12 p12 +...+ q1n p1n I v = 11 11 = q 01 p01 + q 02 p02 +...+ q 0n p0n
∑q
1i
p1i
0i
p0i
i =1 n
∑q i =1
114
8. A STATISZTIKAI INDEXEK amelynek rövidített s általánosan használt formája:
Iv =
∑q p ∑q p 1
1
0
0
=
∑v ∑v
1
,
0
ahol a v0 és a v1 a bázis- és tárgyidıszaki értékadatok jelölése. A példa természetesen csak egyszerősített vázlatát mutatja a forgalomnak, ahol valójában sok tízezer cikk kerül értékesítésre, s így a valóságos forgalom kiszámításához valamennyi cikk adataira szükség lenne. E számítás révén nyert indexszámot a statisztikai irodalom az index aggregátformájának nevezi. Ezt a nevét onnan nyerte, hogy számítási képletében több meghatározott árutétel (csoport-aggregát) pénzbeli értékét hasonlítjuk össze. Az értékben való összesítést pedig aggregálásnak is szokás nevezni. Az aggregálás a gyakorlatban általában nem az egyes termékek mennyiségi és egységár-adatainak összeszorzása, ill. ezen szorzatok összeadása útján megy végbe, hanem pl. a kereskedelmi vállalatok számvitele már alapvetıen a termékek bizonyos csoportjára nézve szolgáltat értékadatokat. Ez a körülmény alapvetıen meghatározza, illetve befolyásolja az indexszámítás alkalmazási módját és lehetıségeit.
Gyakran annak ismerete is fontos, hogy egy termékcsoport összértéke hogyan változott Ft-ban kifejezve. Ilyenkor számítjuk ki az értékkülönbséget, mely a tárgy- és bázisidıszaki értékek különbözete:
Kv = ∑ q1 p1 − ∑ q0 p0 = ∑ v1 − ∑ v0 Példánkban látható, hogy a fenti érték 12200 Ft, vagyis ennyivel nıtt a termékcsoport forgalmának összértéke a vizsgált idıszakban.
8.1.2. Az árindex Az árak alakulásának közgazdasági vizsgálata, elemzése igen fontos mind a termelés, mind a forgalom, illetve a fogyasztás szempontjából. A lakosság adott jövedelme mellett a fogyasztási cikkek árának növekedése egyrészt csökkenti az életszínvonalat, másrészt csökkentheti az áruforgalom volumenét. Ezért az árak alakulásával foglalkozó statisztika az életszínvonal-vizsgálatokban és a kereskedelemstatisztikában is jelentıs szerepet tölt be. Az árak alakulásának, színvonalának vizsgálata feltételezi olyan mutatószám kialakítását, amely egymagában fejezi ki valamennyi fogyasztási cikk árában bekövetkezett változásokat. Ezen belül elképzelhetı persze az árszínvonal-változás vizsgálata fıárucsoportonként vagy akár árucsoportonként is. Az árszínvonal-változások jellemzésére, mértékének meghatározására az árindex szolgál. Kiszámítása leggyakrabban úgy történik, hogy mind a bázis, mind a beszámolási idıszakban a beszámolási idıszak mennyiségét
8. A STATISZTIKAI INDEXEK 115 vesszük figyelembe az egyes idıszakok tényleges árain. A számítást az elızı példa alapján mutatjuk be.
I 1p =
1200 ⋅ 11 + 600 ⋅ 6 + 4000 ⋅ 4 + 1000 ⋅ 3,5 36.300 = = 1,0676 = 106,8% 1200 ⋅ 10 + 600 ⋅ 5 + 4000 ⋅ 4 + 1000 ⋅ 3 34.000
Eszerint az árszínvonal egy év alatt 6,8 %-kal növekedett. Az elızıekben ismertetett számítás alapján felírhatjuk az árindex egyszerősített formuláját:
I 1p =
∑q p ∑q p 1
1
1
0
Az értékindexhez hasonlóan az árindex is - szerkezeténél fogva – aggregát-index, amelyben az indexelendı értékek az egyes termékek árai, a súlyok pedig mindkét idıszakban a beszámolási idıszak (tárgyidıszak) termékmennyiségei (ezt jelöli az I jel jobb felsı sarkában található 1-es szám). Az ily módon kiszámított árindex a következı közgazdasági hipotézist tartalmazza: Ha a lakosság a bázisidıszakban is ugyanannyit, ugyanolyan összetételben vásárolt volna, mint a beszámolási idıszakban, mit fizetett volna ki a vásárolt árukért az akkor érvényben volt árakon. Ennek a feltételezett kiadásnak összegét szembeállítva a beszámolási idıszakban ténylegesen eszközölt vásárlások összegével, a különbség feltételezetten megadja, hogy az árváltozások azonos vásárolt mennyiség mellett milyen többletkiadást okoztak a lakosságnak. Ebbıl következik, hogy az árindex számlálójában és nevezıjében szereplı összegek különbsége megadja globálisan az árváltozások okozta többletkiadás vagy megtakarítás összegét, éspedig: - ha az árindex 1-nél (100 %-nál) kisebb, megtakarításról, - ha pedig az árindex 1-nél (100 %-nál) nagyobb, többletkiadásról beszélünk. A megtakarítás vagy többletkiadás összegét megkapjuk, ha a számlálóból kivonjuk a nevezıt, vagyis kiszámítjuk az árhatás-különbséget:
K 1p = ∑ q1 p1 − ∑ q1 p0
Ha az így kapott összeg negatív, akkor megtakarítás van, ha pedig pozitív, akkor többletkiadás. (Példánkban az árnövekedés miatt 2300 Ft-os többletkiadás van.) Az elızıekben utaltunk arra, hogy a bemutatott árindex formula az árszínvonal mérésére legegyszerőbb megoldást tartalmazza. Az árindex aggregát formában azonban másképpen is kiszámítható, éspedig úgy, hogy változatlan súlyként a bázis idıszak mennyisége szerepel. A tárgyidıszaki mennyiségeket felhasználó képletet, elsı alkalmazójáról Paasche-féle, a bázis mennyiségeit felhasználó képletet pedig Laspeyres-féle formulának nevezik. A kétféle index-megoldás között - amennyiben a súlyarányok különböznek természetesen eltérés mutatkozik.
116
8. A STATISZTIKAI INDEXEK Laspeyres-féle formula:
Paasche-féle formula:
I 1p =
∑q p ∑q p 1
1
1
0
I p0 =
∑q ∑q
0
p1
0
p0
Vizsgáljuk meg a különbséget a példánk segítségével!
I 1p = 106,8%
Korábbi számításunk alapján:
Az árindex a Laspeyres-formula alapján:
I p0 =
1000 ⋅ 11 + 800 ⋅ 6 + 2000 ⋅ 4 + 700 ⋅ 3,5 26.250 = = 1,0892 = 108,9% 1000 ⋅ 10 + 800 ⋅ 5 + 2000 ⋅ 4 + 700 ⋅ 3 24.100
A Laspeyres-formula alapján számított index által kimutatott nagyobb árnövekedést az eltérı súlyozás okozta. Az árhatás-különbséget természetesen ezen adatok alapján is meg lehet határozni:
K p0 = ∑ q0 p1 − ∑ q0 p0 Most - az eltérı súlyozás miatt - az elıbbinél egy kicsit kisebb, 2150 Ft-os többletkiadást kapunk. Irving Fisher amerikai statisztikus szerint nehéz lenne eldönteni, hogy az elızıkben említett két indexformula közül melyik a célravezetıbb. Helyettük ezek keresztezett megoldását javasolja. Két másik híres amerikai statisztikus (Marshall és Edgeworth) a bázis és a beszámolási idıszak mennyiségének együttes szerepeltetését tartja helyesnek. Fisher-féle formula:
I pF =
∑q p ⋅ ∑q ∑q p ∑q 1
1
0
p1
1
0
0
p0
=
I 1p ⋅ I p0
Marshall-Edgeworth-féle formula:
I pME =
∑ (q ∑ (q
0
+ q1 ) p1
0
+ q1 ) p 0
Számítsuk ki az árindex a 8.2. tábla adataiból a Fisher- és a Marshall-Edgeworth-formulák alapján is:
I pF = 1,0892 ⋅ 1,0676 = 1,0783 = 107,8%
8. A STATISZTIKAI INDEXEK
I pME = =
117
(1000 + 1200)11 + (800 + 600)6 + (2000 + 4000)4 + (700 + 1000)3,5 = (1000 + 1200)10 + (800 + 600)5 + (2000 + 4000)4 + (700 + 1000)3
62.550 = 1,0766 = 107,7% 58100 .
Vagyis mind a négy formula alkalmazása más eredményt ad, s a keresztezett formulákkal nyert indexek a Laspeyres- és a Paasche-féle indexek közé esnek, hiszen azok átlagai: a Fisher-index az elıbbiek mértani átlaga, a Marshall-Edgewort-index pedig azok számtani átlaga.
8.1.3. A volumenindex Térjünk vissza ismét a 8.2. táblázatban szereplı példánk alapadataihoz, és vizsgáljuk meg még egyszer célkitőzésünket. Rendelkezésünkre áll több termék két év azonos hónapjában forgalmazott mennyisége és szeretnénk tudni azt, hogy milyen mértékben változott meg a cikkek együttes forgalma, vagy másképpen mondva: a forgalom fizikai terjedelme (közhasználatú idegen kifejezéssel élve: volumene). Az értékindex kiszámításánál az egyes cikkekben forgalmazott mennyiséget mind a bázis-, mind a tárgyidıszakban meg kellett szoroznunk a termékek árával, s az ily módon kapott szorzatok összege került összehasonlításra. Mivel azonban a termékek ára hónapról hónapra változhat - sıt a cikkek egy részénél hónapon belül is -, az értékindex nemcsak a forgalom volumenének, hanem az árak változásának eredményét, hatását is tükrözi. Magától értetıdik, hogy ha megváltoztatjuk bármely idıszakban egy-egy termék árát, az értékindex különbözı eredményeket fog felmutatni, még akkor is, ha (ad abszurdum) a forgalom mennyisége az egyes termékekbıl mindkét idıszakban ugyanaz maradt volna. Ha tehát kizárólag a forgalom volumenének változását kívánjuk vizsgálni, ki kell kapcsolnunk, mint zavaró tényezıt, az árak változását. Ezért, amikor az értékesített termékek mennyiségét pénzértékben fejezzük ki, olyan árakat kell alapul vennünk, amelyek nem befolyásolhatják magát az indexszámot. Ez pedig csak úgy lehetséges, ha a forgalom mennyiségének számbavételét változatlan árakon hajtjuk végre, vagyis az átlagos fejlıdést kifejezı indexet azon feltevés mellett számítjuk ki, hogy az árak a vizsgált idıszak folyamán nem változtak. Abban az esetben, ha a változatlan áron történt számbavétel mellett a forgalom értéke a bázis- és beszámolási idıszakban különbözı lesz, akkor ez a különbség kizárólag a termékmennyiségek változásából adódhat. A változatlan árakon számított indexet a statisztikai gyakorlatban: volumenindexnek nevezzük. Korántsem egyszerő problémát jelent annak eldöntése, hogy az indexszámításhoz milyen idıszakban, illetve idıpontban érvényes árakat vegyünk változatlannak. Erre több lehetıség van: vagy a bázis-, vagy a tárgyidıszak árait vesszük, vagy pedig egy harmadik idıszakban érvényes árakat, esetleg a bázis- és beszámolási idıszak átlagárait. A hazai statisztikai gyakorlatban általában a bázis idıszak árait szokták általában figyelembe venni.
118 8. A STATISZTIKAI INDEXEK Ennek megfelelıen - kiindulva a 8.2. táblázat adataiból - a volumenindexet a következı módon számítjuk ki.
I q0 =
1200 ⋅ 10 + 600 ⋅ 5 + 4000 ⋅ 4 + 1000 ⋅ 3 34.000 = = 1,4107 = 141,1% 1000 ⋅ 10 + 800 ⋅ 5 + 2000 ⋅ 4 + 700 ⋅ 3 24.100
Következésképpen a forgalom volumene májusban 41,1 %-kal növekedett az elızı évihez képest. Vagyis a volumen korántsem növekedett olyan mértékben, mint az árbevétel. Ennek oka: a beszámolási idıszakbeli magasabb egységárak. Helyettesítsük be az idézett példa valóságos értékeit a már ismert betőértékekkel és vezessük le a volumenindex képletét:
I q0 =
∑q p ∑q p 1
0
0
0
Látható, hogy itt a bázisidıszaki árakat használtuk fel a volumneindex kiszámításához, tehát bázisidıszaki súlyozású (Laspeyres-féle) indexet kaptunk. Ugyanúgy, ahogy az árindex esetében már bemutattuk, itt is számíthatunk tárgyidıszaki súlyozású (Paasche-féle) indexet, s alkalmazhatjuk a keresztezett formulákat is. Ezek a következık: Paasche-féle volumenindex: I q1 = Fisher-féle volumenindex: I qF =
∑q p ∑q p 1
1
0
1
I q0 ⋅ I q1
Marshall-Edgeworth-féle volumenindex: I qME =
∑q (p ∑q (p 1
0
0
0
+ p1 )
+ p1 )
A különféle súlyozású indexek nyilván eltérı, de többnyire egymáshoz közel álló eredményt adnak, amire az indexek értelmezésekor ill. értékelésekor figyelemmel kell lenni. Számítsuk ki a fenti példa alapján a tárgyidıszaki súlyozású volumenindexet és a keresztezett formulákat is: Paasche:
I q1 =
1200 ⋅ 11 + 600 ⋅ 6 + 4000 ⋅ 4 + 1000 ⋅ 3,5 36.300 = = 1,3829 = 138,3% 1000 ⋅ 11 + 800 ⋅ 6 + 2000 ⋅ 4 + 700 ⋅ 3,5 26.250
Fisher:
I qF = 1,4107 ⋅ 1,3829 = 1,3967 = 139,7% Marshall-Edgeworth:
8. A STATISZTIKAI INDEXEK
I qME = =
1200(10 + 11) + 600(5 + 6) + 4000(4 + 4) + 1000(3 + 3,5) 1000(10 + 11) + 800(5 + 6) + 2000(4 + 4) + 700(3 + 3,5)
119
=
70.300 = 1,3962 = 139,6% 50.350
Végül megjegyezzük, hogy itt is meghatározható az az összeg (Ft-ban), amellyel a mennyiségek megváltozása növelte vagy csökkentette az összértéket. Ez a volumenhatáskülönbség , mely a:
Kq0 = ∑ q1 p0 − ∑ q0 p0 vagy a
Kq1 = ∑ q1 p1 − ∑ q0 p1
formulával számítható. Példánkban: Kq0 = 9900 Ft és Kq1 = 10050 Ft.
8.2. Az indexek közötti összefüggés Mind az értékindex, mind pedig a volumen- és az árindex azonos adatbázison épül fel; két idıszak mennyiségi és áradatain, illetve ezek kombinációin. Az árindex, illetve az érték- és volumenindex között közvetlen számszerő összefüggés áll fenn. Ha a háromféle indexbıl kettınek eredménye ismeretes, úgy azokból a harmadik könnyőszerrel kiszámítható. 1. Az értékindexet megkaphatjuk a volumenindex és árindex szorzatából:
I v = I q0 ⋅ I 1p , hiszen
∑q p ⋅ ∑q p ∑q p ∑q p 1
0
1 1
0
0
1
0
=
∑q ∑q
1
p1
0
p0
Ugyanígy beláthatók a következı egyenlıségek is:
I v = I q1 ⋅ I p0 = I qF ⋅ I pF 2. Ha az értékindexet elosztjuk az árindexszel, megkapjuk a volumenindexet. Ezt a mőveletet a statisztikai gyakorlatban deflálásnak nevezzük.
I q0 =
Iv , hiszen I 1p
∑q p : ∑q p ∑q p ∑q p 1 1
1 1
0
1
0
Hasonlóképpen:
I q1 =
Iv I p0
I qF =
Iv I pF
0
=
∑q ∑q
1
p0
0
p0
120
8. A STATISZTIKAI INDEXEK 3. Ha az értékindexet elosztjuk a volumenindexszel, az árindexet számítottuk ki:
I 1p =
Iv , hiszen I q0
∑q p : ∑q p = ∑q p ∑q p ∑q p ∑q p 1 1
1
0
1 1
0
0
0
1
0
0
Hasonlóképpen:
I p0 =
Iv I q1
I pF =
Iv I qF
Ha abszolút mennyiségekkel számolunk, a forgalom mennyiségének és az áruk fogyasztói árának szorzata megadja a forgalom értékét. Ez az összefüggés - mint látjuk - az indexszámokra is érvényes. Az alapindexek közötti összefüggések adta számítási lehetıségeket a következı két leegyszerősített példával szemléltetjük: a) Ismerjük, hogy a forgalom valamelyik cikkcsoportban 10%-kal növekedett, ugyanakkor az árszínvonal 3%-kal csökkent. Ez esetben arra a kérdésre, hogy ez idıszak alatt hány százalékkal nıtt, vagy csökkent a forgalom volumene, a következıképpen válaszolhatunk:
Iq =
Iv 11 , , azaz = 1134 , = 113,4% Ip 0,97
A vizsgált idıszakban ezek szerint a forgalom volumene 13,4%-kal emelkedett. b) Ezt az összefüggést felhasználhatjuk a vállalati árpolitikai, stratégiai számítások során is. Például: tervezzük azt, hogy egy meghatározott szabadáras termék árát a piac befolyásolása érdekében 5%-kal leszállítjuk. Ennek hatásaként - a piackutatási vizsgálatok eredménye szerint - az értékesített mennyiség (volumen) 15%-kal fog növekedni. Hogyan számíthatjuk ki ennek alapján a várható forgalmat? I v = I q ⋅ I p azaz 0,95 ⋅ 115 , = 1,0925 = 109,25% Tehát a forgalom az elızetes elképzelések megvalósulása esetén 9,25%-kal fog növekedni. Ezt az összefüggést - amely lényegesen leegyszerősíti a számítási mőveleteket - a Központi Statisztikai Hivatal is rendszeresen alkalmazza.
Megjegyezzük még, hogy az elızı fejezetekben meghatározott ár- és volumenhatáskülönbségek esetében is tapasztalhatók összefüggések. Itt az ellentétes súlyozású különbségek összegezésével kaphatjuk meg a teljes értékváltozást Ft-ban, vagyis az értékkülönbséget. Ez képletekkel és a példa adataival a következı:
8. A STATISZTIKAI INDEXEK
121
Kv = K + K = 2150 + 10050 = 12200 Ft, vagy 0 p
1 q
Kv = K 1p + Kq0 = 2300 + 9900 = 12200 Ft.
8.3. Az érték-, ár- és volumenindexek átlagformái A statisztikai elemzés során a gyakorlatban számtalanszor elıfordul, hogy az adatok nem állnak rendelkezésre olyan részletességben, mint ahogy azt az indexek kiszámításának elızıekben bemutatott aggregát formája megköveteli. Gyakran egyes jelenségek változását csak dinamikus viszonyszámok jellemzik, s nincs lehetıségünk arra, hogy megszerezzük azokat az abszolút adatokat, amelyekbıl ezeket a viszonyszámokat kiszámították. Az érték, ár- és volumenindexek kiszámítása ilyen esetekben sem jelenthet megoldhatatlan problémát. Ennek bemutatására - sablon példát alkalmazva - induljunk ki a következı adatokból:
Termék
Mennyiségi egység
A B C Összesen
db l kg -
Az 1996. évi forgalom (Ft) 4 000 6 000 1 600 11 600
Az 1997-ben értékesített menynyiség az elızı év %-ában 120,0 116,7 125,0 -
8.3. táblázat A mutatókból kitőnik, hogy valamennyi termékbıl jelentısen nıtt az értékesített mennyiség. Az ezt jelzı dinamikus viszonyszámokat a statisztikai gyakorlatban egyedi indexeknek nevezzük. Az egyedi indexek - mint késıbb látni fogjuk - persze nemcsak a mennyiségi változásokat jelezhetik. Jelen esetben azonban azokra vonatkoznak, ennélfogva egyedi volumenindexeknek nevezhetjük. Kiszámítása (i-vel jelölve az egyedi indexet):
iq =
q1 q0
Feladatunk: a példa alapján a forgalom volumenindexének meghatározása. Ahhoz, hogy ehhez eljussunk, az egyedi volumenindexeknek valamilyen átlagolását kell elvégeznünk. Nyilvánvaló ugyanis, hogy a volumenindex - amely több jelenség változását jellemzi csakúgy, mint a többi indexek - az egyedi indexek átlaga s értéke ennélfogva a legkisebb és a legnagyobb egyedi index közé esik. Ezzel a megállapítással egyúttal eljutottunk az indexszámítás másik módszeréhez: az indexek átlagformában történı meghatározásához.
8.3.1. Számtani átlagforma Olyan esetekben, amikor az indexet az egyedi indexek átlaga alapján számítjuk ki, átlagindexekrıl beszélünk. Az átlagindexeket minden esetben az aggregátformából vezetjük le.
122
8. A STATISZTIKAI INDEXEK Számtani átlagformát az érték-, ár- és volumenindexeknél is akkor alkalmazhatunk, ha az egyedi indexek - mint átlagolandó értékek - mellett a bázisidıszaki értékadatok (v0) állnak rendelkezésünkre, melyeket súlyokként használunk a számítás során. Ekkor eredményként megkapjuk az értékindexet, valamint a bázisidıszaki súlyozású volumen- és árindexeket. Vizsgáljuk meg a már ismert jelölés alapján, hogy a 8.3. táblázatban milyen adatok szerepelnek: - az 1996. évi forgalom: v 0 = p0 q 0 - az egyes termékek mennyiségének alakulása: i q =
q1 q0
- és keressük a volumenindexet, azaz az
I q0 =
∑q p ∑q p 1
0
0
0
képletnek megfelelı mutatószámot. A rendelkezésre álló adatok alapján könnyőszerrel eljuthatunk a keresett képlethez, ha termékenként külön-külön a bázisidıszak (1996. év) forgalmát megszorozzuk az egyedi volumenindexekkel s a kijött szorzatok összegét elosztjuk a bázisidıszak összforgalmával. Az ily módon szerkesztett átlagindexekben az átlagolandó értékek az egyes egyedi volumenindexek, a súlyszámok pedig a bázisidıszak forgalmi értékei lesznek. Vagyis:
I q0 =
∑v i ∑v
0 q 0
=
∑q
0
p0
∑q
0
q1 q0
p0
=
∑q ∑q
1
p0
0
p0
Ez a volumenindex számtani átlagformája, ami természetesen éppen az aggregátformával megegyezı eredményre vezet. Folytatva elızı példánkat a számadatokat a képletbe behelyettesítve, a következı eredményt kapjuk:
I q0 =
4.000 ⋅ 1,2 + 6.000 ⋅ 1167 , + 1.600 ⋅ 1,25 13800 . = = 118965 , ≈ 119% 4.000 + 6.000 + 1600 . 11600 .
Eszerint tehát a forgalom mennyisége a három termékre nézve átlagosan 19%-kal nıtt 1996-ról 1997-re. Az árindex számtani átlagformájának kiszámításához természetesen ismernünk kell az egyedi árindexeket is. Ezeknek kiszámítása - hasonlóan az egyedi volumenindexekhez úgy történik, hogy cikkenként külön-külön a beszámolási idıszak fogyasztói árait osztjuk a bázisidıszak áraival, vagyis (ip-vel jelölve az egyedi árindexet):
8. A STATISZTIKAI INDEXEK
123
ip =
p1 p0
Egészítsük ki a 8.3. táblázatot az egyedi árindexekkel:
Termék
Az 1996. évi forgalom (Ft)
A B C Összesen
Egyedi volumenindex
Egyedi árindex
p0q0
q1 q0
p1 p0
4 000 6 000 1 600 11 600
1,200 1,167 1,250 -
0,875 0,800 1,000 -
8.4. táblázat Az egyszerőség (könnyebb számítás) kedvéért az egyedi indexeket nem százalékként, hanem együtthatós formában írtuk fel. Az árindexet megkapjuk oly módon, hogy a bázisidıszak forgalmát cikkenként különkülön megszorozzuk az egyedi árindexekkel. A kapott szorzatok összegét elosztjuk a bázisidıszak összes forgalmával. Az eredmény a bázisidıszaki súlyozású árindex lesz. Vezessük le az összefüggést képletszerően:
I p0 =
∑ v0i p ∑v
0
p1
∑q p p = ∑q p 0
0
0
0
0
=
∑q ∑q
0
p1
0
p0
A tényleges adatok alapján:
I p0 =
4000 ⋅ 0,875 + 6000 ⋅ 0,8 + 1600 ⋅ 1 9.900 = = 0,853 = 85,3% 4000 + 6000 + 1600 11.600
Tehát a termékek ára átlagosan 14,7%-kal csökkent a vizsgált idıszakban. Végül számítsuk ki az értékindexet számtani átlagformában. Ehhez szükség van az egyedi értékindexekre (iv), melyek az átlagolandó értékek szerepét fogják betölteni. Súlyként itt is a bázisidıszaki értékadatokat használjuk. Képlettel: Egyedi értékindex: i v =
v1 q1 p1 = v 0 q 0 p0
Az értékindex számtani átlagformában:
124
8. A STATISZTIKAI INDEXEK
Iv =
∑v i ∑v
0
0 v 0
∑q p = ∑q
q1 p1 q 0 p0 = p 0 0
0
∑q ∑q
1
p1
0
p0
A fenti példában ismerjük az egyedi ár- és volumenindexeket. Ezek segítségével meg lehet határozni az egyedi értékindexeket, mivel az egyedi indexek között ugyanolyan összefüggés van, mint a kiinduló adatok között, azaz:
i v = iq ⋅ i p Így a behelyettesítés a következı:
4000 ⋅ 1,2 ⋅ 0,875 + 6000 ⋅ 1167 , ⋅ 0,8 + 1600 ⋅ 1,25 ⋅ 1 = 4000 + 6000 + 1600 11800 . = = 1,017 = 101,7% 11.600 Iv =
Így tehát a termékcsoport forgalmának értéke 1,7%-kal nıtt a vizsgált idıszakban.
8.3.2. Harmonikus átlagforma A kereskedelmi tevékenység statisztikai vizsgálata során elıfordul, hogy nem a bázis-, hanem a beszámolási idıszak forgalma (vagy termelés) és az egyedi ár- és volumenindex adottak. Ilyen esetekben a számításhoz elıbb ismertetett számtani átlag képletek nem alkalmasak. Ezek helyett harmonikus átlagformát kell alkalmaznunk, vagyis olyan átlagindexeket, ahol átlagolandó értékként az egyedi indexek, súlyszámként pedig a beszámolási idıszak értékadatai (v1) szerepelnek. Ekkor megkapjuk az értékindexet, valamint a tárgyidıszaki súlyozású volumen- és árindexeket. Az indexek harmonikus átlagformában történı meghatározásakor induljunk ki ismét elızı példánk adataiból: Egyedi volumenindex Egyedi árindex Az 1997. évi forTermék A B C Összesen
galom Ft-ban
p1q1 4 200 5 600 2 000 11 800
q1 q0
1,2 1,167 1,25 -
p1 p0
0,875 0,8 1,0 -
8.5. táblázat A táblázat adataiból az árindex harmonikus átlagformájának meghatározása úgy történik, hogy a beszámolási idıszak összforgalmát elosztjuk azzal az értékkel, melyet úgy kapunk, hogy a beszámolási idıszak forgalmi adatait cikkenként elosztjuk az egyedi árindexszel. Vagyis:
8. A STATISZTIKAI INDEXEK
I 1p =
125
∑v v ∑i
1
=
1
∑q p q p ∑ p 1
1
1
1
=
∑q p ∑q p 1
1
1
0
1
p
p0 Ez természetesen a tárgyidıszaki súlyozású árindexet adja eredményül. Behelyettesítve tényleges adatokkal:
I 1p =
4200 + 5600 + 2000 11800 = = 0,855 = 85,5% 4200 5600 13800 + + 2000 0,875 0,8
Tehát az árak átlagosan 14,5%-kal csökkentek a vizsgált idıszakban. A volumenindex kiszámítása harmonikus átlagformában teljesen hasonló módon történik, s szintén tárgyidıszaki súlyozású indexet kapunk, vagyis:
I q1 =
∑v v ∑i
1
=
1
∑q p q p ∑ q 1
1
1
1
=
∑q ∑q
1
p1
0
p1
1
q
q0 4200 + 5600 + 2000 11800 Behelyettesítve: I q1 = = = 11919 , = 119,2% 4200 5600 2000 9900 + + 1,2 1167 , 1,25 Eszerint a forgalom mennyisége 19,2%-kal nıtt egy év alatt. Kiszámíthatjuk harmonikus átlagformában az értékindexet is a következı módon:
Iv =
∑v v ∑i
1 1
v
=
∑q p q p ∑qp 1
1
1
1
1
1
=
∑q p ∑q p 1
1
0
0
q 0 p0 A számításainkhoz most is felhasználjuk az egyedi indexek közötti összefüggést, így a behelyettesítés a következı:
Iv =
4200 + 5600 + 2000 11800 = = 1,017 = 101,7% 4200 5600 2000 11600 + + 1,2 ⋅ 0,875 1167 , ⋅ 0,8 1,25 ⋅ 1
Ez alapján a termékcsoport forgalmának értéke a vizsgált idıszakban 1,7%-kal nıtt.
126
8. A STATISZTIKAI INDEXEK
8.4. Az indexsorok fogalma és fajtái Az indexek - hasonlóan a dinamikus viszonyszámokhoz - az idıbeli változást fejezik ki. Ebbıl következik, hogy az indexeket a kereskedelmi tevékenység elemzése során több idıszakra vonatkozóan is kiszámítjuk. Gyakran találkozunk olyan idısorokkal, amelyek például az áruforgalom, vagy a termelés alakulását tíz-tizenöt év távolságában fejezik ki. Ilyen esetekben, amikor az indexeknek összefüggı sorozatát kell megszerkeszteni, indexsorokról beszélünk. Eddigi számításainknál minden esetben csak két idıszakot (bázist és beszámolást) vettünk figyelembe. Ez lényegesen egyszerősítette az alkalmazott számítási módszereket. Az indexsorok szerkesztésénél már több probléma adódik. Aszerint, hogy az indexek mit fejeznek ki, milyen idıszakokat viszonyítanak egymáshoz, s képletükben milyen súlyokat használnak fel, az indexsoroknak többféle fajtáját különböztetjük meg: - Tartalmuk szerint beszélünk érték-, ár- és volumen-indexsorokról; - viszonyítás szempontjából megkülönböztetünk bázis- és láncindexsorokat, míg - a súlyszámok megválasztása tekintetében állandó súlyú és változó súlyú indexsorokat szerkeszthetünk. A 8.1. ábrában szereplı csoportosítás semmi esetre sem jelent merev elhatárolást a különbözı indexsorfajták között. Az érték-, ár- és volumenindexekbıl képzett sorok egyaránt lehetnek bázis-indexsorok, vagy láncindexsorok, aszerint, hogy a forgalom (termelés) értékét, volumenét vagy árszínvonalát a sor legelsı tagjához, mint meghatározott bázishoz, vagy mindig a megelızı taghoz viszonyítjuk. A bázis- és láncindexsorok szerkesztési módja tehát azonos a dinamikus viszonyszámokéval. Függetlenül attól, hogy bázis- vagy láncindexsorokról van szó, megkülönböztetünk állandó súlyú és változó súlyú indexsorokat. Állandó súlyú indexsorokról akkor beszélünk, ha a súlyszámokat az indexsor minden egyes tagjánál azonos idıszakból szerepeltetjük, míg a változó súlyú indexsor egyes tagjainak kiszámításánál mindenkor más idıszak súlyadatát vesszük alapul. Az állandó és változó súlyú indexsor megkülönböztetés az indexek jellegébıl következıen csak volumenindexek és árindexek vonatkozásában képzelhetı el, értékindexeknél nem.
8. A STATISZTIKAI INDEXEK
127 Az indexsorok fajtái
8.1. ábra Könyvünkben csak az egyszerőbb indexsorokra mutatunk be egy-egy példát, melyek a következık: értékindexsor, állandó súlyozású árindexsor és állandó súlyozású volumenindexsor, melyek mindegyike lehet lánc- vagy bázisindexsorok. Példa:
Egy termékcsoport értékesítésének adatai egy üzemben (eFt) Eladott mennyiség 1992 1993 1994 1995 1996
1992
1993
3100 3780 3170 3300 3460
3550 4310 3615 3750 3930
1994 évi árakon 3865 4710 3950 4110 4309
1995
1996
4550 5520 4630 4800 5030
5800 6960 5840 6000 6280
8.6. táblázat Értékindexsor számítása: Az értékindexet valós aggregátumok hányadosaként képezzük, tehát az aggregátumok képzésénél az adott évi mennyiséget ugyanezen év árain vesszük figyelembe. Ilyen aggregátumok a 8.6. táblázat átlójában találhatók, tehát az átló adataiból képezzük az értékindexsort. A módszer hasonló a bázis- és láncviszonyszámsorok számításához: Bázis értékindexsor esetén kiválasztjuk a bázisévet, s ennek értékadatához viszonyítjuk az összes többi év adatát. Így a sor n-edik tagja:
128
8. A STATISZTIKAI INDEXEK
I v( n) =
∑q ∑q
n
pn
b
pb
=
∑v ∑v
n b
ahol a kis b a bázisidıszakra utal.
Legyen most 1993. a bázisév. (Természetesen bármelyik év lehetne a bázisév.) Ekkor a bázis értékindexsor tagjai a következık: Év Iv(n)
1992 3100/4310= = 71,9%
1993 4310/4310= = 100%
1994 3950/4310= = 91,6%
1995 4800/4310= = 111,4%
1996 6280/4310= = 145,7%
Lánc értékindexsor esetén az átló minden adatát az elızı évi adattal osztjuk el. Így a sor n-edik tagja:
I v( n) =
∑q ∑q
n
n −1
pn
=
p n −1
∑v ∑v
n
n −1
Példánkban: Év Iv(n)
1992 -
1993 4310/3100= = 139,0%
1994 3950/4310= = 91,6%
1995 4800/3950= = 121,5%
1996 6280/4800= = 130,8%
Állandó súlyozású árindexsor számítása: Árindex esetén az egymáshoz viszonyított aggregátumokban az árak különbözı idıszakokból származnak, míg a mennyiségek azonos idıszakokból. Ha a mennyiségeket az indexsor minden tagja esetében ugyanabból az évbıl vesszük, akkor állandó súlyozású árindexsort kapunk. Ilyen adatok a 8.6. táblázat soraiban találhatók. Bármelyik évet kiválaszthatjuk a "súlyozás" céljára. Példánkban legyen ez az év 1994. Ez azt jelenti, hogy a táblázat harmadik sorából számítjuk az árindexsorokat, hiszen itt találhatók az 1994. évi mennyiségek különbözı évi árakon. Bázis árindexsor esetén meg kell jelölnünk a bázisévet is, s ennek adatával végigosztani az egész sort. Az így kapott bázis árindexsor n-edik tagjának képlete:
I p( n ) = ahol a kis s az állandó (standard) súlyra utal.
∑q ∑q
s
pn
s
pb
8. A STATISZTIKAI INDEXEK
129
Példánkban legyen a bázisév 1992. Ekkor a sor adatai: Év Ip(n)
1992 3170/3170= = 100%
1993 3615/3170= = 114,0%
1994 3950/3170= = 124,6%
1995 4630/3170= = 146,1%
1996 5840/3170= = 184,2%
Lánc árindexsor esetén a sor minden adatát az elızıvel osztjuk el. Az n-edik tag képlete:
I p( n) =
∑q p ∑q p s
s
n
n −1
Példánkban: Év Ip(n)
1992 -
1993 3615/3170= = 114,0%
1994 3950/3615= = 109,3%
1995 4630/3950= = 117,2%
1996 5840/4630= = 126,1%
Állandó súlyozású volumenindexsor számítása: A számítás menete teljesen hasonló az árindexsoréhoz, csak most természetesen a mennyiségek változnak állandó árak mellett. ilyen adatok a 8.6. táblázat oszlopaiban találhatók. Most is kiválasztjuk azt az évet, ahonnan az állandó súlyokat vesszük. Legyen ez most az 1995. év, tehát a táblázat negyedik oszlopának adataiból képezzük a volumenindexsorokat. Bázis volumenindexsor esetén az n-edik tag képlete: I q ( n ) =
∑q ∑q
n
ps
b
ps
Legyen most a bázisév 1994. Ekkor a sor tagjai: Év Iq(n)
1992 4550/4630= = 98,3%
1993 5520/4630= = 119,2%
1994 4630/4630= = 100%
1995 4800/4630= = 103,7%
1996 5030/4630= = 108,6%
Lánc volumenindexsor esetén a sor minden adatát az elızıvel osztjuk el. Az n-edik tag ekkor: I q ( n ) =
∑q ∑q
n
ps
n −1
ps
.
130 Példánkban: Év Iq(n)
1992 -
8. A STATISZTIKAI INDEXEK
1993 5520/4550= = 121,3%
1994 4630/5520= = 83,9%
1995 4800/4630= = 103,7%
1996 5030/4800= = 104,8%
Megjegyezzük, hogy a statisztikai indexek nemcsak idıbeli összehasonlításra alkalmasak. Ha különbözı földrajzi egységek (pl. országok, megyék, városok, stb.) termékforgalmának értékét, árát, mennyiségét hasonlítjuk egymáshoz - technikailag az idıbeli összehasonlítással analóg módon - , akkor területi indexeket kapunk. Ezekkel könyvünkben részletesebben nem foglalkozunk.
131
9. A STANDARDIZÁLÁS A társadalmi-gazdasági jelenségek általában heterogén összetételőek, mégis a gyakorlatban igen sokszor egy mutatóval - átlaggal vagy intenzitási viszonyszámmal - jellemezzük azokat. Például országos átlaggal (intenzitási mutatóval) fejezzük ki a fıbb demográfiai jellemzıket (1000 lakosra jutó születések és halálozások száma, egy lakosra jutó kiskereskedelmi forgalom, stb.), vagy vállalati átlaggal értékeljük az egy üzletre jutó forgalmat, egy üzemegységre, egy dolgozóra jutó termelési értéket, stb.. A "fıátlagok" azonban "részátlagokból" tevıdnek össze, vagy másképpen fogalmazva az "összetett viszonyszámokat" "részviszonyszámok" alapján kapjuk (például megyénként különbözıek a demográfiai mutatók, vállalaton belül pedig eltérıek az üzletek, üzemegységek átlagai). Ezt a problémát persze vizsgálhatjuk a szóródási mutatók összehasonlításával, ez azonban csak arra ad választ, hogy egy-egy jelenségen belül milyen mértékő az átlagtól (a fıátlagtól) való eltérés. A statisztikai elemzések során azonban gyakran sor kerül a fıátlagok (összetett intenzitási viszonyszámok) területi összehasonlítására (pl. két megye demográfiai vagy kiskereskedelmi átlagos mutatóinak, vagy két vállalat termelékenységének egybevetésére), vagy pedig a ilyen mutatók idıbeli változásának mérésére (pl. a vállalati átlagbér vagy termelékenység idıbeli változásának elemzésére). Ilyen esetekben alkalmazzuk a standardizálást, mint statisztikai elemzési módszert. A standardizálás két fıátlag (vagy összetett intenzitási viszonyszám) térbeli különbözıségének vagy idıbeli változásának okait feltáró eljárás. A következıkben arra keressük a választ, hogy milyen tényezık és milyen mértékben járulnak hozzá ehhez az eltéréshez ill. változáshoz.
9.1. Standardizálás különbségfelbontással Induljunk ki a következı példából: Egy vállalatnak három üzemegysége van, melyeknek adatait a 9.1. táblázat tartalmazza.
Egy vállalat három üzemegységében a fizikai dolgozók termelékenységi és létszámadatai két évre vonatkozóan Üzemek A B C Együtt
Létszám (fı) 1995 1996 85 138 113 110 152 114 350 362
Termelékenység (eFt/fı) 1995 1996 538 540 612 615 695 696 630 612
9.1. táblázat
132
9. STANDARDIZÁLÁS A vizsgált sokaság a vállalat dolgozói, akiket három csoportra bontva (A, B, C üzem) jellemeztünk a termelékenységük alakulásával, vagyis intenzitási viszonyszámokkal. Rendelkezünk egyrészt üzemenkénti termelékenységi mutatókkal, azaz részviszonyszámokkal, másrészt az egész vállalat termelékenységi adataival, vagyis összetett viszonyszámokkal. Ha megfigyeljük az adatokat, látható, hogy 1995-rıl 1996-ra mindhárom üzemben növekedett a termelékenység. Ezt tudva kissé meglepı, hogy a vállalat egészére nézve a termelékenység mégis csökkent. Ez az "ellentmondás" feloldható a standardizálás módszerének alkalmazásával, melynek segítségével ki lehet mutatni az összetett viszonyszám (fıátlag) változásának okait. Egy összetett viszonyszám (fıátlag) idıbeli változását vagy térbeli különbözıségét két tényezı befolyásolja1 : 1.
A részviszonyszámok (részátlagok) változása vagy eltérése.
2.
A sokaság összetételének megváltozása vagy eltérése.
A standardizálás során megvizsgáljuk, hogy az összetett viszonyszám változását a fenti két tényezı milyen mértékben befolyásolja. Elsıként kiszámítjuk az összetett viszonyszámokat az 5.4. fejezetben ismertetett módon a részviszonyszámok átlagaként. Standardizálás esetén az a gyakoribb, hogy az adatok a számtani átlagforma alkalmazását teszik lehetıvé, ezért a képleteket ennek megfelelıen közöljük. Ez természetesen nem zárja ki annak lehetıségét, hogy bizonyos példáknál - ha az adatok olyanok - a harmonikus átlagformát kell alkalmazni. A bázisidıszak összetett viszonyszáma:
∑B v ∑B ∑B v = ∑B
V0 =
0 0 0
A tárgyidıszak összetett viszonyszáma:
V1
1 1 1
ahol:
v0 és v1 : részviszonyszámok B0 és B1 : a sokaság összetételét kifejezı adatok
A változás mértéke a teljes különbség (KT):
K T = V1 − V0
A fenti eltérést okozó elsı tényezı a részviszonyszámok változása. Ennek hatását úgy tudjuk kimutatni, ha eltekintünk a sokaság összetételének megváltozásától, azaz mindkét idıszakban azonos, ún. standard összetétellel (Bs) számolunk. A gyakorlatban általában a 1
A továbbiakban - az egyszerőség kedvéért - csak összetett- és részviszonyszámokról illetve idıbeli változásról beszélünk, de természetesen a leírtak a fı- és részátlagokra illetve a térbeli eltérések vizsgálatára is ugyanúgy érvényesek.
9. STANDARDIZÁLÁS 133 tárgyidıszaki összetételt szokták standard-nek tekinteni (azaz a B1-et), s ezzel súlyozzák a bázisidıszaki részviszonyszámokat is, melynek eredménye a standard összetett viszonyszám lesz:
VS =
∑B v ∑B
1 0 1
Ennek segítségével kiszámítható a részhatás-különbség (KR), amely megmutatja, hogy az összetett viszonyszám változásához milyen mértékben járult hozzá a részviszonyszámok változása:
K R = V1 − VS =
∑B v ∑B
1 1
−
1
∑B v ∑B
1 0 1
A képletbıl látható, hogy a részhatás-különbség valóban csak a részviszonyszámok változásának hatását tartalmazza, hiszen a sokaság összetételére utaló B adatok változatlanok. A második vizsgálandó tényezı a sokaság összetételének megváltozása, melynek hatását az összetételhatás-különbség (KÖ) mutatja. Kiszámításakor a részviszonyszámokat tekintjük standard-nek (vs), hogy változásuk hatását kikapcsoljuk. A gyakorlatban a bázisidıszaki részviszonyszámokat (v0) szokás erre a célra használni, mivel így ugyanazt a standard összetett viszonyszámot kapjuk, mint az elıbb (Vs). Így a mutató a következı lesz:
K Ö = VS − V0 =
∑B v ∑B
1 0
−
1
∑B v ∑B
0 0 0
Látható, hogy ebben a képletben a részviszonyszámok változatlanok (v0), így valóban csak az összetétel változásának hatását kapjuk eredményül. A fenti eljárás neve: standardizálás különbségfelbontással, ahol a kiszámított különbségek között a következı összefüggés áll fenn:
KT = K R + KÖ Térjünk most vissza a példánkhoz, s végezzük el a standardizálást! A V0 és V1 adottak, de vezessük le a számítási módjukat:
85 ⋅ 538 + 113 ⋅ 612 + 152 ⋅ 695 220526 = = 630 eFt/fı 85 + 113 + 152 350 138 ⋅ 540 + 110 ⋅ 615 + 114 ⋅ 696 221514 V1 = = = 612 eFt/fı 138 + 110 + 114 362 V0 =
A teljes különbség tehát: K T = 612 − 630 = −18 eFt/fı A standard összetett viszonyszám:
134
9. STANDARDIZÁLÁS
VS =
138 ⋅ 538 + 110 ⋅ 612 + 114 ⋅ 695 220794 = = 610 eFt/fı 138 + 110 + 114 362
Így a részhatás-különbség: K R = 612 − 610 = 2 eFt/fı Az összetételhatás-különbség: K Ö = 610 − 630 = −20 eFt/fı A különbségek közötti összefüggés: K T = K R + K Ö → -18 = 2 - 20 Most értelmezzük számításunk eredményét! Látható, hogy 1995-rıl 1996-ra a vállalat dolgozóinak termelékenysége 18 eFt/fı-vel csökkent. Ezt két tényezı okozta: Egyrészt a vállalat mindhárom üzemében nıtt a termelékenység, melynek hatására a vállalati termelékenység átlagosan 2 eFt/fı-vel nıtt. Másrészt megváltozott a dolgozók létszámának üzemenkénti összetétele úgy, hogy megnövekedett a legkisebb termelékenységő A üzemben dolgozók aránya a nagyobb termelékenységő B és C üzem dolgozói létszámának rovására. Ez a tény önmagában 20 eFt/fıvel csökkentette vállalati szinten a termelékenységet. *** Végül felhívjuk a figyelmet két fontos tudnivalóra: 1. A részhatás-különbség mindig a legkisebb és a legnagyobb részviszonyszámváltozás közé esik. Példánkban ezek a változások: A üzem: 540 - 538 = 2 eFt/fı B üzem: 615 - 612 = 3 eFt/fı (legnagyobb) C üzem: 696 - 695 = 1 eFt/fı (legkisebb) 3 eFt/fı < KR = 2 eFt/fı < 1 eFt/fı A részhatás-különbség pontosan ki is számítható a fenti különbségek (jelölésük: k = v1 - v0) számtani átlagaként a következı módon:
KR =
∑B v − ∑B v ∑B ∑B 1 1
1 0
1
1
=
∑ B (v − v ) = ∑ B k ∑B ∑B 1
1
0
1
1
1
2. Tudjuk, hogy a súlyozott átlagok nagyságát a súlyok nagysága nem befolyásolja, csak azok egymáshoz viszonyított aránya. Éppen ezért az összetételhatás vizsgálatakor a súlyként szereplı B adatoknak nem az abszolút változása lényeges, hanem az arányaik megváltozása. Ebbıl következik, hogy a B adatok helyett a belılük számított megoszlási viszonyszámok is ugyanúgy felhasználhatók a standardizálás elvégzésére.
9. STANDARDIZÁLÁS Példánkban a létszámarányok a következık: Üzemek A B C Összesen
135
Létszám (%) 1995 1996 24,3 38,1 32,3 30,4 43,4 31,5 100,0 100,0
Az olvasóra bízzuk annak ellenırzését, hogy ezekkel az adatokkal elvégezve a számításokat, az elıbbiekkel azonos eredményre juthatunk.
9.2. Standardizálás indexszámítással A 9.1. fejezetben természetes mértékegységben adtuk meg az összetett viszonyszám változását, illetve a rá ható tényezık nagyságát. Ugyanakkor a gyakorlatban nagyon elterjedt - fıként idıbeli változásra vonatkozó adatsorok esetében - az, hogy a relatív változásokat határozzák meg, azaz a számítások eredményeit százalékban írják fel. Ezt a módszert standardizáláson alapuló indexszámításnak nevezzük.
9.2.1. A fıátlag-index A fıátlag-index megmutatja, hogy hányszorosára, illetve hány százalékkal változott a sokaságra vonatkozó összetett viszonyszám (fıátlag). Az indexben kifejezésre jut mind a részviszonyszámok (részátlagok) változásának hatása, mind pedig a sokaság összetétel-változásának hatása. Képlete:
IF = ahol:
∑B v :∑B v ∑B ∑B 1 1
0 0
1
0
=
V1 V0
B = az alapsokaság csoportonkénti adata vagy megoszlási viszonyszáma v = az egyes csoportokra vonatkozó részátlagok, illetve részviszonyszámok V = fıátlagok, illetve összetett viszonyszámok
A 9.1. fejezet példáját folytatva számítsuk ki a vállalati szintő termelékenységváltozást %-ban: V1 = 612 eFt/fı V0 = 630 eFt/fı
IF =
612 = 0,971 = 97,1% 630
A vállalat dolgozóinak termelékenysége tehát 2,9%-kal csökkent 1995-rıl 1996-ra.
136
9. STANDARDIZÁLÁS
9.2.2. A részátlag-index A részátlag-index megmutatja, hogy az egyes részviszonyszámok (részátlagok) megváltozása a fıátlag-index hány százalékos változását idézte elı. Ebben az indexben tehát nincs benne a sokaság összetétel-változásának hatása, így a képlete a következı lesz:
IR =
∑B v :∑ B v ∑B ∑B 1 1
1 0
1
1
=
V1 , ahol: VS = standard átlag VS
A képlet fenti formáját az indokolja, hogy a részátlag-index számításánál a standard súlyszám (összetétel) a gyakorlatban általában a tárgyidıszak adatsora (területi összehasonlításnál az 1-essel jelölt adatsor). A részátlag-index a példánkban: VS = 610 eFt/fı
IR =
612 = 1,003 = 100,3% 610
Tehát annak hatására, hogy a vállalat mindhárom üzemében nıtt a dolgozók termelékenysége, vállalati szinten a termelékenység átlagosan 0,3%-kal növekedett a vizsgált idıszakban. *** Itt is megjegyezzük, hogy a részátlag-index az egyes részviszonyszámok (részátlagok) százalékos változásai közül a legkisebb és a legnagyobb értékő közé esik. A példánkban: A üzem:
540 = 1,004 = 100,4% 538
B üzem:
615 = 1,005 = 100,5% (legnagyobb) 612
C üzem:
696 = 1,001 = 100,1% (legkisebb) 695
100,5% < IR = 100,3% < 100,1% A részátlagindex pontosan is kiszámítható a fenti részviszonyszám-változások (jelölésük: i = v1 / v0) harmónikus átlagaként:
9. STANDARDIZÁLÁS
IR =
137
∑Bv :∑Bv ∑B ∑B 1 1
1 0
1
1
=
∑Bv ∑Bv
1 1
=
1 0
∑A v ∑Bv v
=
1
0
1 1
∑A v ∑ A:v 1
1
1
1
0
=
∑A A ∑i
1 1
9.2.3. Az összetételhatás-index Az összetételhatás-index megmutatja, hogy a fıátlag-index változásához hány százalékban járult hozzá a sokaság összetételének megváltozása. Most a részviszonyszámok (részátlagok) változásának hatását nem tartalmazza az index, így a képlete:
IÖ =
∑B v :∑B v ∑B ∑B 1 0
0 0
1
0
=
VS V0
Az összetételhatás-index számításánál a gyakorlatban általában a bázisidıszaki (területi összehasonlításnál a 0-val jelölt) részátlagokat ill. részviszonyszámokat tekintjük standard-nek. Példánkban az összetételhatás-index: I Ö =
610 = 0,968 = 96,8% 630
Vagyis az a tény, hogy a dolgozók létszámának üzemek szerinti összetétele eltolódott a legalacsonyabb termelékenységő A üzem javára, azt eredményezte, hogy a vállalati szintő termelékenység 3,2%-kal csökkent a vizsgált idıszakban.
9.2.4. Az indexek közötti összefüggés Írjuk fel ismét egymás mellé az elızıekben bemutatott indexfajtákat a legegyszerőbb módon:
IF =
V1 V0
IR =
V1 VS
IÖ =
VS V0
Jól látható, hogy ha a részátlag-indexet megszorozzuk az összetételhatás-indexszel, akkor éppen a fıátlagindexet kapjuk eredményül, azaz:
IF = IR ⋅ IÖ Ebbıl az összefüggésbıl következik az is, hogy ha a három indexbıl kettıt ismerünk, könnyen kiszámíthatjuk belılük a harmadikat:
IR =
IF I és I Ö = F IÖ IR
Ellenırizzük a fenti alapösszefüggést a példánk alapján:
138
9. STANDARDIZÁLÁS
I F = I R ⋅ I Ö → 0,971 = 1,003 · 0,968 *** A standardizáláson alapuló indexeknek - a bemutatott felhasználási területen kívül többek között nagy jelentıségük van a vállalati költség- analízisben, a létszámgazdálkodás összehasonlító értékelésben, a raktárgazdálkodás vizsgálataiban, stb.
139
10. Statisztikai mintavétel, becslés és hipotézisvizsgálat 10.1. Mintavétel 10.1.1. Alapfogalmak Mint ahogyan azt a 2. fejezetben említettük, a társadalmi-gazdasági jelenségekre vonatkozó statisztikai adatok többsége nem teljes körő, hanem részleges adatgyőjtésekbıl származik. A részleges megfigyelési módszerek közül kiemelkedı fontosságú a reprezentatív megfigyelés, vagy más néven mintavétel. Szintén a 2. fejezetben mutattuk be a reprezentatív kiválasztás lehetséges eseteit, melyek között voltak véletlenen alapuló (vagy más néven valószínőségi) és nem véletlenen alapuló mintavételi eljárások. A mintavétel célja minden esetben az, hogy a mintából származó információk alapján következtetéseket tudjunk levonni az alapsokaságra nézve. Azonban a mintavétel lefolytatása és az adatok feldolgozása során több hibaforrással is számolni kell. A hibák egyik típusa abból adódik, hogy a megfigyelések során szinte mindig történnek mulasztások, félreértések (pl. az adatszolgáltató pontatlanul, hiányosan, ellentmondásosan válaszol, a kérdezı nem tartja be pontosan az utasításokat, az adatfeldolgozásba hiba csúszik be, stb.). Ez az ún. megfigyelési hiba, amelynek mértékét pontosan számszerősíteni nem lehet, de megfelelı odafigyeléssel minimalizálható (a gyakorlatban sajnos soha nem küszöbölhetı ki teljesen). A másik hibatípus, a mintavételi hiba, abból a ténybıl fakad, hogy a megfigyelés részleges. Ez a hiba mérhetı, s nagysága a mintavétel pontosságát mutatja. Mérésénél abból kell kiindulni, hogy egy adott sokaságból egy adott elemszámú mintát sokféleképpen ki lehet választani. Ha a mintákból különféle jellemzıket (pl. átlag, szórás, stb.) számítunk, ezek mintáról mintára más-más értékeket adnak, s a megfelelı alapsokasági jellemzı körül ingadoznak. A mintajellemzıknek az alapsokasági jellemzıtıl való átlagos eltérése (szóródása) adja meg a mintavételi hiba nagyságát. (Pontosabban ld. a 10.1.3. fejezetben.) A mintavételi hiba nagymértékben függ a mintanagyságtól (n). Minél nagyobb a minta (minél inkább közelítünk a teljes körő megfigyeléshez), annál kisebb lesz a hiba, tehát pontosabb a mintavétel. Értéke nyilvánvalóan soha nem lehet nulla, hiszen akkor már nem beszélhetnénk mintavételrıl. A mintanagyság és a mintavételi hiba összefüggését mutatja a 10.1. ábra.
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT A mintavételi hiba és a mintanagyság kapcsolata
mintavételi hiba
140
mintanagyság
10.1. ábra
10.1.2. Az alapsokaság és a minta megadása Az alapsokaság megadásának módja függ a sokaság és a jellemzésére szolgáló ismérv jellegétıl: Véges elemszámú sokaságot mindig megadhatunk elemeinek felsorolásával. N elem estén például: X1, X2, ... Xi, ... XN formában, ahol Xi az i-edik elemhez tartozó ismérvértéket jelenti. Végtelen elemszámú sokaság esetén a megadás módja függ attól, hogy diszkrét vagy folytonos ismérvvel jellemeztük-e a sokaságot: Diszkrét esetben valószínőség-eloszlással adható meg a sokaság: P(X = k) = p Folytonos esetben az eloszlásfüggvény: F(x) = P(X < x) vagy ennek deriváltja, a sőrőségfüggvény: f(x)=F'(x) alkalmazható. A gyakorlatban a véges, de nagyon nagy elemszámú sokaságok végtelenként kezelhetık. Az alapsokaságot jellemzi az eloszlása, amely igen sokféle lehet. A további elemzések során az lesz a fontos, hogy ismerjük-e ezt az eloszlást, s ha igen, akkor a sokaság normális eloszlást (vagy legalábbis aszimptotikusan, azaz közelítıleg normális eloszlást), vagy pedig más (pl. lognormális, exponenciális, stb.) eloszlást követ. A fenti esetekben a sokaságból vett minta elemzésekor eltérı módszereket kell alkalmazni. Az alapsokaság további jellemzésére szolgál a sokaság középértékének és szóródásának meghatározása. A középértéket diszkrét esetben a számtani átlag ( X = µ), folytonos esetben a várható érték (E(X) = µ) kiszámításával szokás számszerősíteni, míg a szóródást 2 a variancia meghatározásával (Var(X) = σ ). A minta mindig véges, tehát megadható elemeinek felsorolásával. Például egy n elemő minta esetében: x1, x2, ... xi, ... xn, ahol xi az i-edik mintaelemhez tartozó ismérvértéket jelenti. A mintaelemek értéke a többféle lehetséges n elemő mintában más és más, ezért a mintaelemek változók. Ez természetesen csak a mintavétel elıtt (a priori) igaz, hiszen a mintavétel megvalósulása után már csak egy konkrét mintánk van, így az elemek konkrét számértékek. (A továbbiakban a mintát a priori fogjuk értelmezni.)
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 141 A mintavételek leggyakoribb formái a véletlenen alapuló (valószínőségi) mintavételi eljárások, így a mintaelemek valószínőségi változók, tehát jellemezhetık eloszlásukkal, várható értékükkel és varianciájukkal. Ezeknek a meghatározása akkor a legegyszerőbb, ha a minta független azonos eloszlású (FAE). Ez egy olyan mintavételi eljárás, amelynek alkalmazása egymástól független mintaelemeket eredményez.1 FAE minta esetén - ha a sokaság eloszlásával adott - a mintaelemek eloszlása megegyezik az alapsokaság eloszlásával. Ha a sokaság elemeinek felsorolásával adott, a mintaelemek eloszlása nem ismert. Bizonyítható továbbá, hogy a mintaelemek várható értéke és varianciája megegyezik 2 az alapsokaság várható értékével (E(x) = µ) és varianciájával (Var(x) = σ ). A mintával kapcsolatban meg kell még említeni két fontos fogalmat: 1. Kis és nagy minták: Szimmetrikus (vagy majdnem szimmetrikus) eloszlások esetén már az n > 30 elemő minta is nagynak tekinthetı, de ha a sokaság eloszlása nem ilyen, akkor általában csak n > 100 esetén szokás a mintát nagynak tekinteni. A mintanagyságnak azért van jelentısége, mert egyes mintajellemzık (pl. átlag, arány) nagy minták esetén közelítıleg normális eloszlásúvá válnak, és egyszerősödik a kezelésük (ld. késıbb), míg kis minták esetében ez nem áll fenn. 2. Kiválasztási arány: Véges sokaságok esetén megadható, hogy a kiválasztott mintaelemek hány %-át teszik ki az alapsokaságnak. Kiszámítása: n / N
10.1.3. A mintajellemzık és tulajdonságaik A mintajellemzık (pl. átlag, arány, szórás, értékösszeg, stb.) - a mintaelemekhez hasonlóan - valószínőségi változók, tehát szintén jellemezhetık eloszlásukkal, várható értékükkel és varianciájukkal. A mintajellemzık közül válasszuk ki a legegyszerőbbet, a minta
()
számtani átlagát x , s ezen keresztül vizsgáljuk meg a fenti tulajdonságokat. (Feltételezzük, hogy a mintavétel FAE-módon történt.) A mintaátlag eloszlásával kapcsolatban beláthatók a 10.1. táblázatba foglalt állítások.
1
FAE mintát akkor kapunk, ha az alapsokaságból véletlenszerően és visszatevéssel választjuk ki a mintát, vagy pedig ha visszatevés nélküli ugyan a mintavétel, de az alapsokaság végtelen vagy nagyon nagy számosságú. A 2. fejezetben tárgyalt egyszerő véletlen (EV) mintavétel abban különbözik ettıl, hogy ott a mintát mindig véges sokaságból és visszatevés nélkül választjuk ki, tehát a mintaelemek nem lesznek függetlenek egymástól. (Ha nagyon nagy az alapsokaság, az EV minta is tekinthetı függetlennek.)
142
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT Az alapsokaság és a mintaátlag eloszlása Alapsokaság eloszlása normális Nem normális kis minta vagy ismeretlen nagy minta
Mintaátlag eloszlása normális nem ismert aszimptotikusan normális 10.1. táblázat
A mintaátlag várható értéke az az érték, amely körül a különféle n elemő mintákból számított átlagok ingadoznak. Bizonyítható, hogy ez megegyezik az alapsokasági átlaggal (ill. várható értékkel):
()
E x = X =µ A mintaátlag varianciája megmutatja az elıbb említett ingadozás mértékét. Ez bizonyíthatóan a következıképpen írható fel:
Var ( x ) =
σ2 n
= σ 2x
Ezen érték négyzetgyökének igen fontos szerepe van, ugyanis az nem más, mint a mintavételi hiba mérıszáma, s a neve: standard hiba2. Képlettel:
σx =
σ
n
A mintaátlag standard hibája tehát megmutatja, hogy a mintaátlagok átlagosan menynyivel térnek el a saját várható értéküktıl, azaz az alapsokasági átlagtól.
10.2. Statisztikai becslés 10.2.1. Alapfogalmak Az eddigiekben abból indultunk ki, hogy ismerünk egy alapsokaságot (annak várható értékét, varianciáját, esetleg eloszlását), s ez alapján következtettünk a sokaságból vett véletlen minta tulajdonságaira. Ezt a következtetési utat statisztikai dedukciónak nevezzük. A gyakorlatban azonban a probléma legtöbbször fordítva jelentkezik: az alapsokaságot nem ismerjük, csak a belıle származó - általában egyetlen - véletlen mintát, s a minta alapján akarjuk megismerni magát a sokaságot. Ekkor tehát a statisztikai indukciót, mint következtetési módszert kell alkalmaznunk. Így jutunk el a statisztikai becsléshez és hipotézisvizsgálathoz, melyek e következtetési mód eszközei. A statisztikai becslés az alapsokaság egyes jellemzıinek közelítı meghatározása a rendelkezésünkre álló véletlen minta alapján. 2
Megjegyezzük, hogy nem független (EV) minta esetén a standard hiba képlete kiegészül egy korrekciós tényezıvel: σ x = σ N − n . Látható, hogy ez csak akkor használható, ha az alapsokaság n N −1 véges és ismert (N) elemszámú. Továbbá belátható, hogy ha a kiválasztási arány (n / N) nagyon kicsi, akkor a korrekciós tényezı közel 1 lesz, tehát használatától el lehet tekinteni.
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 143 A becslés a becslıfüggvény segítségével történik. A becslıfüggvény a mintaelemek függvénye. Általánosan a következı alakban írható fel:
$ =Θ $ ( x , x ,..., x ) Θ 1 2 n
ha a becsülni kívánt alapsokasági jellemzıt Θ-val jelöljük. Mivel a becslıfüggvény a mintaelemek függvénye, s ezekrıl tudjuk, hogy valószínőségi változók, ezért maga a becslıfüggvény is valószínőségi változó, hiszen értéke az egyes lehetséges minták esetén nyilván eltérı lesz. Itt is meg kell jegyeznünk - csakúgy, mint a mintaelemek esetében - azt, hogy a fenti állítás csak a priori (a mintavétel elıtt) igaz, ugyanis ha a mintavétel megtörtént, akkor a mintaelemek már konkrét számértékek, s így a becslıfüggvény is egy meghatározott számértéket vesz fel. Fontos tudnunk azt, hogy ugyanannak az alapsokasági jellemzınek a becslésére többfajta becslıfüggvény is készíthetı. Például ha az alapsokaság várható értékét akarjuk a minta alapján becsülni, akkor elképzelhetıek többek között a következı becslıfüggvények: ∧
Θ = x ;
∧
Θ = Mo ;
∧
Θ = Me ;
∧
Θ = x g (mértani átlag) ; stb.
Ez persze nem jelenti azt, hogy mindegyik esetben ugyanolyan jó közelítést kaphatunk a sokasági várható értékre. A következıkben azt vizsgáljuk meg, hogy milyen tulajdonságok meglétét várjuk el egy jó becslıfüggvénytıl. 1. Torzítatlanság A becslıfüggvény akkor torzítatlan, ha ingadozásának középpontjában a becsülni kívánt alapsokasági jellemzı áll, vagyis ez a várható értéke. ∧
Képlettel: E( Θ ) = Θ Ha ez az egyenlıség nem áll fenn, a becslıfüggvény torzított, s a torzítás mértéke: ∧
Θ − E( Θ ) A fenti két esetet szemlélteti a 10.2. ábra. A torzított és a torzítatlan becslıfüggvény összehasonlítása
0
E( )
∧ E Θ ≠ Θ ⇒ torzított
144
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT
0
E( )
∧ E Θ = Θ ⇒ torzítatlan 10.2. ábra A torzítatlan becslıfüggvény pontosabb becslést eredményez, ezért lehetıség szerint ilyen függvényeket alkalmazunk a becslések elvégzésére. Az elıbbiekben például felsoroltunk négy lehetséges becslıfüggvényt az alapsokasági várható érték becslésére. A 10.1.3. fejezetben láttuk, hogy a minta számtani átlagának várható értéke megegyezik az alapsokasági átlaggal (azaz az alapsokasági várható értékkel). Ezért a négy becslıfüggvény közül a számtani átlagot fogjuk elınyben részesíteni, hiszen ez becsüli torzítatlanul a kívánt jellemzıt. Elıfordul, hogy a becslıfüggvény torzít, de a mintanagyság növelésével a torzítás
∧
mértéke csökken. Az ilyen függvény aszimptotikusan torzítatlan: lim E Θ = Θ n →∞
2. Konzisztencia A becslıfüggvény értéke mintáról mintára változik, s a saját várható értéke körül in∧
gadozik. Ennek az ingadozásnak a mértéke a becslıfüggvény varianciája (Var( Θ )), amelynek négyzetgyöke a becslıfüggvény (és a becslés) standard hibája. A becslıfüggvény akkor konzisztens, ha torzítatlan (vagy legalább aszimptotikusan torzítatlan), s a mintanagyság növelésével a varianciája - s ezzel együtt a standard hibája - csökken. Ez utóbbit képlettel felírva:
∧ lim Var Θ = 0 n →∞
A konzisztenciát szemlélteti a 10.3. ábra.
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT Egy konzisztens becslıfüggvény
145
n = 60
n = 30 n = 10
10.3. ábra A már említett mintabeli számtani átlag például konzisztens becslıfüggvény, hiszen láttuk, hogy torzítatlanul becsüli a sokasági várható értéket, s standard hibája: σ x =
σ
n
,
amely az n növelésével egyre csökken. A konzisztencia - a torzítatlansághoz hasonlóan - szintén egy kedvezı tulajdonság. Eszerint minél nagyobb a minta, annál pontosabb becslést kapunk a sokasági jellemzıre. 3. Hatásosság Ha ugyanannak az alapsokasági jellemzınek a becslésére több torzítatlan becslıfüggvény is rendelkezésre áll, akkor célszerő a hatásosabbat választani. Két torzítatlan becslıfüggvény közül az a hatásosabb, amelynek a varianciája kisebb. ∧
∧
∧
Például ha Var( Θ 1) < Var( Θ 2), akkor a Θ 1 becslıfüggvény a hatásosabb3. Ezt szemlélteti a 10.4. ábra.
3 Ha két torzított, vagy egy torzított és egy torzítatlan becslıfüggvényt hasonlítunk össze, akkor az a hatásosabb, amelynek az átlagos négyzetes hibája (MSE) kisebb: ∧
∧
∧
MSE( Θ ) = Var( Θ ) + (Θ − Ε( Θ )) . 2
146
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT Két becslıfüggvény hatásosságának összehasonlítása 1
2
10.4. ábra
10.2.2. Pontbecslés Az alapsokasági jellemzık becslésére többféle statisztikai módszer alkalmazható. A leggyakoribb és legkézenfekvıbb ezek közül az analógia elve4. Ennek lényege, hogy a becsülni kívánt alapsokasági paraméterrel azonos tartalmú mutatószámot számítunk ki a mintából, s ezt tekintjük az adott paraméter pontbecslésének. A 10.2. táblázatban néhány alapsokasági jellemzı pontbecslésére szolgáló torzítatlan becslıfüggvény látható. Torzítatlan becslıfüggvények Alapsokasági paraméter (Θ)
Becslıfüggvény ∧
(Θ ) n
∑ xi
Várható érték (átlag): X
x=
Arány: P
i =1
n
p=k/n n
Szórás: σ
σ$ =
∑(x i =1
i
− x)
2
n −1
10.2. táblázat Megjegyzések a táblázathoz: - A várható érték becslésérıl már szó esett korábban.
4
A pontbecslés más elvek alapján is készülhet. Ilyen például a legkisebb négyzetek módszere, a maximum likelihood módszer és a momentumok módszere, de ezekre jegyzetünkben nem térünk ki.
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 147 - Az arány becslésénél a k azoknak a mintaelemeknek a számát jelenti, amelyek olyan tulajdonságúak, mint amilyen tulajdonságú elemek alapsokaságbeli arányát becsülni akarjuk. - A szórás esetében látható, hogy becslıfüggvényként a mintából számított szórásnak a korrigált alakját használjuk (a nevezıben n helyett n - 1 szerepel). Ennek oka, hogy bizonyíthatóan így kapunk torzítatlan becslést, ezzel szemben a korrigálatlan szórás csak aszimptotikusan torzítatlan becslést ad.
10.2.3. Intervallumbecslés A pontbecslés eredményeként egy konkrét számértéket kapunk az alapsokasági paraméter közelítésére, de ez - néhány szerencsés véletlentıl eltekintve - nem esik pontosan egybe a becsülni kívánt jellemzıvel. Így tehát a becslés során hibát követünk el, ezért sokatmondóbbá tehetjük az eredményeinket azzal, ha a hiba mértékét figyelembe véve intervallumbecslést készítünk az alapsokasági jellemzıre. Az intervallumbecslés lényege, hogy a minta alapján egy olyan intervallumot határozunk meg, amely elıre megadott nagy valószínőséggel tartalmazza a becsülni kívánt alapsokasági paramétert. Ezt az intervallumot konfidencia intervallumnak nevezzük. Képlettel:
(
)
$ (α ) < Θ < Θ $ (α ) = 1 − α PΘ a f ∧
ahol: Θ a(α) : az intervallum alsó határa ∧
Θ f(α) : az intervallum felsı határa
α : konfidencia paraméter (0-hoz közeli valószínőség) 1 - α : megbízhatósági szint (1-hez közeli valószínőség) A gyakorlatban adott (vagy általunk megválasztható) az a megbízhatósági szint, amely mellett a becslést el kell (el akarjuk) végezni. Ennek értéke a leggyakrabban 95% (azaz α = 0,05 és 1 - α = 0,95). Ez azt jelenti, hogy a különbözı lehetséges minták alapján meghatározott konfidencia intervallumok 95%-a tartalmazza, 5%-a pedig nem tartalmazza a becsülni kívánt alapsokasági paramétert. A következıkben áttekintjük az intervallumbecslés legalapvetıbb eseteit. Mindenütt abból indulunk ki, hogy egy n elemő, független azonos eloszlású minta áll rendelkezésünkre a becslés elvégzéséhez.
10.2.3.1. Várható érték becslése Az elızıekben már láttuk, hogy a mintaátlag torzítatlan és konzisztens becslést ad a sokasági várható értékre nézve, így ezt célszerő becslıfüggvénynek választani. A becslés végrehajtásának módja függ attól, hogy milyen elızetes információkkal rendelkezünk az alapsokaságról. Ez alapján három esetet különítünk el: 2
A/ Az alapsokaság normális eloszlású (N) és ismert a varianciája (σ ) B/ Az alapsokaság normális eloszlású, de nem ismert a varianciája C/ Az alapsokaság nem normális vagy ismeretlen eloszlású
148 10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 2 A/ N eloszlás, ismert σ A 10.1.3. fejezetben láttuk, hogy ha az alapsokaság normális eloszlású X várható értékkel és σ szórással (X: N( X ;σ)), akkor a mintaátlag is normális eloszlású lesz X várható értékkel és σ / n szórással ( x : N( X ;σ/ n )). Elsı lépésként a mintaátlagot átalakítjuk standard normális eloszlású (N(0;1)) valószínőségi változóvá (z) a következı módon:
x− X
Z=
σ/ n
Erre azért van szükség, mert a standard normális eloszlás eloszlásfüggvényének értékei ismertek (ld. Függelék 1. táblázat), így bármely z érték esetében meg tudjuk mondani, hogy mi annak a valószínősége, hogy egy N(0;1) eloszlású valószínőségi változó értéke kisebb, mint z. Ezt a valószínőséget Φ(z)-vel jelöljük. Mivel az intervallumbecslések során általában szimmetrikus intervallumot keresünk5, s a standard normális eloszlás szimmetrikus a függıleges tengelyre (ld. 11.5. ábra), ezért a kérdés úgy vetıdik fel, hogy mi annak a valószínősége, hogy a fenti N(0;1) eloszlású valószínőségi változó a (-z ; z) intervallumba esik, azaz: P(-z <
x− X
σ/ n
< z) = ?
A standard normális eloszlás eloszlás- és sőrőségfüggvénye 1 1- /2
0,5
/2 -z
5
0
z
Létezik aszimmetrikus és egyoldali intervallumbecslés is, de ezekkel könyvünkben nem foglalkozunk.
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT Az eloszlásfüggvény
149
1-α α/2 -z
α/2 0
z
A sőrőségfüggvény 10.5. ábra A valószínőségszámításból ismert, hogy P (-z < Z < z) = Φ(z) - Φ(-z), valamint hogy Φ(-z) = 1 - Φ(z), ezért P(-z < Z < z) = Φ(z) - (1 - Φ(z)) = 2Φ(z) - 1. Így tehát: P(-z <
x− X
σ/ n
< z) = 2Φ(z) - 1
Azonban a becslés során számunkra nem a (-z ; z) intervallumba esés valószínősége az ismeretlen - hiszen az egy elıre megadott valószínőség (1 - α) -, hanem maga az intervallum. Így tehát: 2Φ(z) - 1 = 1 - α , amibıl következik, hogy: Φ(z) = 1 - α/2 Mivel az 1 - α/2 a megadott 1 - α alapján könnyen kiszámítható, így Φ(z)-t ismerjük, s a standard normális eloszlás táblázatából kikereshetjük a hozzá tartozó z értéket, s ezzel megkapjuk a keresett (-z ; z) intervallumot. Például ha a becslést 95%-os megbízhatósági szinten kell elvégezni, akkor 1 α = 0,95, így Φ(z) = 1 - α/2 = 0,975, s a táblázat alapján ekkor z = 1,96. Tehát 95% annak a valószínősége, hogy egy standard normális eloszlású valószínőségi változó értéke a (1,96;1,96) intervallumba esik. Csakhogy nem arra vagyunk kíváncsiak, hogy a Z változó hová esik az adott megbízhatósági szinten, hanem arra, hogy a becsülni kívánt alapsokasági várható érték ( X ) hová esik! Ezért a fenti képletet át kell rendezni ennek megfelelıen:
σ σ P x − z < X <x+z = 1 − α = 2 Φ( z ) − 1 n n Látható, hogy ezzel elérkeztünk a végsı megoldáshoz, melyet rövidebben felírva a keresett intervallum: x ± z
σ
n
= x ± zσ x = x ± ∆
150
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT
A ∆=z
σ n
= z σ x értéket hibahatárnak nevezzük.
Példa: Egy konzervgyárban ellenırzik a zöldborsókonzervek töltési mennyiségét. Az elıírás szerint a töltési mennyiség 400g, s a töltıgéprıl tudjuk, hogy 10g-os szórással dolgozik. A töltési mennyiség normális eloszlásának feltételezése mellett a konzervekbıl egy 15 elemő FAE mintát veszünk, amelybıl 95%-os megbízhatósággal becslést akarunk készíteni a várható (átlagos) töltési mennyiségre nézve. A minta adatai (g): 401, 392, 387, 400, 408, 390, 415, 383, 395, 406, 418, 420, 381, 395, 379. A keresett konfidencia intervallum: x ± z Az adatok alapján: x = 398g n = 15
σ = 10g
Így az intervallum: 398 ± 1,96
10 15
σ
n z = 1,96 (ld. korábban)
= 398 ± 5,06 = (392,94 ; 403,06)g.
Tehát a zöldborsókonzervek várható töltési mennyisége 95%-os valószínőséggel 392,94g és 403,06g közé esik. 2
B/ N eloszlás, ismeretlen σ Az A/ esethez képest most az egyetlen különbség az, hogy nem rendelkezünk elızetes információval az alapsokaság szórásáról, tehát ezt is a mintából kell becsülnünk. A 10.2.2. fejezetben láttuk, hogy a szórás torzítatlan becslıfüggvénye:
∑ (x n
σ$ =
i =1
i
− x)
n −1
2
.
Ezt használva az elızı esetben alkalmazott Z változó helyett a
x− X ∧
változót kap-
σ/ n juk, amely azonban nem standard normális eloszlású, hanem Student-féle t eloszlást követ ν = n - 1 szabadságfokkal.6 Ennek megfelelıen alakul át a keresett konfidencia intervallum képlete is:
σ$ σ$ = 1 − α = 2F(t) - 1 P x − t α (ν ) < X < x + t α (ν ) 1− 1− n n 2 2 ahol az F(t) a t eloszlás eloszlásfüggvényét jelenti. 6
A t eloszlás - a standard normális eloszláshoz hasonlóan - szimmetrikus a 0-ra, s a szabadságfok (tehát a mintaelemszám) növelésével egyre inkább közelít a standard normális eloszláshoz. Éppen ezért az A/ és a B/ eset közötti különbségtételnek csak kis minták esetén van jelentısége.
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 151 A fentiekbıl következik, hogy a t(ν) értéket az F(t) = 1 - α/2 értéknél és a ν = n - 1 szabadságfoknál kell megnézni a t eloszlás táblázatában (ld. Függelék 2. táblázat). Példa: Nézzük meg újra az A/ esetnél bemutatott feladatot azzal a különbséggel, hogy most nem ismerjük a töltıgépre vonatkozó szórást (minden egyéb változatlan). ∧
Most a keresett intervallum: x ± t (ν )
σ n
= x±∆
Az adatok alapján: x = 398g n = 15 ⇒ ν = 14 1 - α = 0,95 ⇒ 1 - α/2 = 0,975 Így tehát a t0,975(14) értékét kell kikeresni a táblázatból, amely 2,14. n
∑(x
A mintából becsüljük a szórást: σ$ = Így az intervallum: 398 ± 2,14
13,27 15
i =1
i
− x)
n −1
2
=
2464 =13,27g 14
= 398 ± 7,33 = (390,67 ; 405,33)g.
Eszerint a zöldborsókonzervek várható töltési mennyisége 95%-os megbízhatósággal 390,67g és 405,33g közé esik. Látható, hogy az A/ esethez képest tágabb intervallumot kaptunk (most nagyobb a hi∧
bahatár). Ennek egyrészt az az oka, hogy a σ > σ, ami véletlen, a másik ok pedig, hogy az ugyanahhoz a megbízhatósági szinthez tartozó t érték nagyobb, mint a z, ami nem véletlen, mert a t eloszlás szórása nagyobb, mint a standard normális eloszlásé. C/ Nem normális vagy ismeretlen eloszlás Ahogyan azt a 10.1. táblázat mutatja, ebben az esetben nem tudunk semmi általánosat mondani a mintaátlag eloszlásáról akkor, ha kicsi a minta. Éppen ezért az ilyen esetek egyedileg kezelendık, amire könyvünkben nem térünk ki. Nagy minta esetén azonban az x közelítıleg normális eloszlású X várható értékkel és σ / n vagy σ$ / n szórással, tehát a konfidencia intervallum meghatározása az elıbbiekben leírtak szerint végezhetı el. *** Megjegyezzük, hogy - bármelyik esetrıl legyen is szó - egyszerő véletlen mintavétel esetén a mintaátlag standard hibáját korrigálni kell, ha a kiválasztási arány legalább 5%
n ≥ 0,05 (ld. 10.1.3. fejezet), így a hibahatár is átalakul: N A/ esetben: ∆ = z
σ
N −n N −1
n ∧
B/ esetben: ∆ = t (ν )
σ n
N −n N −1
152 10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT formájú lesz, amit a konfidencia intervallum készítésekor figyelembe kell venni.
10.2.3.2. A pontosság, a megbízhatóság és a mintanagyság összefüggése Már az eddigiekben is alkalmaztuk a "becslés pontossága" kifejezést, de a mérésérıl még nem esett szó. A becslés pontosságát a hibahatár (∆ ∆) méri: minél kisebb a ∆, annál pontosabb a becslés. A pontosság kapcsolatban áll a megbízhatósági szinttel (1- α) és a mintanagysággal (n). Megbízhatósági szint: A legegyszerőbb (A/) esetben a ∆ = z
σ
méri a pontosságot.
n
Minél nagyobb megbízhatósággal (1-α) szeretnénk a becslést elkészíteni, a z értéke annál nagyobb lesz (ld. Függelék 1. táblázat). Ekkor azonban a ∆ is nagyobb lesz, tehát a becslés pontossága csökken. Mintanagyság: Nyilvánvaló, hogy az n növelésével a ∆ csökken, tehát nagyobb minta alapján pontosabb becslés készíthetı. A kérdés gyakran úgy vetıdik fel, hogy az adott megbízhatósági szint mellett legalább mekkora mintát kell venni ahhoz, hogy egy meghatározott pontosságú becsléshez jussunk. Ekkor a ∆ képletét átrendezve megkapjuk az adott pontossághoz szükséges mintanagyságot7:
zσ n= ∆
2
Példa: A már jól ismert példánkban láttuk, hogy az A/ esetben ∆ = 5,06g-os pontossággal tudtuk a becslést elkészíteni. Nézzük meg, mekkora mintát kellene venni akkor, ha ∆ = 2,5g-os (tehát nagyobb) pontossággal, azaz kisebb hibával szeretnénk a becslés elkészíteni (a megbízhatósági szint továbbra is 95%). Az adatok: z = 1,96 σ = 10g ∆ = 2,5g 2
1,96 ⋅ 10 A keresett mintanagyság: = 61,47 2,5 Természetesen a pontosabb becsléshez az eddigi 15 elemőnél nagyobb minta szükséges. Látható, hogy legalább 62 db konzervet kell kiválasztanunk ahhoz, hogy a fenti követelményeknek megfelelı becslést adhassunk a várható töltési mennyiségre.
10.2.3.3. Arány becslése Az aránybecslés alkalmazásakor azt vizsgáljuk egy véletlen minta segítségével, hogy az alapsokaságnak hány %-a rendelkezik egy meghatározott tulajdonsággal. Ezt az arány Pvel jelöljük, amelyet a minta alapján a p = k/n becslıfüggvénnyel torzítatlanul becsülhetünk (ld. 10.2. táblázat).
7
EV minta esetén:
n=
N ( zσ )
2
N∆2 + ( zσ )
2
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT A p binomiális eloszlású valószínőségi változó, s bizonyítható, hogy: E(p) = P
és
Var ( p) =
P(1 − P ) n
153
= σ 2p
Mivel a P ismeretlen, ezért a p varianciája ismeretlen, tehát a minta alapján becsüljük a következı módon: ∧ 2
σp =
p(1 − p) n −1
∧
így a standard hiba:
σp =
p(1 − p) n −1
Belátható, hogy a mintaelemszám növelésével a p eloszlása közelíti a normális eloszlást, s már nem túl nagy minták esetén is aszimptotikusan normálisnak tekinthetı. Így a következı változó standard normális eloszlást követ:
Z=
p− P
p(1 − p) n −1
Tehát a konfidencia intervallum - a korábbiakhoz hasonlóan - felírható a következıképpen:
p(1 − p) p(1 − p) = 1 − α = 2 Φ( z ) − 1 P p − z 〈 P〈 p + z n − 1 n − 1 p±z
Röviden:
p(1 − p) n −1
= p ± zσ p = p ± ∆
A z értéke a standard normális eloszlás táblázatában (ld. Függelék 1. táblázat) a
Φ( z ) = 1 −
α
2
valószínőségnél található meg.
Példa: Egy rádióhallgatási szokásokról készült felmérésbıl kiderült, hogy a megkérdezett (FAE módon kiválasztott) 800 hallgató közül 176-an hallgatnak rendszeresen egy bizonyos mősort. 97%-os megbízhatósági szinten adjunk becslést arra, hogy a lakosságnak hány %-a hallgatja rendszeresen az adott mősort! Az adatok alapján: n = 800 Φ(z) = 1 - α/2 = 0,985 ⇒ z = 2,17 A pontbecslés: p = 176/800 = 0,22 = 22% Az intervallum: 0,22 ± 2,17
0,22 ⋅ 0,78 = 0,22 ± 0,032 = (0,188 0,252) = (18,8% 799
- 25,2%) Tehát 97%-os megbízhatósággal a lakosság körében az adott mősort rendszeresen hallgatók aránya 18,8% és 25,2% között van.
10.2.3.4. Szórás(négyzet) becslése A szórásnégyzet becslésekor mindig normális eloszlású alapsokaságból indulunk ki. A pontbecslés elvégzéséhez a torzítatlan becslıfüggvény már ismert:
154
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT n
σˆ =
∑ (x − x ) i =1
2
i
n −1
Bizonyítható, hogy normális eloszlású alapsokaság esetén az
( n − 1)σ$ 2 σ
2
változó χ 2 elosz-
lást követ ν = n-1 szabadságfokkal.8 A konfidencia intervallum felírásához az alábbi egyenletbıl indulhatunk ki:
Itt a χ 2α (ν ) és a χ 2
1−
2
( n − 1)σ$ 2 2 = 1 − α ( ) P χα2 (ν ) 〈 〈 χ ν α 1− σ2 2 2
α
(ν ) a
χ 2 eloszlás eloszlásfüggvényének a ν szabadságfokhoz és az
2
α/2 illetve az 1-α/2 valószínőségekhez tartozó értékeit jelenti. (A χ 2 eloszlásfüggvény értékei a Függelék 3. táblázatában találhatók.) 2 A fenti egyenlıtlenséget átrendezzük az alapsokasági szórásnégyzetre (σ ), hiszen ezt akarjuk becsülni. Ekkor:
( n − 1)σ$ 2 2 ( n − 1)σ$ 2 P 2 〈σ 〈 2 = 1− α χ α (ν ) χ1− α (ν ) 2 2 Ezzel elkészült a szórásnégyzetre vonatkozó konfidencia intervallum. Ha a szórást akarjuk becsülni, akkor már csak annyi a teendı, hogy a fenti intervallum alsó és felsı határából négyzetgyököt vonunk. Példa: Visszatérve a várható érték becsléséhez, a B/ esetben kiszámítottuk a 15 elemő minta alapján a töltési mennyiség szórását, amely 13,27g volt. Most készítsünk intervallumbecslést az alapsokasági szórásra 95%-os megbízhatósági szinten! Az adatok: n = 15 ⇒ ν = 14 1-α = 0,95 ⇒ χ 2 α (ν ) = χ 20,975 (14) = 26,1 és χ 2α (ν ) = χ 20,025 (14) = 5,63 1−
2
2
A pontbecslés: σ$ = 13,27g Az intervallum alsó határa:
Az intervallum felsı határa:
8
2
14 ⋅ 13,27 2 = 9,7 26,1 14 ⋅ 13,27 2 = 20,9 5,63
A χ eloszlás csak pozitív értékekre értelmezett aszimmetrikus (balra ferdülı) eloszlás. Ebbıl kö2 vetkezik, hogy a konfidencia intervallum nem lesz szimmetrikus a pontbecslésre. A χ eloszlás az n növelésével közelít a normális eloszláshoz.
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 155 Tehát 95%-os valószínőséggel a töltési mennyiség szórása az alapsokaságban 9,7g és 20,9g közé esik.
10.3. Hipotézisvizsgálat 10.3.1. Alapfogalmak A statisztikai becslés során úgy jártunk el, hogy az alapsokaságból vett véletlen minta adataiból következtettünk a sokaság bizonyos jellemzıire. A hipotézisvizsgálat lényegileg abban különbözik a becsléstıl, hogy itt az alapsokaságról eleve feltételezünk (állítunk) valamit, s azt vizsgáljuk meg, hogy a mintánk adatai vajon alátámasztják-e ezt az állítást. A szóban forgó állítást hipotézisnek nevezzük, a hipotézis helyességének megállapítása a hipotézisvizsgálat, s e vizsgálat eszközei a statisztikai próbák (tesztek).
10.3.2. A hipotézisvizsgálat lépései 1. A hipotézis(ek) megfogalmazása Az az állítás, amelynek a helyességérıl vagy helytelenségérıl közvetlenül döntünk a próba során, a nullhipotézis (H0). Ezzel egyidejőleg azonban meg kell fogalmazni az alternatív hipotézist (H1) is, amely szemben áll a nullhipotézissel. H0 és H1 kölcsönösen kizárják egymást, s ha a próba eredményeképpen H0-t elfogadjuk, akkor H1-et automatikusan elutasítjuk (elvetjük), és fordítva. 2. Próbafüggvény konstruálása A próbafüggvény a mintaelemek függvénye, ezért valószínőségi változó. Jelölése: T(x1, x2, ..., xn) Ezt a függvényt úgy kell megalkotni, hogy ha a H0 hipotézis helyes, akkor ismert eloszlást kövessen. 3. A próbafüggvény lehetséges értékeinek tartományokra bontása A próbafüggvény lehetséges értékeit két tartományra osztjuk: elfogadási (E) és kritikus (K) tartományra. Ezeknek nincs közös részük, és együttesen lefedik a próbafüggvény lehetséges értékeinek teljes tartományát. Az E és K tartományok határait kritikus értékeknek (c) nevezzük. Ezeket úgy kell meghatározni, hogy a próbafüggvény értéke a H0 hipotézis helyessége esetén egy elıre megadott nagy valószínőséggel az elfogadási tartományba essen, azaz: P(T ∈E) = 1-α és P(T ∈K) = α ahol: 1-α: megbízhatósági szint (1-hez közeli valószínőség) α: szignifikanciaszint (0-hoz közeli valószínőség) 4. A próbafüggvény konkrét értékének kiszámítása A minta adatait behelyettesítjük a próbafüggvénybe, s így egy konkrét számértéket kapunk eredményül. 5. Döntés Ha a próbafüggvény minta alapján kiszámított konkrét értéke az elfogadási tartományba esik, akkor H0-t elfogadjuk, H1-et elutasítjuk. Ha ez az érték a kritikus tartományba esik, akkor természetesen H0-t utasítjuk el, H1-et pedig elfogadjuk.
156
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT Az E és K tartományok elhelyezkedése függ a H1 hipotézis milyenségétıl (a próba jellegétıl is függ, de erre a 10.3.4.4. és a 10.3.4.5. fejezetekben térünk majd ki). Tételezzük fel, hogy az alapsokaságra vonatkozó állításunk egy alapsokasági paraméter ( Θ ) nagyságára vonatkozik. Ekkor: H0: Θ = Θ 0 ahol Θ 0 egy általunk megadott konkrét számérték. Errıl az állításról szeretnénk eldönteni a minta alapján, hogy elfogadható-e vagy sem. Az alternatív hipotézis háromféle lehet: a/ Kétoldali próba: H1: Θ ≠ Θ 0 Itt a kritikus tartomány az elfogadási tartomány két oldalán helyezkedik el. Az elhelyezkedésük és annak valószínősége, hogy a próbafüggvény értéke az egyes tartományokba esik, a következı: K α/2
E ca
1-α
K cf
α/2
ahol: ca: alsó kritikus érték cf : felsı kritikus érték Így ha: ca < T < cf → H0-t elfogadjuk és H1-et elutasítjuk, T < ca vagy T > cf → H0-t elutasítjuk és H1-et elfogadjuk. b/ Baloldali próba: H1: Θ < Θ 0 Ezt akkor alkalmazzuk, ha a vizsgált probléma szempontjából nincs jelentısége annak, ha az adott paraméter nagyobb, mint Θ 0, csak az érdekel bennünket, hogy vajon nem kisebb-e. Ebben az esetben a kritikus tartomány az elfogadási tartománytól balra helyezkedik el a következı módon: K E α ca 1-α Így ha: T > ca → H0-t elfogadjuk és H1-et elutasítjuk, T < ca → H0-t elutasítjuk és H1-et elfogadjuk. c/ Jobboldali próba: H1: Θ > Θ 0 Természetesen ezt akkor használjuk, ha a kérdés a b/ esethez képest ellentétes elıjellel merül fel. Itt a kritikus tartomány az elfogadási tartománytól jobbra helyezkedik el: E K 1 -α cf α Így ha: T < cf → H0-t elfogadjuk és H1-et elutasítjuk, T > cf → H0-t elutasítjuk és H1-et elfogadjuk.
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT
157
10.3.3. A hipotézisvizsgálat során elkövethetı hibák Mivel a hipotézisvizsgálat során nem ismerjük az egész sokaságot, hanem csak egy abból származó véletlen mintát, így elıfordulhat, hogy a mintából az alapsokaságra nézve levont következtetéseink tévesek lesznek. A tévedést két irányban követhetjük el. Ezt szemlélteti a 11.3. táblázat. A hipotézisvizsgálat lehetséges hibái, s azok elkövetési valószínőségei Valóság H0 igaz H0 hamis
A minta alapján H0-t Elfogadjuk elutasítjuk helyes döntés elsıfajú hiba (1-α) (α) helyes döntés másodfajú hiba (β) (1-β) 10.3. táblázat
A táblázatból látható, hogy elsıfajú hibát akkor követünk el, ha a H0 hipotézis helyes, de a mintánk alapján mégis elutasítjuk. Ennek valószínősége megegyezik a szignifikanciaszinttel (α), tehát nagyságát módunkban áll befolyásolni. Másodfajú hiba esetén elfogadjuk H0-t, holott az hamis. Az ezt jellemzı β valószínőséget közvetlenül nem tudjuk befolyásolni, de ha α-t csökkentjük, akkor β nıni fog és fordítva. A kétféle hiba egyidejő csökkentése akkor lehetséges, ha növeljük a mintanagyságot.9
10.3.4. A próbák elvégzése Az alapsokasággal kapcsolatban megfogalmazott hipotézisek nemcsak valamely sokasági jellemzı nagyságára vonatkozhatnak (eddig csak ezt említettük), hanem a sokaság elemeit jellemzı két ismérv közötti kapcsolatra vagy a sokaság eloszlására is. Könyvünkben az eloszlás tesztelésével nem foglalkozunk, csak a másik két esettel, s azoknak is csupán a legalapvetıbb fajtáit tekintjük át. Így a sokasági jellemzıkre vonatkozó hipotézisvizsgálati esetek közül megnézzük a várható érték, az arány és a variancia (szórás) tesztelését, míg a kapcsolatok létét vizsgáló eljárások közül az asszociációra és a vegyes kapcsolatra vonatkozó próbákat tekintjük át. A fejezetben mindvégig feltételezzük, hogy a próbák elvégzéséhez egy FAE módon kiválasztott minta áll rendelkezésünkre.
10.3.4.1. Várható érték tesztelése Ebben az esetben az alapsokaság várható értékérıl (átlagáról ( X )) feltételezzük, hogy egy bizonyos értéket vesz fel ( X 0 ), s a következı hipotézist teszteljük:
H0 : X = X 0 Az alkalmazandó próbafüggvény típusa attól függ, hogy milyen elızetes ismeretekkel rendelkezünk az alapsokaságról. Eszerint három esetet különböztetünk meg: 9
A hibák további jellemzıire és összefüggéseire könyvünkben nem térünk ki.
158 10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT A/ Normális eloszlású sokaság, ismert szórás B/ Normális eloszlású sokaság, ismeretlen szórás, kis minta C/ Nem normális vagy ismeretlen eloszlású sokaság, nagy minta A/ N eloszlás, ismert σ A becslésrıl szóló fejezetben láttuk, hogy a Z =
x− X
σ/ n
változó a fenti feltételek
mellett - a mintanagyságtól függetlenül - standard normális eloszlást követ. Ebbıl következik, hogy ha H0 igaz, tehát X = X 0 , akkor a Z =
x− X0
változó is N(01) eloszlású lesz.
σ/ n
Így tehát alkalmas próbafüggvénynek, hiszen H0 helyessége esetén ismert az eloszlása. Az itt alkalmazott próba az ún. z-próba (vagy más jelöléssel u-próba). A kritikus értékeket a standard normális eloszlás táblázatából (ld. Függelék 1. táblázat) lehet kikeresni a következık szem elıtt tartásával: a/ Kétoldali próba:
H1 : X ≠ X 0
ca = − z
1−
cf = z
α
1−
2
α 2
(A jelölések már ismertek. Az 1-α/2 természetesen a megadott szignifikanciaszint (α) alapján határozható meg.) b/ Baloldali próba: H1 : X 〈 X 0 ca = − z1−α c/ Jobboldali próba:
H1 : X 〉 X 0
c f = z1−α
Példa: Egy tejüzemben azt vizsgálták, hogy a joghurtok töltési mennyisége megfelel-e az elıírásnak. A szabvány szerint ez a mennyiség 200ml 2% szórással. Egy FAE módon kiválasztott 20 elemő mintáról tudjuk, hogy átlaga 196ml. Vizsgáljuk meg mindhárom módon, hogy az átlagos töltési mennyiség megfelel-e a 200ml-es szabványnak! A szignifikanciaszint legyen 3%. (A töltési mennyiség normális eloszlása feltételezhetı.) Az adatok: x = 196ml
X 0 = 200ml
σ = 4ml (200 ⋅ 0,02)
n = 20
α = 0,03
H 0 : X = 200 196 − 200 A próbafüggvény értéke: Z = = −4,472 4 20 A nullhipotézis:
Kritikus értékek: a/ H1 : X ≠ 200
ca = − z 0,985 = −2,17
c f = z0,985 = 2,17
Mivel a próbafüggvény konkrét értéke (- 4,472) kisebb az alsó kritikus értéktıl (-2,17), ezért a kritikus tartományba esik, tehát H0-t elutasítjuk és H1-et fogadjuk el. Eszerint a joghurtok átlagos töltési mennyisége nem felel meg az elıírásnak. b/ H1 : X 〈200 ca = − z0,97 = −1,88
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 159 Itt is azt látjuk, hogy a - 4,472 < ca, ezért újra a H1-et fogadjuk el, tehát az átlagos töltési mennyiség szignifikánsan kisebb, mint 200ml. c/ H1 : X 〉200 c f = z 0,97 = 1,88 Most viszont a - 4,472 < cf , tehát az elfogadási tartományba esik. Ez alapján H0-t fogadjuk el H1-gyel szemben, tehát a minta nem támasztja alá azt, hogy a joghurtok átlagos töltési mennyisége nagyobb lenne 200ml-nél. B/ N eloszlás, ismeretlen σ, kis minta Ha az alapsokaság szórása nem ismert (vagy nem fogadjuk el: ld. 10.3.4.3. fejezet), n
akkor azt a mintából becsüljük a már jól ismert σ$ = hogy ekkor a t = esetén a t =
∑ (x i =1
i
− x)
n −1
2
formulával. Tudjuk,
x− X változó Student-féle t eloszlást követ. Így tehát a H0 helyessége σ$ n
x− X0 változó is t eloszlású lesz, azaz alkalmas próbafüggvénynek. σ$ n
Ekkor a próbát t-próbának nevezzük, s a t eloszlás táblázata alapján (ld. Függelék 2. táblázat) határozhatók meg a kritikus értékek az A/ esethez hasonló módon: a/ Kétoldali próba: H1 : X ≠ X 0 ca = − t α (ν ) c f = t α (ν ) 1−
b/ Baloldali próba:
H1 : X 〈 X 0
c/ Jobboldali próba:
H1 : X 〉 X 0
2
1−
ca = − t 1−α (ν )
2
c f = t 1−α (ν )
Itt természetesen figyelembe kell venni a ν = n -1 szabadságfokot is a táblázat használatakor. A B/ esetnek kis minták esetén van jelentısége, mert tudjuk, hogy a t eloszlás nagy minták esetén gyakorlatilag egybeesik a standard normális eloszlással. Példa: Térjünk most vissza az elıbbi példánkhoz azzal a különbséggel, hogy most nem ismerjük az alapsokaság szórását (az A/ esetnél ismertük és 4ml volt), de tudjuk, hogy a 20 elemő minta szórása 5ml. Ellenırizzük újra 3%-os szignifikanciaszinten az X -ra tett 200mles hipotézis helyességét!
X 0 = 200ml σ$ = 5ml A nullhipotézis: H 0 : X = 200 196 − 200 A próbafüggvény értéke: t = = −3,58 5 20 Az adatok: x = 196ml
n = 20
ν = 19
α = 0,03
160
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT
Kritikus értékek: a/ H1 : X ≠ 200
ca = − t 0,985 (19) = −2,3 c f = t 0,985 (19) = 2,3
(A táblázat a 0,985-ös értéket nem tartalmazza, így a 0,975-höz és a 0,99-hez tartozó t értékek közötti értéket vesszük itt figyelembe.) A próbafüggvény értéke (-3,58) kisebb a ca-tól, így a kritikus tartományba esik, tehát az alapsokaságban az átlagos töltési mennyiség nem tekinthetı 200ml-nek a minta alapján. b/ H1 : X 〈200 ca = − t 0,97 (19) = −2,02 A -3,58 ettıl az értéktıl is kisebb, így a kritikus tartományba esik, tehát a H1 hipotézist fogadjuk el, mely szerint az átlagos töltési mennyiség szignifikánsan kisebb, mint 200ml. c/ H1 : X 〉200 c f = t 0,97 (19) = 2,02 Most a -3,58 az elfogadási tartományba esik, így tehát a minta alapján nem állítható, hogy az átlagos töltési mennyiség nagyobb lenne 200ml-nél. C/ Ismeretlen vagy nem N eloszlás, nagy minta Ebben az esetben kis mintákat rendkívül nehézkes kezelni, nagy minták esetén azonban tudjuk, hogy a Z =
x− X változó közelítıleg standard normális eloszlást követ. Így σ$ n
H0 helyessége esetén a Z =
x− X0 is standard normális eloszlású, tehát ez lesz az ún. σ$ n
aszimptotikus z-próba próbafüggvénye. A kritikus értékek megállapítása ugyanúgy történik, mint ahogyan azt az A/ esetnél bemutattuk.
10.3.4.2. Arány tesztelése Most azt feltételezzük, hogy egy bizonyos alapsokaságbeli arány (P) egyenlı egy általunk megadott értékkel (P0). Így a H0: P = P0 lesz. Az eddigiekkel analóg módon, a becslés során szerzett ismereteinket felhasználva könnyen felírható a próbafüggvény: a Z =
p − P0
p(1 − p)
változó már nem túl nagy minta
n −1 esetén is közelítıleg standard normális eloszlású lesz akkor, ha a H0 hipotézis igaz, azaz ha P = P0. Így ez lesz a próbafüggvény, s újra z-próbát végzünk. A kétoldali, a baloldali és a jobboldali próbákhoz tartozó kritikus értékek - az eddigiekhez teljesen hasonlóan - a standard normális eloszlás táblázatából kikereshetık. Példa: Egy csavarokat gyártó gépsor esetében a megengedett selejtarány 2%. Egy 70 elemő véletlen mintában a selejtesek száma 3db volt. Vizsgáljuk meg 5%-os szignifikanciaszinten, hogy az alapsokasági selejtarány vajon nem nagyobb-e, mint 2%! p = 3/70 = 0,043 = 4,3% α = 0,05 Az adatok: P0 = 0,02 = 2% A nullhipotézis: H0: P = 0,02
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT
0,043 − 0,02
Z=
A próbafüggvény értéke a minta alapján:
161
= 0,942
0,043 ⋅ 0,957 69
Az alternatív hipotézis most: H1: P > 0,02 , hiszen a feladat szerint csak erre a "kedvezıtlen" esetre vagyunk kíváncsiak. Így a kritikus érték (jobboldali próba): c f = z 0,95 = 1,65 Mivel a próbafüggvény értéke (0,942) kisebb mint cf , ezért az elfogadási tartományba esik, tehát a H0 hipotézis elfogadható, így a selejtarány nem mondható szignifikánsan nagyobbnak 2%-nál.
10.3.4.3. Variancia (szórás) tesztelése A varianciára (szórásra) irányuló próba elvégzésekor feltételezzük az alapsokaság (legalább aszimptotikusan) normális eloszlását. Most az alapsokaság szórására (σ) nézve van egy állításunk (σ0), amit a minta alapján tesztelünk. Itt a nullhipotézis H 0 :σ 2 = σ 20 vagy H 0 :σ = σ 0 formában írható fel. A próbafüggvény megalkotásához segítségünkre van annak ismerete, hogy az
χ2 =
( n − 1)σ$ 2 σ2
2
változó ν = n-1 szabadságfokú eloszlást követ. Ezért H0 helyessége ese-
tén ( σ 2 = σ 20 ) a χ 2 =
( n − 1)σ$ 2 σ 02
2
változó is eloszlású lesz, így most ez a próbafüggvény.
2
2
A szórás tesztelésére tehát χ -próbát használunk, s a kritikus értékeket a χ eloszlás táblázatából (ld. Függelék 3. táblázat) kereshetjük ki. A kritikus értékek az egyes lehetséges alternatív hipotézisek esetén a következık lesznek: a/ Kétoldali próba: H1 :σ ≠ σ 0 b/ Baloldali próba: H1 :σ 〈σ 0 c/ Jobboldali próba: H1 :σ 〉σ 0
ca = χ 2α (ν )
cf = χ 2
2 2
ca = χ α (ν )
1−
α
(ν )
2
c f = χ 12−α (ν )
Példa: Térjünk vissza a 10.3.4.1. fejezetben bemutatott példához. Itt azt láttuk, hogy a joghurtok töltési mennyiségének szórása az elıírás szerint 4ml, azonban egy 20 elemő minta alapján a szórás 5ml volt. Vizsgáljuk meg most 5%-os szignifikanciaszinten, hogy az alapsokaság szórása valóban nagyobb-e 4ml-nél! Az adatok: σ 0 = 4 ml σ$ = 5 ml n = 20 ν = 19 α = 0,05 A nullhipotézis:
H 0 :σ = 4
A próbafüggvény értéke a mintából: Az alternatív hipotézis: H1 :σ 〉4
19 ⋅ 52 χ = = 29,69 42 2
162
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT
A kritikus érték (jobboldali próba): c f = χ 20 ,95 (19) = 30,1
A próbafüggvény értéke (29,69) kisebb a cf-nél, így az elfogadási tartományba esik, tehát nem állítható, hogy a szórás szignifikánsan nagyobb lenne 4ml-nél. *** Ez a példa rámutat arra is, hogy ha a várható érték tesztelése a feladatunk, s ismert az alapsokasági szórás, akkor mielıtt a várható érték vizsgálatához hozzákezdenénk, tesztelhetjük a megadott szórást a minta alapján. Így kiderül, hogy a megadott szórás elfogadhatóe vagy sem, s ennek alapján a z- vagy a t-próbát célszerőbb-e alkalmazni a várható érték tesztelésére. (Természetesen mindennek csak kis minták esetén van jelentısége.)
10.3.4.4. Függetlenségvizsgálat A 7. fejezetben megismerkedtünk két ismérv kapcsolatának eseteivel. Azonban ha a vizsgálat elvégzésekor nem ismerjük az egész sokaságot, csak egy belıle származó véletlen mintát, akkor meg kell vizsgálnunk, hogy a minta alapján esetleg megállapított kapcsolat az alapsokaságban is létezik-e (szignifikáns-e), vagy csak a véletlen mőve, hogy az adott mintából éppen kimutatható a kapcsolat. Ennek a kérdésnek az eldöntésére többféle hipotézisvizsgálati módszer alkalmazható attól függıen, hogy milyen jellegő kapcsolatról van szó. A függetlenségvizsgálat (elsısorban) az asszociációs kapcsolat tesztelésére szolgáló hipotézisvizsgálati eljárás. Az asszociációról tudjuk, hogy két nem metrikus változó kapcsolatát jelenti, de az alábbi eljárás elméletileg tetszıleges mérési szintő változók esetén alkalmazható. Ha a kapcsolatot egy n elemő minta adatai alapján állapítottuk meg, akkor azt további vizsgálatnak kell alávetni. A nullhipotézis mindig az, hogy a sokaságot jellemzı két ismérv között nincs kapcsolat, azaz függetlenek egymástól. Az ezzel szemben álló alternatív hipotézis nyilván a kapcsolat létét erısíti meg. Ezt felírhatjuk a már ismert jelölésekkel:
H 0 : f ij = f ij* =
f i. ⋅ f . j n
i = 1,.....,b
H1: Van olyan i és j, ahol f ij ≠ f ij* =
j = 1,.....,c
f i. ⋅ f . j n
Jelölések: fij: tényleges gyakoriságok a minta elemeinek a két ismérv szerinti kombinatív osztályozása alapján fij*: a két ismérv függetlensége esetén fennálló elméleti gyakoriságok fi. és f.j : peremgyakoriságok b és c : a két vizsgált ismérv ismérvváltozatainak száma
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 163 10 Bizonyítható, hogy ha a H0 hipotézis helyes, s a minta elég nagy , akkor a b
c
χ2 = ∑∑
(f
ij
i =1 j =1
− f ij* f
* ij
)
2
2
változó közelítıleg eloszlást követ, melynek szabadságfoka: ν =
(b-1)(c-1). Ez lesz a próbafüggvény. 2 2 A függetlenségvizsgálat során tehát χ -próbát végzünk, így a kritikus érték a χ eloszlás táblázatának segítségével határozható meg (ld. Függelék 3. táblázat). A próbát mindig jobboldali módon hajtjuk végre, tehát felsı kritikus értéket keresünk: c f = χ 12−α (ν ) . Ennek magyarázata, hogy - mint tudjuk - a kapcsolat annál szorosabb (így annál bizto2 sabb a léte), minél nagyobb a χ -mutató (azaz itt a próbafüggvény) értéke. Így tehát akkor 2 járunk el helyesen, ha a kapcsolat létét alátámasztó H1 hipotézist a "nagy" χ -értékeknél fogadjuk el, azaz a kritikus tartománynak jobb oldalon (a "nagy" értékek irányában) kell elhelyezkednie. Példa: Egy vállalatnál megvizsgálták a fizikai dolgozók neme és szakképzettsége közötti összefüggést egy 272 dolgozóból álló FAE minta segítségével. A minta megoszlása (fı): Nem Férfi Nı Összesen
Szakmunkás Betanított mun- Segédmunkás kás 101 50 19 28 56 18 129 106 37
Összesen 170 102 272
10.4. táblázat Állapítsuk meg 5%-os szignifikanciaszinten, hogy van-e összefüggés a vállalat fizikai dolgozóinak neme és szakképzettsége között! A próbafüggvény konkrét értékének kiszámításához szükség van az elméleti gyakoriságokra f ij* , amelyet a fenti tényleges gyakoriságok alapján számíthatunk ki, s az ered-
( )
mények a következı táblázatban láthatók: A minta megoszlása függetlenség esetén (fı): Nem Férfi Nı Összesen
Szakmunkás 80,625 48,375 129
Betanított munkás 66,25 39,75 106
Segédmunkás
Összesen
23,125 13,875 37
170 102 272
10.5. táblázat 10
A minta akkor tekinthetı elég nagynak, ha
f ij* ≥ 5 teljesül minden i-re és j-re.
164
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT
f i. ⋅ f . j
170 ⋅ 129 n 272 2 2 101 − 80,625) 18 − 13,875) ( ( 2 A próbafüggvény értéke: χ = +........+ = 26,33 80,625 13,875
f ij* =
, például: 80,625 =
A kritikus érték: α = 0,05 1-α = 0,95 valamint b=2 c=3 ν = (b-1)(c-1) = 1 2 = 2 ezért c f = χ 20,95 (2) = 5,99 Mivel a próbafüggvény értéke (26,33) nagyobb a cf-nél, ezért a kritikus tartományba esik, tehát a H1 hipotézist fogadjuk el, miszerint szignifikáns összefüggés van a dolgozók neme és szakképzettsége között. Megjegyezzük, hogy a felülreprezentáció f ij 〉 f ij* segítségével megállapítható, hogy a
(
)
férfiak a szakmunkások körében, míg a nık a betanított és a segédmunkások körében vannak felülreprezentálva, tehát a férfiak általában szakképzettebbek, mint a nık.
10.3.4.5. Variancia-analízis Ezt a hipotézisvizsgálati eljárást akkor alkalmazzák, ha a cél több normális eloszlású és közel azonos szórású sokaság várható értékének összehasonlítása a belılük vett véletlen minták alapján. Nyilván ezt úgy is értelmezhetjük, hogy egy sokaságunk (s ezért egy mintánk) van, amelyet azonban egy bizonyos (általában nem metrikus) ismérv szerint csoportokra bontunk, s azt szeretnénk megvizsgálni, hogy a sokaságot jellemzı másik (metrikus) változó várható értéke eltérı-e az egyes csoportokban. Látható, hogy itt tulajdonképpen arról van szó, hogy a nem metrikus ismérv befolyásolja-e a metrikus ismérv nagyságát, azaz van-e közöttük kapcsolat. Ezt az ún. vegyes kapcsolatot vizsgáltuk a 7. fejezetben a szórásnégyzet-felbontás segítségével. Ha azonban csak egy véletlen minta áll rendelkezésre, akkor tovább kell lépni, s a variancia-analízist kell alkalmazni. A variancia-analízis a vegyes kapcsolat tesztelésére szolgáló hipotézisvizsgálati eljárás. Az eljárás alkalmazásának feltétele, hogy az alapsokaság normális eloszlású legyen, s a csoportok szórása közel azonos nagyságot érjen el (ez az ún. szóráshomogenitási vagy homoszkedaszticitási kritérium). A függetlenségvizsgálathoz hasonlóan itt is a H0 hipotézis mondja azt, hogy nincs kapcsolat a két ismérv között, a H1 pedig azt, hogy van. Képlettel:
H 0 : y j = y minden j-re, ahol: j = 1,.....,M H1: Létezik olyan j, amelyre y j ≠ y Jelölések:
y : mintaátlag y j : csoportátlagok a mintában M: az x ismérv szerinti csoportok száma
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 165 (Azért tértünk át az x helyett az y jelölésre, mert a vegyes kapcsolat esetén a csoportképzésre használt nem metrikus változót szokás x-szel, a metrikus változót pedig y-nal jelölni.) A próbafüggvény megalkotásához a már ismert σ 2 = σ 2B + σ 2K azonosságból indulunk ki. A varianciák közötti összefüggés nyilván azok számlálói között is fennáll, azaz:
∑∑( M
nj
yij − y
j =1 i =1
)
2
M
nj
(
= ∑ ∑ yij − y j j =1 i =1
)
2
M
(
+ ∑nj y j − y j =1
)
2
Az eddig még nem használt jelölések: nj: az x ismérv szerinti csoportok mintaelemszáma
n: mintaelemszám n =
M
∑ n j
j =1
yij: a j-edig csoport i-edik eleméhez tartozó y érték A fenti képlet rövidebben: SS = SSB + SSK ahol: SS: teljes eltérésnégyzetösszeg SSB: belsı eltérésnégyzetösszeg SSK: külsı eltérésnégyzetösszeg Ha a H0 hipotézis helyes és a próba alkalmazási feltételei teljesülnek, akkor bizonyítható, hogy az F =
( M − 1) (n − M )
SS K SS B
változó F eloszlást követ ν1 = M-1 és ν2 = n-M szabad-
ságfokokkal. Ezt alkalmazzuk próbafüggvényként, tehát F-próbát végzünk, melyhez a kritikus értéket az F eloszlás táblázatából (ld. Függelék 4. táblázat) kereshetjük ki. Tudjuk, hogy a vegyes kapcsolat annál szorosabb (tehát annál biztosabban létezik), minél nagyobb a külsı és minél kisebb a belsı szórás (eltérésnégyzetösszeg), azaz minél nagyobb az F értéke. Így tehát a próbát itt is mindig jobboldali módon végezzük el. A kritikus érték: c f = F1−α (ν 1 , ν 2 ) . (Megjegyezzük, hogy a Függelék csak az α = 5% szignifikanciaszinthez tartozó Ftáblázatot közli, mivel ennek alkalmazása a leggyakoribb.) *** A teljesség kedvéért felhívjuk a figyelmet arra, hogy az SSB és az SS - ha a megadott adatok azt lehetıvé teszik - az eddigiekben közölttıl eltérı módon is kiszámíthatók: M
(
)
SS B = ∑ n j − 1 σ$ j2 j =1
SS = ( n − 1)σ$ 2
ahol σ$ j2 : a mintabeli csoportok varianciája
σ$ 2 : a minta varianciája
166 10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT Példa: Budapesten felmérést végeztek a színházba járási szokásokkal kapcsolatban. A felnıtt lakosság körébıl vett 500 fıs véletlen minta tagjaitól megkérdezték többek között azt, hogy hányszor voltak színházban az utóbbi egy évben. Eredmények a megkérdezettek legmagasabb iskolai végzettsége szerinti bontásban: Legmagasabb iskolai végzettség 8 általános v. alatta Szakmunkásképzı Érettségi Diploma Összesen
Válaszadók Megoszlása (fı) 30 175 210 85 500
Színházlátogatások számának átlaga szórása 0,7 0,6 2,2 0,7 3,8 1,1 6,3 2,8 . 2,11
10.6. táblázat Állapítsuk meg, hogy 5%-os szignifikanciaszinten van-e összefüggés a legmagasabb iskolai végzettség és a színházba járás gyakorisága között! (Tételezzük fel, hogy a színházlátogatások száma közel azonos szórású normális eloszlást követ az egyes csoportokban.) A táblázatban a következık adottak: nj, n, y j , σ$ j és σ$ Számítások: M
∑n y=
j
j =1
⋅yj =
n
30 ⋅ 0,7 + 175 ⋅ 2,2 + 210 ⋅ 3,8 + 85 ⋅ 6,3 = 3,479 ≈ 3,5 500
(
M
SS K = ∑ n j y j − y j =1 M
(
)
2
= 30(0,7 − 3,5) +.....+85(6,3 − 3,5) = 1216,25 2
2
)
SS B = ∑ n j − 1 σ$ 2j = 29 ⋅ 0,62 +.....+84 ⋅ 2,8 2 = 1007,15 j =1
SS = ( n − 1)σ$ 2 = 499 ⋅ 2,112 = 2221,6 vagy SS = SS K + SS B = 1216,25 + 1007,15 = 2223,4 (Eltérés csak a kerekítések miatt adódott.) A próbafüggvény értéke: F = mivel
SS K SS B
( M − 1) = 1216,25 3 = 199,7 (n − M ) 1007,15 496
n = 500 ν 1 = 4 − 1 = 3 ⇒ M = 4 ν 2 = 500 − 4 = 496
A kritikus érték: c f = F0,95 (3;496) = 2,6
és α = 0,05
10. STATISZTIKAI MINTAVÉTEL, BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT 167 Mivel a próbafüggvény értéke (199,7) nagyobb, mint cf , ezért a kritikus tartományba esik, tehát 5%-os szignifikanciaszinten van kapcsolat a legmagasabb iskolai végzettség és a színházba járás gyakorisága között. Az egyes csoportátlagokat figyelembe véve ez úgy is megfogalmazható, hogy szignifikáns eltérés mutatkozik az színházlátogatások átlagértékei között: látható, hogy minél magasabb fokú a legmagasabb iskolai végzettség, annál nagyobb a színházlátogatások számának átlaga. *** Megjegyezzük, hogy az elıbbiekben tárgyaltakon kívül még igen sokféle hipotézisvizsgálati eljárás létezik, amelyekre jegyzetünkben nem térünk ki. Ilyen például az illeszkedésvizsgálat, amely a sokaság eloszlásának jellegére vonatkozó feltételezést teszteli olyan próbák, melyekhez két független minta szükséges, s ezen minták jellemzıinek (pl. átlag, arány) különbségére vonatkozó hipotéziseket vizsgálnak, vagy a két eloszlás egyezıségét tesztelik létezik a több független mintát igénylı variancia-analízis; stb.
168
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE 11.1. Az idısorok összetevıi Az elızı fejezetekben a statisztikai sorok, a viszonyszámok, középértékek és indexek bemutatásánál sokszor esett szó a dinamikus sorok (idısorok) szerkesztésérıl és adatainak értékelésérıl. Ezek az elemzési módok azonban csak a vizsgált jelenség külsı képérıl, változásának mértékérıl, ütemérıl, szerkezetérıl adnak tájékoztatást. Az egyes jelenségek idıbeli alakulását meghatározó, befolyásoló - a jelenség belsı tulajdonságaiból, lényegébıl fakadó - tényezık vizsgálatára eddig nem került sor. A statisztikai elemzésnek pedig egyik igen fontos feladata az idıbeli változás, fejlıdés törvényszerőségeinek feltárása, az egyes hatótényezık külön-külön történı vizsgálata. A továbbiakban megismerkedünk az egyes jelenségek idıbeli változását meghatározó tényezıkkel és ezek elemzésének módjaival. A statisztikai elemzés szempontjából a következı hatótényezıket különböztetjük meg: alapirányzat vagy trend, periodikus ingadozás és véletlen ingadozás. a) Az idısor alapirányzata, trendje A társadalmi, gazdasági jelenségek változásának iránya eltérı, a változás mértéke és üteme sokféle. A jelenségek idıbeli alakulásában tartósan érvényesülı tendenciát nevezzük trendnek. A trend maga is több tényezı együttes hatására alakul ki. Például a kereskedelmi forgalom alakulását befolyásolja a lakosság létszámának változása, a kereskedelmi hálózat bıvülése, a javuló árukínálat stb. A kiskereskedelmi forgalom az utóbbi években, volumenét tekintve, csökkenést mutat. Ez azonban nem egyenletes. Az összforgalmon belül egyes áruk, árucsoportok forgalmának alakulását vizsgálva eltérı tendenciákkal találkozunk. Egyes áruk forgalma stagnáló, csökkenı irányzatú, vagy erıteljesen növekvı. Új iparcikkek megjelenése után a kezdeti alacsony forgalom ugrásszerően növekszik, majd bekövetkezik egy viszonylagos telítettségi állapot, a forgalom stagnál, majd ismét fellendül a forgalom, ha megindul a cikkek kicserélése. A jelenségek idıbeli alakulásában érvényesülı tendencia szempontjából az idısoroknak alábbi típusait különböztetjük meg: - Stagnáló idısorok - a vizsgált jelenség alig változik idıben, az egyes adatok közötti különbségeket általában a véletlen hatások okozzák. - Lineárisan növekvı vagy csökkenı idısorok - a vizsgált jelenség változása egyenletes, azaz a változás mértéke azonos az egyes idıszakok között. Például regresszióban lineárisan csökkenı idısorok az ipari termelés, a fogyasztási cikkek országos összes forgalmának, a népesség lélekszámának adatait tartalmazó idısorok. - Meghatározott ütem szerint változó idısorok - az ütem iránya és jellege alapján ezek az idısorok lehetnek exponenciális, hiperbola vagy parabola alakban változók. Az idısor alapirányzata maga is több tényezı együttes hatását tükrözi. Meg kell jegyeznünk, hogy egy rövidebb-hosszabb idıszak alatt észlelt tendencia nem a jelenség "tulajdonsága", nem örökérvényő. Amennyiben a jelenség alakulását meghatározó törvénysze-
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE 169 rőségek, társadalmi, gazdasági körülmények megváltoznak, a régi tendenciák is újaknak adják át a helyüket. b) A periodikus ingadozások Az idısorban fellépı, rendszeresen ismétlıdı hullámzásokat nevezzük periodikus ingadozásoknak. Ezeknek többféle típusa lehet, így megkülönböztetünk például gazdasági vagy konjunktúraciklust, meteorológiai ciklust, idényszerő vagy szezonális ingadozást. A leggyakrabban elıforduló periodikus ingadozás a szezonális hullámzás, ezért tananyagunkban ezzel foglalkozunk. A szezonális hullámzás állandó periódushosszúságú ritmikus ingadozás, míg a gazdasági és meteorológiai ciklus hossza változó. A kereskedelem forgalmának alakulásában erıteljesen jelentkezı tényezı a szezonális ingadozás, fıként olyan idısoroknál, ahol a forgalmi adatok évnél rövidebb idıszakokra (negyedév, hónap stb.) vonatkoznak. Az egyes árucsoportok forgalmánál az idényciklus hosszúsága általában egy év. Vannak azonban évnél rövidebb periódusú hullámzások is. Például a bolti kiskereskedelem vagy a vendéglátás forgalmát (a megfelelı részletezésben) vizsgálva megtalálható a hónapon belüli, héten belüli, sıt a napon belüli periodikus ingadozás is. c) A véletlen ingadozások Véletlennek az elıre nem látható, nem szabályszerően bekövetkezı eseményt vagy helyzetet nevezzük. A véletlen hatások okozzák az egyes jelenségek idıbeli változásánál a szabályostól eltérı, a többiekhez képest kiugróan magas vagy alacsony értékeket. Ezek a kiugró adatok torzítják a jelenség dinamikájának képét. Például különbözı járványos megbetegedések esetén ugrásszerően megnı egyes gyógyszerek forgalma, vagy a természeti csapások (hosszan tartó szárazság, árvíz) nagymértékben befolyásolják a mezıgazdasági termelés eredményét, illetve egyes cikkek (például építıanyagok) forgalmát. *** Összefoglalva a fentieket: Trend ( Y$ ): Az idısorban érvényesülı tartós tendencia. Szezonhatás (s): Az idısorban rövid távon érvényesülı szabályos ingadozás. Véletlen hatás (v): Az idısorban érvényesülı szabálytalan mozgás. Ennek a három tényezınek az együttes hatása alakítja az idısor tényleges adatait (Y). A közöttük lévı összefüggés kétféle modellel írható le: Additív modell: Y = Y$ + s + v Multiplikatív modell: Y = Y$ ⋅ s ⋅ v Arra a problémára, hogy az idısor adatai közötti összefüggést mikor célszerő összegszerőnek, s mikor szorzatszerőnek tekinteni, a szezonalitás elemzésekor fogunk kitérni (ld. 11.1.2. fejezet). Megjegyezzük, hogy az idısorelemzések során (fıként hosszú távú idısorok esetén) a periodikus ingadozások fontos típusával bıvíthetık a modellek: a közép- vagy hosszú távon érvényesülı szabályozás ingadozás, azaz a ciklus (C) meghatározásával, de erre könyvünkben nem térünk ki.
170
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE Szintén nem elemezzük behatóbban a véletlen hatást. Ezzel kapcsolatban most csak annyit jegyzünk meg, hogy a véletlen tényezı nagyságát reziduumként (maradékként) határozhatjuk meg (részletesebb elemzésre a 11.5. fejezetben térünk ki): Additív modell esetén: Multiplikatív modell esetén:
v = Y − Yˆ − s Y v= Yˆ ⋅ s
11.2. Az idısor alapirányzatának megállapítása 11.2.1. Mozgó átlagolású trendszámítás A mozgó átlagolás azt jelenti, hogy a trendet az eredeti idısor adatainak dinamikus átlagolásával számítjuk ki. A módszer alkalmazása igen elterjedt, ennek oka az, hogy számítása egyszerő, gyors, nincs szükség az idısor alakulásának elızetes analitikus vizsgálatára, a változást legjobban kifejezı egyenlet megállapítására. A módszer hátránya, hogy a trendvonal és a hozzá tartozó értékek nem ismertek analitikusan, ezenkívül a kiegyenlített sor rövidebb, mint az eredeti adatok sora, ezért rövid (kevés adatból álló) sorok elemzésére nem alkalmas. A mozgóátlagok kiszámítása úgy történik, hogy az idısor elsı n tagjának egyszerő
n + 1 -ik idıszakhoz rendeljük. A 2
számtani átlagát vesszük és ezt a középsı, azaz az
kapott eredmény az elsı mozgóátlag lesz. A következı mozgóátlag kiszámításánál elhagyjuk az idısor elsı adatát és hozzávesszük az (n + 1) -ik tagot és az idısor megfelelı
n +1 + 1 -ik idıszakához rendeljük stb. Ezt a számítást addig folytatjuk, amíg az idısor 2 utolsó adatát is fel nem használtuk az átlagok kiszámításánál. A trendszámítás célja az volt, hogy az eredeti - szezonális ingadozást és véletlen ingadozást tartalmazó - idısort kiegyenlítsük, tehát a jelenség változásában csak az alaptendencia érvényesüljön. A szezonális ingadozás hatását úgy küszöbölhetjük ki, ha a mozgóátlag tagszámát helyesen választjuk meg. A mozgóátlagnak át kell fognia egy teljes (vagy több) idényciklust ahhoz, hogy a szezonhatás ne jelentkezzék a mozgó átlagolással képzett trendben. Abban az esetben, ha egy idısorban egy-egy ciklus négy tagot ölel át (például negyedéves adatok), nem felel meg a három- vagy öttagú mozgóátlag a kiegyenlítésre. Szabály tehát az, hogy a mozgóátlag tagszáma egy-egy idényciklushoz tartozó tagok számával vagy ezeknek egész számú többszörösével legyen egyenlı. A véletlen hatását kiszőrjük - a nagy számok törvénye alapján - azáltal, hogy az eredeti adatokat átlagoljuk, mégpedig úgy, hogy egy-egy adat (az elsı és utolsó adatokat kivéve)
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE 171 több átlag kialakulásában is szerepet játszik. A véletlen hatásának közömbösítése annál eredményesebb, minél magasabb tagszámú a mozgóátlag. Példa: Egy ruházati kiskereskedelmi vállalat forgalmi adatai láthatók a 11.1. ábrán.
Egy ruházati kiskereskedelmi vállalat forgalmának alakulása folyó áron az 19931996. években havonként A forga lom e ze r forintba n 70 000 60 000 50 000 40 000 30 000 20 000 10 000 0 1. 3. 5. 7. 9. 11 1. 3. 5. 7. 9. 11 1. 3. 5. 7. 9. 11 1. 3. 5. 7. . . . 1993.
1994.
1995.
1996.
11.1. ábra Az ábrát megszemlélve azt tapasztaljuk, hogy minden évben március hónapban, majd november és december hónapokban jelentkezik a csúcs. Tipikus szezonális ingadozással állunk tehát szemben, amelynek közömbösítését 12 tagú (vagy 24 tagú, 36 tagú stb.) mozgóátlag számításával érjük el. Megjegyezzük, hogy páros tagszám esetén a mozgó átlag adatai mindig két idıszak közé esnek, ezért azokat centrírozni kell. Ennek módját a 11.3.1. fejezetben szereplı példa kapcsán mutatjuk majd be.
11.2.2. Analitikus trendszámítás Az egyes jelenségek idıbeli alakulása gyakran olyan törvényszerőséget követ, amely valamilyen matematikai függvénnyel leírható. Olyan idısoroknál, ahol a változás mértéke megközelítıleg egyenletes, az egyenes egyenlete fejezi ki legjobban a sor alapirányzatát. Elıfordul, hogy a változás képe hiperbola, parabola vagy exponenciális görbe, ebben az esetben a görbének megfelelı egyenlet segítségével elemezzük az idısor alapirányzatát. Az elemzés elsı mozzanata tehát az egyenes vagy görbe típusának meghatározása, amely többnyire a sor eredeti adatai alapján készült grafikus ábra tanulmányozása útján lehetséges.
172
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE Könyvünkben a lineáris és az exponenciális trend számításával foglalkozunk.
11.2.2.1. Lineáris trend Az idısorok esetén a linearitás azt jelenti, hogy egységnyi idı alatt a vizsgált jelenség azonos mértékben növekszik vagy csökken, tehát a tartós irányzat egyenletes olyan értelemben, hogy az abszolút változás állandó. Olyan jelenségeknél, amelyeknél a változás a fent említettek szerint megközelítıleg lineáris, az egyenes egyenlete alapján tudjuk a trendadatokat meghatározni. Az analitikus trendszámítás lényege, hogy keressük azt a függvényt, amelynek értékei a legközelebb állnak az idısor adataihoz. A függvény értékeit a legkisebb négyzetek módszerével lehet megállapítani. Ennek lényege, hogy a trendegyenletet úgy határozzuk meg, hogy a trendadatok és az idısor eredeti adatai között a lehetı legkisebb legyen az eltérés. Mivel az eltérések pozitív és negatív elıjelőek is lehetnek, célszerő a négyzetösszegüket minimalizálni, azaz:
∑ (Y − Yˆ ) n
t =1
2
t
t
→ min .
ahol t = 1, ... , n és n az idısor adatainak számát jelenti. A lineáris trend egyenlete: Yˆ t = β 0 + β 1 t ahol: Yˆ t: a t-edik idıszakhoz tartozó trendérték β 0 és β 1: trendparaméterek t: az idıszakok jelölése
∑ (Y − (β n
Így tehát a:
t
t =1
+ β 1 ⋅ t )) → min. szélsıérték-számítási feladatot kell megol2
0
dani. Ennek eredményeként a következı normálegyenletek adódnak:
∑Y = β ⋅ n + β ⋅ ∑ t ∑ tY = β ⋅ ∑ t + β ⋅ ∑ t 0
1
0
1
2
Ebben a két egyenletbıl álló egyenletrendszerben csak a β 0 és β 1 az ismeretlen, tehát minden további nélkül megoldható. Ám a számítási mód egyszerőbbé válik akkor, ha a t értékeket úgy választjuk meg, hogy Σt = 0 teljesüljön. Ezt megtehetjük, hiszen a t nem magukat az évszámokat jelenti, hanem azoknak csupán a jelölésére szolgál (ld. az alábbi példában). Ekkor a normálegyenletek leegyszerősödnek, s így a trendparaméterek is könynyen kiszámíthatók:
∑Y = β ⋅ n ∑ tY = β ⋅ ∑ t 0
1
2
β0 =
∑Y n
A trendparaméterek a következı módon értelmezhetık: β 0: A t = 0 idıszakhoz tartozó trendérték.
β1 =
∑ tY ∑t 2
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE 173 β 1: A trend alapján egyik idıszakról a másikra ennyivel változnak átlagosan az idısor adatai. Példa: Az élelmiszerek és élvezeti cikkek folyó áron számított forgalmának alakulását viszgáljuk egy üzletben 1978-1996. években. A 11.1. táblázat tartalmazza az eredeti adatokat és a trendértékek számításához szükséges további adatokat, valamint a végeredményt.
Az élelmiszerek és élvezeti cikkek forgalma egy üzletben (1978-1996) Év
Forgalom (m Ft) Y
1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Összesen
2,84 2,98 3,48 3,71 4,02 4,19 4,55 4,95 5,15 5,86 6,27 6,95 7,41 7,86 8,52 8,49 8,61 9,03 9,32 114,19
t
tY
t
2
Trendértékek (m Ft)
Yˆ -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 0
- 25,56 - 23,84 - 24,36 - 22,26 - 20,10 - 16,76 -13,65 - 9,90 - 5,15 0,00 6,27 13,90 22,23 31,44 42,60 50,94 60,27 72,24 83,88 222,19
81 64 49 36 25 16 9 4 1 0 1 4 9 16 25 36 49 64 81 570
2,50 2,89 3,28 3,67 4,06 4,45 4,84 5,23 5,62 6,01 6,40 6,79 7,18 7,57 7,96 8,35 8,74 9,13 9,52 114,19
11.1. táblázat A trendparamétereket kétféle úton határozhatjuk meg. Egyrészt a Σt=0 esetre vonatkozó egyszerősített képletekkel, másrészt pedig a normálegyenletekbe történı behelyettesítéssel, ha t=1,...., n. Mivel azonban a t értékeket általában módunkban áll tetszılegesen meghatározni, ezért célszerő az egyszerőbb (azaz a Σt=0) megoldást választani. A számításhoz szükséges adatok kiolvashatók a 11.1. táblázatból: 2 n = 19 ΣY = 114,19 mFt ΣtY = 222,19 mFt Σt = 570 A paraméterek ezek alapján:
β0 =
∑ Y = 114,19 = 6,01 mFt n
19
β1 =
∑ tY = 222,19 = 0,39 mFt 570 ∑t 2
174
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE
Yˆt = 6,01 + 0,39t
A trendegyenlet:
A paramétereket a következıképpen értelmezzük: β 0 = 6,01 mFt :Ha t = 0 → Yˆ = β 0 = 6,01 mFt, azaz 1987-ben az üzlet forgalmi értéke a vizsgált árucikkekbıl 6,01 mFt volt a trend alapján. β 1 = 0,39 mFt : Ha a t értékét eggyel növeljük, az Yˆ értéke β 1-gyel fog változni, azaz a trend alapján 1978 és 1996 között évente átlagosan 0,39 mFt-tal nıtt az üzlet adott termékcsoportból származó forgalma. *** Megjegyezzük, hogy létezik egy, a β 1 paraméterrel azonos tartalmú mutatószám, az átlagos abszolút változás ( D ). Kiszámítása sokkal egyszerőbb és gyorsabb, mint a β 1 paraméteré, de hátránya, hogy kevésbé pontos eredményre vezet, mivel az évenkénti átlagos változás meghatározásához csak az idıszak elsı és utolsó adatát veszi figyelembe, a közbeesı adatokat nem. Éppen ezért alkalmazása csak akkor indokolt, ha a szélsı adatok nem "kiugróak", vagyis jól illeszkednek az idısorba. A D - mutató képlete:
D= Példánkban: D =
(Y2 − Y1 ) + (Y3 − Y2 )+.....+(Yn − Yn−1 ) = Yn − Y1 n −1
9,32 − 2,84 = 0,36 mFt 19 − 1
n −1
Mivel a példánk adatai megfelelnek a fenti feltételnek, ezért a D - mutató értéke nagyon jól közelíti a β 1 paraméterét, azaz eszerint a forgalom évi átlagos növekedése 0,36 mFt volt a vizsgált idıszakban. *** A trendegyenlet ismeretében - a megfelelı t-értékeket behelyettesítve - kiszámíthatjuk a trendértékeket minden évre: ezt tartalmazza a 11.1. táblázat utolsó oszlopa. Ezek után ábrázoljuk az eredeti forgalmi adatokat és a trendadatokat közös koordináta-rendszerben (11.2. ábra):
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE
175
Az üzlet élelmiszer és élvezeti cikk forgalmának és a forgalom trendjének alakulása 1978-1996. években 10
A forgalom millió Ft-ban
9 8 7 6 5 4 3 2 1 0
Forgalom (m Ft) Y
Trendértékek (m Ft)
11.2. ábra 11.2.2.2. Exponenciális trend Az elızı fejezetben az analitikus trendszámítás lehetséges módszerei közül a lineáris trend meghatározásával ismerkedtünk meg. Most nézzük meg, hogy mi a teendı akkor, ha a vizsgált idısor alapirányzatát nem egy lineáris egyenes, hanem egy exponenciális görbe közelíti inkább. Az alapirányzat exponenciális függvénnyel való leírását akkor alkalmazzuk, ha az idısor adatainak idıszakonkénti relatív változása (növekedése vagy csökkenése) közelítıleg állandó. Az exponenciális trend egyenlete:
Yˆ = β 0 ⋅ β1t
A β 0 és a β 1 trendparaméterek kiszámításához itt is a legkisebb négyzetek módszerét alkalmazzuk, de ezt az eredeti egyenlet lineárissá alakított változatának segítségével végezzük el. A lineáris alakot logaritmikus transzformáció segítségével kaphatjuk meg a következı módon:
log Yˆ = log β 0 + t ⋅ log β1 Egyszerősítésül vezessük be a következı jelöléseket: Ekkor az egyenlet: log Yˆ = B0 + B1 ⋅ t
logβ 0 = B 0 és logβ 1 = B1
176 11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE Ezek után ugyanúgy járunk el, mint a lineáris trendszámításnál, s eredményként a következı normálegyenletek adódnak:
∑ log Y = B ⋅ n + B ⋅ ∑ t ∑ t ⋅ log Y = B ⋅ ∑ t + B ⋅ ∑ t 0
1
0
1
2
Az egyenletrendszerbıl könnyen meghatározható a két ismeretlen (B0 és B1), de számításainkat lerövidíthetjük akkor, ha Σt = 0 teljesül. Ekkor az egyenletrendszer leegyszerősödik, s a következı eredmény adódik:
∑ log Y = B ⋅ n ∑ t ⋅ log Y = B ⋅ ∑ t 0
1
⇒ B0 = 2
∑ log Y n
B1 =
és
∑ t ⋅ log Y ∑t 2
A B0 és a B1 azonban nem az eredeti exponenciális trend paraméterei, ezért azokból még ki kell számítanunk a β 0-t és a β 1-et. Mivel itt 10-es alapú logaritmusról van szó, ezért:
β 0 = 10 B0 és
β 1 = 10 B1
Az így kapott trendparaméterek a következı módon értelmezhetık: β 0: A t = 0 idıszakhoz tartozó trendérték. β 1: Az idıszakonkénti átlagos relatív változás mértéke a trend alapján. Példa: Egy gépi berendezés importjának alakulása 1989 és 1997 között Év 1989 1990 1991 1992 1993 1994 1995 1996 1997 Össz.
Import (db) Y 12 25 45 80 120 180 290 600 1140 2492
t
t logY
logY
t2
Trendértékek (db) Yˆ
-4 -3 -2 -1 0 1 2 3 4 0
1,0792 1,3979 1,6532 1,9031 2,0792 2,2553 2,4624 2,7781 3,0569 18,6653
-4,3168 -4,1937 -3,3064 -1,9031 0 2,2553 4,9248 8,3343 12,2276 14,0220
11.2. táblázat
16 9 4 1 0 1 4 9 16 60
13,8 23,6 40,4 69,2 118,5 203,0 347,7 595,6 1020,3 2432,1
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE 177 Az exponenciális trend egyszerősített kiszámításához szükséges adatok a táblázat alapján: ΣlogY = 18,6653
n=9
Σt logY = 14,022
Σt2 = 60
Így a keresett paraméterek:
B0 = B1 =
∑ log Y = 18,6653 = 2,0739 ⇒ β
n ∑ t ⋅ log Y
∑t
2
9
=
0
= 10 2,0739 = 118,5
14,022 = 0,2337 ⇒ β 1 = 10 0, 2337 = 1,713 60
Az exponenciális trend egyenlete tehát:
Yˆ = 118,5 ⋅ 1,713t
A paraméterek értelmezése: β 0 = 118,5 : Ha t = 0 ⇒ Yˆ = β 0 = 118,5db , vagyis 1993-ban az importált mennyiség a trend alapján közel 119 db volt. β 1 = 1,713 : Ha a t értékét eggyel növeljük, akkor az Yˆ értéke β 1-szeresére fog változni, azaz a trend alapján 1989 és 1997 között évente átlagosan 1,713-szorosára nıtt ezen importált termék mennyisége. Ezt a relatív változást azonban általában %-ban szokás kifejezni, vagyis az importált mennyiség évente átlagosan 71,3%-kal nıtt a trend alapján. * * * Megjegyezzük, hogy - hasonlóan a lineáris esethez - létezik egy mutatószám, mely tartalmilag megegyezik az exponenciális trend β 1 paraméterével. Ez az átlagos relatív változás ( l ), ami nem más, mint a láncviszonyszámok mértani átlaga. Mivel azonban a láncviszonyszámok szorzata az utolsó bázisviszonyszámot adja, ezért kiszámításához csak az idısor elsı és utolsó adatát használjuk fel. Így meghatározása sokkal egyszerőbb és gyorsabb, de kevésbé pontos eredményt ad, mint a β 1 paraméter. Képlete:
l=
Példánkban:
n −1
Y2 Y3 Y4 Y ⋅ ⋅ ⋅......⋅ n = Y1 Y2 Y3 Yn −1 l = 9 −1
n −1
Yn Y1
1140 8 = 95 = 1,767 12
Vagyis eszerint az import évi átlagos növekedési üteme 76,7%-os volt a vizsgált idıszakban.
178
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE * * *
Végül a trendegyenletbe behelyettesítve a t értékeket, kiszámíthatjuk minden évre a trendértékeket: ez található az 11.2. táblázat utolsó oszlopában. Ezek után ábrázoljuk közös koordináta-rendszerben az eredeti idısor adatait és a trendadatokat (11.3. ábra): Egy gépi berendezés importjának, s az import trendjének alakulása 1989 és 1997 között
1200
Import (db)
1000 800 600 400 200 1997
1996
1995
1994
1993
1992
1991
1990
1989
0
Év _______
tényadatok
- - - - - - trendadatok 11.3. ábra
11.3. A szezonális ingadozás mérése A szezonális ingadozás törvényszerőségeinek ismerete segítséget nyújthat a vállalatoknak a szezonra való felkészülés során; vagy éppen a szezonális ingadozások csökkentése érdekében teendı intézkedések meghozatalánál. A szezonális eltérés elemzésének célja annak kimutatása, hogy a szezonalitás milyen irányban és mértékben téríti el az idısor adatát az alapirányzattól a periódus egyes szakaszaiban. Az idısor alakulására hatást gyakorló másik két tényezıtıl - az alapirányzattól és a véletlen hatástól - el kell tekinteni, hatásukat ki kell küszöbölni.
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE 179 A szezonális ingadozás kifejezhetı abszolút eltérés formájában (szezonális eltérés) és az eltérés viszonylagos nagysága formájában (szezonindex). A kettı közötti választás egyben annak eldöntését is jelenti, hogy az idısorra az additív vagy a multiplikatív modell illik-e inkább. Ha az idısor adatainak a szezonhatás miatti abszolút eltérése a trendtıl az egyes szezonokban más és más, de a különbözı idıszakok azonos szezonjai esetében közel azonos, akkor additív modell alkalmazandó és szezonális eltérés számítható. Ha azonban a szezonális "kilengések" nagyságára hatással van az idıben változó jelenség színvonala (azaz az idısor kisebb adatainál kisebb, nagyobb adatainál nagyobb abszolút mértékő szezonális hatás mutatkozik), tehát a szezonhatás trendhez viszonyított relatív mértéke közel állandó, akkor célszerő a multiplikatív modellt választani és szezonindexet számítani. (A példában majd az egyszerőség kedvéért ugyanabból az adatsorból számítunk szezonális eltérést és szezonindexet is.)
11.3.1. Szezonális eltérés A szezonális eltérés megmutatja, hogy a szezonhatás miatt az egyes szezonokban az idısor adatai átlagosan mennyivel térnek el a trendtıl. Egy idısorból annyi szezonális eltérés számítható, amennyi a szezonok száma. A szezonális eltérésekre igaz, hogy összegük (és így átlaguk is) nulla.1 A szezonális eltérések kiszámításához elıször a trendet kell meghatározni. Ez történhet mozgó átlagolással vagy analitikusan is, ami a további számításokat lényegileg nem befolyásolja. Ezt követıen meghatározzuk a trendhatástól megtisztított idısor (Y*) adatait: Y * = Yij − Y$ij ahol i = 1, ..., n és n az idıszakok számát jelenti, j = 1, ..., m és m az egy idıszakon belüli szezonok számát jelenti. Az így kapott értékeket szezononként átlagoljuk, s így m db nyers szezonális eltéréshez n
jutunk: s j =
∑Y
* ij
i =1
n
Ezek átlaga még nem feltétlenül 0, ezért a nyers szezonális eltéréseket korrigálni szokás m
∑s saját számtani átlagukkal. A korrekciós tényezı a következı:
j
j =1
m
A korrekció elvégzése után kapjuk a korrigált szezonális eltéréseket: korrigált sj = nyers sj - korrekciós tényezı
1
Ez az ún. állandó szezonalitásra igaz. Létezik változó szezonalitás is, de ezzel könyvünkben nem foglalkozunk.
180 11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE Példa: Számítsunk szezonális eltéréseket a gyermekkabátok forgalmi adatai alapján!
A gyermekkabátok mennyiségi forgalma négy éven át negyedéves bontásban Negyedévek
Forgalom (ezer db) Y
4-tagú mozgóátlag
1.I. II. III. IV. 2.I. II. III. IV. 3.I. II. III. IV. 4.I. II. III. IV.
282 100 173 527 301 108 258 606 307 105 297 576 249 94 268 608
270,50 275,25 277,25 298,50 318,25 319,75 319,00 328,75 321,25 306,75 304,00 296,75 304,75 -
Centrírozva 272,875 276,250 287,875 308,375 319,000 319,375 323,875 325,000 314,000 305,375 300,375 300,750 -
Yˆ
11.3. táblázat A trendet mozgó átlagolással határoztuk meg, ami a szezonhatást is tartalmazó idısorok esetében igen gyakori. A négytagú mozgó átlag elsı adata például:
(282 + 100 + 173 + 527) / 4 = 270,5
Ez az 1. év II. és III. negyedéve közé esik, míg a következı érték (275,25) az elsı év III. és IV. negyedéve közé. Így az elsı centrírozott érték: (270,5 + 275,25) / 2 = 272,875 A trendhatástól megtisztított idısor és a szezonális eltérések (ezer db)
Y * = Y − Y$ 1. 2. 3. 4. Összeg Nyers sj Korrigált sj
I. + 13,125 - 16,875 - 51,375 - 55,125 - 18,375 - 14,031
II. - 200,375 - 220,000 - 206,750 - 627,125 - 209,042 - 204,698 11.4. táblázat
III. - 99,875 - 61,000 - 17,000 - 177,875 - 59,292 - 54,948
IV. + 250,750 + 286,625 + 270,625 + 808,000 + 269,333 + 273,677
:3 + 4,344
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE 181 (Az 1. év I. és II. illetve a 4. év III. és IV. negyedévéhez nem tudtunk trendértékeket rendelni, így természetesen ezt a fenti számításoknál is figyelembe vettük.) A korrekciós tényezı: (-18,375 -209,042 -59,292 + 269,333) / 4 = - 17,376 / 4 = - 4,344 Az I. negyedéves nyers szezonális eltérés például: sI. = - 55,125 / 3 = - 18,375 Korrigálva: sI. = - 18,375 - (- 4,344) = - 18,375 + 4,344 = - 14,031 Tehát a szezonhatás miatt az I. negyedévekben átlagosan 14.031 db kabáttal adtak el kevesebbet a trendhez képest. (A többi negyedév adata hasonlóan értelmezhetı. Látható például, hogy a IV. negyedévben kiugróan magas a kabátforgalom, ami - lévén tél eleje - várható volt: ekkor 273.677 db-bal adtak el többet, mint a trend.)
11.3.2. Szezonindex A szezonindex megmutatja, hogy a szezonhatás miatt az egyes szezonokban az idısor adatai átlagosan hány %-kal térnek el a trendtıl. Az általunk vizsgált állandó szezonalitás esetén a szezonindexek átlaga 1 (vagyis 100%). A szezonindexek kiszámításához is elıször nyilván a trendet kell meghatározni. Ezután a trendhatástól megtisztított idısor adatai a következı módon számíthatók:
Yij* =
Yij Yˆ ij
A nyers szezonindex a nyers szezonális eltéréshez hasonlóan számítható, de mértani átlagként, azaz: s*j = n
n
∏Y
* ij
i =1
A korrekciós tényezı számításánál szintén mértani átlagot használunk: m
korrekciós tényezı =
m
∏s
* j
j =1
Így a korrigált szezonindex: korrigált s *j = nyers s *j / korrekciós tényezı
Példa: Az elıbbi példa adatai alapján számítsuk ki a szezonindexeket is! (A trend természetesen változatlan.)
182
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE A trendhatástól megtisztított idısor és a szezonindexek
1. 2. 3. 4. Szorzat Nyers s*j
I. 1,0456 0,9479 0,8290 0,8216 0,9366
Y* = Y / Y$ II. III. 0,6340 0,3502 0,8088 0,3231 0,9459 0,3125 0,0354 0,4850 0,3283 0,7857
Korrigált s*j
1,1383
0,3990
Évek
0,9548
IV. 1,9077 1,8975 1,8862 6,8278 1,8971 2,3057
3. gyök : 0,8228
11.5. táblázat A korrekciós tényezı: 4
0,9366 ⋅ 0,3283 ⋅ 0,7857 ⋅ 1,8971 = 4 0,458 = 0,8228
A III. negyedév nyers szezonindexe például:
s*III . = 3 0,634 ⋅ 0,8088 ⋅ 0,9459 = 3 0,485 = 7857 Korrigálva: s*III . = 0,78574 / 0,8228 = 9548 = 95,48% Eszerint a szezonhatás miatt a III. negyedévekben a kabátforgalom átlagosan 4,52%kal (95,48 – 100) volt alacsonyabb a trendhez képest. A többi szezonindex is - 100%-hoz viszonyítva - hasonlóan értelmezhetı.
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE
183
11.4. Interpoláció és extrapoláció Az idısorok elemzése - elsısorban a trend meghatározása - megteremti annak a lehetıségét, hogy az idısorok alapirányzata alapján megbecsüljük egy jelenség bizonyos idıszakokra vonatkozó adatait. A becslést olyan idıszakokra végezzük el, amelyekrıl tényleges statisztikai adatokkal nem rendelkezünk. Elıfordul olyan eset, hogy két vagy több idıszak adatának birtokában valamely közbeesı idıszak adatát kívánjuk meghatározni, ezt az eljárást interpolációnak nevezzük. Extrapolációról akkor beszélünk, ha az ismert idıszakokon kívüli idıszak adatát kívánjuk a trend felhasználásával meghatározni. A számításnál azzal a feltételezéssel élünk, hogy a vizsgált jelenség változásának alapirányzata (esetleg szezonális ingadozásai) ugyanúgy érvényesül azokban az idıszakokban, amelyeknek alapján a számítást végezzük, mint azokban az idıszakokban, amelyekre kivetítjük a jelenség változásának a képét. A számítás elvégzése elıtt minden esetben meg kell gyızıdni - a lehetıségekhez képest - a feltételezés helyességérıl. Az interpolálásnál és extrapolálásnál kiindulásként meg kell állapítani a jelenség trendjének alakját (lineáris, exponenciális stb.). A számítás módszerét az alapirányzat alakjának (jellegének) megfelelıen választjuk ki. A) Interpoláció Az interpolációs számításnak gyakorlatilag két lehetséges esete van: − Egy idısor két szélsı idıszakának adata ismert és ezek közé esı idıszak adatát (idıszakok adatait) kívánjuk megbecsülni. − Egy idısornak több tagja ismert, de néhány közbeesı idıszak adata nem, és ez utóbbiakat kívánjuk meghatározni. Példa: A két adat alapján való számítás módját az alábbi példával szemléltetjük: Egy vállalatnál az átlagkeresetre vonatkozóan rendelkezésre álló 1980. és 1990. évi adatok alapján akarjuk megbecsülni a közbeesı évek jellemzı adatait A számítás menete a következı: Az egy dolgozóra jutó kereset 1980-ban 15.654 Ft 1990-ben 34.534 Ft A két adatból elsıként megállapítjuk az évenkénti változás átlagos mértékét; az alábbi képlet segítségével a 11.2.2.1. fejezetben ismertetett módon:
D=
Yn − Y1 n −1
34534 − 15654 = 1888 Ft . Bármelyik keresett idıszak Yk 10 adatát az alábbi összefüggés alapján tudjuk megállapítani: Yk = Y1 + ( k − 1) ⋅ D . Adataink A példa alapján tehát: D =
alapján az 1985. évi és az 1989. évi egy fıre jutó pénzjövedelem: a (1985) = 15 654 + 5 1888 = 25 094 Ft
184
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE a (1989) = 15 654 + 9 1888 = 32 646 Ft
Természetesen - a számítás módjából is látszik - ez csak durva becslése a jövedelmi adatoknak, két okból is: - mert csak a két szélsı érték alapján becsültünk, - mert a jelenséget befolyásoló valamennyi tényezırıl feltételeztük, hogy lineárisan változik. A becsült adattal szemben a tényleges egy fıre jutó pénzjövedelem 1985-ben 23 453 Ft, 1989-ben 31 672 Ft volt. Sokkal pontosabb eredményre vezet az interpolálás, ha az idısorok trendje ismert, így a paraméterek alapján bármely közbeesı idıszak adata megállapítható. Ennek módja, hogy az ismeretlen adathoz tartozó t értéket beírjuk a trendegyenletbe, s így megkapjuk a keresett adat trend alapján becsült értékét. B) Extrapoláció Az extrapolálás módszere hasonló az interpolációhoz, azzal a lényeges különbséggel, hogy az ismert idısoron kívüli idıszakok adatait állapítjuk meg azzal a feltételezéssel itt is, hogy az észlelt alapirányzat érvényesül a késıbbi idıszakokban is. Ez a módszer alkalmas tehát egyes jelenségek prognosztizálására. Az extrapolálás természetesen elvégezhetı bármely analitikus trend egyenletének ismeretében. Példa: A 11.2.2. fejezet példája alapján készítsünk extrapolációt az 1999. év forgalmára nézve! 1999-ben t = 12 A forgalom becsült értéke 1999-re: Y$ 1999 = 6,01 + 0,39 12 = 10,62 mFt Ha az extrapolációt olyan idısor alapján készítjük, melyben szezonális ingadozás is van, akkor a szezonhatást is figyelembe kell venni a számítások elvégzésekor. Térjünk most vissza a 11.3.1. fejezet példájához, ahol szezonális ingadozás is van az idısorban. Ott mozgó átlagolású trenddel állapítottuk meg az alapirányzatot, de az nem alkalmas elırejelzés készítésére, így most elıször lineáris trendet kell számolnunk. A számítás elvégzését az Olvasóra bízzuk, csak az eredményt közöljük a t = 1, 2, ..., 16 esetre nézve (tehát Σt ≠ 0!). Ekkor a lineáris trendegyenlet a következı:
Y$ = 231 + 8,55 ⋅ t Készítsünk extrapolációt az 5. év III. negyedévére! Ekkor: t = 19 A forgalom trend alapján becsült értéke:
Y$5.III . = 231 + 8,55 ⋅ 19 = 393,45 ezer db Azonban a 11.3.1. fejezetnél már kiszámított szezonális eltérések alapján tudjuk, hogy a III. negyedévben a szezonhatás miatt az idısor adatai átlagosan 54,95 ezer db-bal kisebbek, mint a trendértékek (sIII. = - 54,95). Ezt figyelembe véve (additív modellt feltételezve) az extrapoláció végsı eredménye:
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE
185
Y$5.III . + sIII . = 393,45 − 54,95 = 338,5 ezer db. Multiplikatív modell esetén a trend alapján elırejelzett értéket meg kell szorozni a megfelelı szezonindexszel, s így jutunk a végleges elırejelzéshez. Példánkban: * Yˆ5. III . ⋅ sIII . = 393,45 ⋅ 0,9548 = 375,7 ezer db
11.5. A véletlen hatás vizsgálata A 11.1. fejezetben láttuk, hogy a véletlen hatás nagyságát - mely az idısorban érvényesülı szabálytalan ingadozás mértéke - reziduumként (maradékként) számíthatjuk ki, vagyis: Additív modell esetén:
vij = Yij − Yˆij − s j
Multiplikatív modell estén:
vij =
Yij Yˆij ⋅ s j
(Ha az idısorban nincs szezonális ingadozás, akkor természetesen az s j kimarad a fenti képletekbıl.) Amennyiben megfelelıen választottuk meg a trendfüggvényt, s helyesen határoztuk meg a szezonhatást, akkor a reziduális értékek valóban véletlenszerően ingadoznak. Ez azt jelenti, hogy egy adott idıszakhoz tartozó v ij értékbıl semmilyen következtetést nem tudunk levonni egy késıbbi idıszakhoz tartozó v ij érték alakulására vonatkozóan, vagyis a véletlen komponensek függetlenek egymástól. Ha ez nem így van, vagyis ha a reziduális értékek között korrelációs kapcsolat fedezhetı fel, akkor autokorrelációról beszélünk. Az autokorrelációt elıidézheti például a trendfüggvény helytelen megválasztása, vagy valamely fontos magyarázó változónak (pl. szezonhatás) a modellbıl történı kihagyása, következménye pedig az, hogy az idısor egyes összetevıire adott becslések kevésbé lesznek megbízhatóak. Látható tehát, hogy az autokorreláció léte kedvezıtlen jelenség, éppen ezért jó, ha tudjuk, hogy az általunk vizsgált idısor reziduumai autokorreláltak-e vagy sem, vagyis hogy mennyire tekinthetjük megbízhatóknak az idısorral kapcsolatos korábbi elemzéseinket. Az autokorreláció létét a Durbin-Watson próba segítségével teszteljük.2 Jegyzetünkben csak az ún. elsırendő autokorreláció tesztelésével fogunk foglalkozni, melynek 2
A hipotézisvizsgálatok elvégzésének általános elméleti hátterével a tankönyv 10.3. fejezete foglalkozik.
186 11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE lényege, hogy az idısorban a t-edik reziduális érték a t-1-edikkel van korrelációs kapcsolatban. A próba elvégzésének elsı lépéseként meghatározzuk az autokorrelációs együtthatót (p): n
p=
∑v
t
t =2
⋅ v t −1
∑v t =2
Értelmezése:
Határai: -1 ≤ p ≤ 1
n
2 t −1
⇒ ⇒
p=0 p =1
0< p <1 ⇒
nincs autokorreláció van autokorreláció
tesztelni kell az autokorreláció létét
A két utóbbi esetben ha: p < 0 ⇒ negatív autokorreláció van p > 0 ⇒ pozitív autokorreláció van Ezek után felírjuk a hipotéziseket: H0 : Nincs autokorreláció, vagyis p = 0 H1 : Lehet autokorreláció, vagyis p ≠ 0 A Durbin-Watson próbafüggvény a következı: n
d=
∑ (v
t
t =2
− v t −1 )
n
∑v
2
≈ 2(1 − p)
Határai: 0 ≤ d ≤ 4
2 t
t =1
A d értékének fenti kiszámítása után azt kell megnéznünk, hogy ez az érték a próbafüggvény lehetséges tartományai közül melyikbe esik, mert így tudunk dönteni az autokorreláció léte felıl. Az említett tartományokat mutatja a 11.3. ábra.
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE
187
A Durbin-Watson próbafüggvény tartományai (A d sőrőségfüggvénye)
11.3. ábra Az ábrán négy kritikus érték látható, melyek közül kettı-kettı egymásból kiszámítható, vagyis két értéket (dL és dU) kell kikeresnünk a Durbin-Watson próbához tartozó táblázatból (ld. Függelék 5. táblázat). A kereséshez három érték ismeretére van szükség, melyek a következık: 1) α : szignifikanciaszint Mivel H1: p ≠ 0, ezért kétoldali próbáról van szó, így a kritikus értékeket α/2-nél kell keresni. Gyakori a 10%-os szignifikanciaszint alkalmazása (α = 0,1), ezért itt a "Függelék"-ben is csak a 0,05 -höz tartozó táblázatot közöljük. 2) n : megfigyelt idıszakok száma Az autokorreláció vizsgálata csak hosszú távú idısorok alapján lehetséges, éppen ezért a táblázatban csak n ≥ 15 értékek szerepelnek. 3) m : magyarázó változók száma Idısorok esetében m = 3, ha szezonhatás is van az idısorban ( Yˆ , s, v), vagy m = 2, ha szezonhatás nincs ( Yˆ , v). Ha a táblázat alapján meghatároztuk a kritikus értékeket, akkor következhet a döntés: Ha a d értéke az elfogadási tartományba esik (vagyis ha dU < d < 4-dU), akkor elfogadjuk a H0 hipotézist, vagyis az idısorban nincs autokorreláció.
188
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE Ha a d értéke a kritikus tartományba esik, akkor elutasítjuk a H0 hipotézist, s abban az esetben ha d < dL, pozitív autokorreláció van az idısorban, ha pedig d > 4-dL, akkor negatív autokorreláció. Sajnos abban az esetben, ha a d értéke dL és dU vagy 4-dU és 4-dL közé esik, nem tudunk választ adni arra a kérdésre, hogy létezik-e az autokorreláció. Példa: Térjünk vissza a 11.1. táblázatban bemutatott példa adataihoz, s vizsgáljuk meg a véletlen hatás viselkedését. Az élelmiszerek és élvezeti cikkek forgalmának alakulása egy üzletben 1978-1996. években (folyó áron) (Munkatábla az autokorreláció teszteléséhez) Év 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Össz.
Forg.(mFt)
Trend(mFt)
Yt
Yˆt
2,84 2,98 3,48 3,71 4,02 4,19 4,55 4,95 5,15 5,86 6,27 6,95 7,41 7,86 8,52 8,49 8,61 9,03 9,32 114,19
2,50 2,89 3,28 3,67 4,06 4,45 4,84 5,23 5,62 6,01 6,40 6,79 7,18 7,57 7,96 8,35 8,74 9,13 9,52 114,19
vt = Yt − Yˆt
v t ⋅ v t −1
v t − v t −1
( v t − v t −1 )2
v 2t
0,34 0,09 0,20 0,04 -0,04 -0,26 -0,29 -0,28 -0,47 -0,15 -0,13 0,16 0,23 0,29 0,56 0,14 -0,13 -0,10 -0,20 -
0,0306 0,0180 0,0080 -0,0016 0,0104 0,0754 0,0812 0,1316 0,0705 0,0195 -0,0208 0,0368 0,0667 0,1624 0,0784 -0,0182 0,0130 0,0200 0,7819
-0,25 0,11 -0,16 -0,08 -0,22 -0,03 0,01 -0,19 0,32 0,02 0,29 0,07 0,06 0,27 0,42 -0,27 0,03 -0,10 -
0,0625 0,0120 0,0256 0,0064 0,0484 0,0009 0,0001 0,0361 0,1024 0,0004 0,0841 0,0049 0,0036 0,0729 0,1764 0,0729 0,0009 0,0100 0,7206
0,1156 0,0081 0,0400 0,0016 0,0016 0,0676 0,0841 0,0784 0,2209 0,0225 0,0169 0,0256 0,0529 0,0841 0,3136 0,0196 0,0169 0,0100 0,0400 1,2200
11.6. táblázat Megjegyzés: A példában additív modellt feltételezünk, s szezonhatás nincs az idısorban, tehát
vt = Yt − Yˆt .
11. AZ IDİSOROK STATISZTIKAI ELEMZÉSE A 11.6. táblázat adatai alapján az autokorrelációs együttható: n
p=
∑v
t
t =2
⋅ v t −1 =
n
∑v t =2
2 t −1
189
0,7819 = 0,6626 118 ,
n 2 2 2 , ∑ v t −1 = ∑ v t − v n = 1,22 − 0,04 = 118 t =2 t =1 n
Mivel itt 0 < p < 1, ezért indokolt a Durbin-Watson próba elvégzése: H1 : p ≠ 0
Hipotézisek: H0 : p = 0
A próbafüggvény konkrét értéke: n
d=
∑ (v
t
t =2
− v t −1 )
2
=
n
∑v
2 t
0,7206 = 0,5906 1,22
t =1
A kritikus értékek megállapítása a táblázat alapján: α = 10%
n = 19
m=2
dL = 1,08 ⇒ 4-dL = 2,92 dU = 1,53 ⇒ 4-dU = 2,47
0
K+ ↑ 0,5906
? 1,08 1,53
E
? 2,47
K2,92
4
A fenti ábra alapján látható, hogy mivel d = 0,5906 < dL = 1,08, így a kritikus tartományba esik, vagyis az idısorban pozitív autokorreláció van.
191
12. Korreláció- és regressziószámítás A 7.2.3. fejezetben tárgyaltuk az ismérvek közötti korrelációs kapcsolat fogalmát, valamint az ehhez kapcsolódó elemzési módszereket. Ott csak a legegyszerőbb esetekre tértünk ki, melyek a következık voltak: • két ordinális mérési szintő változó kapcsolatának vizsgálata rangkorreláció segítségével (7.2.3.1. fejezet) • két metrikus változó kapcsolatának vizsgálata elıjel-korreláció segítségével (7.2.3.2. fejezet) • két metrikus változó kapcsolatának vizsgálata lineáris korreláció- és regressziószámítás segítségével (7.2.3.3. fejezet). A következıkben a metrikus változók közötti összefüggés vizsgálatának újabb elemzési lehetıségeivel fogunk megismerkedni. Elsıként olyan esetekkel fogunk foglalkozni, ahol két változó közötti kapcsolatról van szó, de ez a kapcsolat nem lineáris természető, hanem valamely más függvénytípussal írható le (Ld. a 7.2.3.3. fejezetben szereplı táblázatot!). Ezt követıen olyan elemzési módszereket mutatunk be, amelyek lineáris összefüggés esetén alkalmazhatók, de nem két változó szerepel a kapcsolatvizsgálatban, hanem több.
12.1. Kétváltozós nemlineáris korreláció- és regressziószámítás Eddigi ismereteink alapján tudjuk, hogy a korrelációszámítás arra ad választ, hogy a vizsgált változók között van-e összefüggés, s ha igen, akkor az milyen szoros és milyen irányú, míg a regressziószámítás során a változók közötti kapcsolatot valamilyen függvény segítségével írjuk le. Ebben a fejezetben elıször a kétváltozós regressziószámítás két - lineáristól különbözı - esetével foglalkozunk: az exponenciális és a hatványkitevıs regresszióval, majd a nemlineáris korrelációszámítás módszerével ismerkedünk meg.
12.1.1. Exponenciális regressziószámítás Ha két metrikus változó (mennyiségi ismérv) összetartozó értékpárjait koordinátarendszerben ábrázoljuk, akkor az így kapott pontdiagramról általában látható, hogy az milyen analitikus függvénnyel közelíthetı leginkább. Eddig csak a lineáris esettel foglalkoztunk, amelyre az volt a jellemzı, hogy a független változó (X) egységnyi változásának hatására a függı változó (Y) mindig közelítıen azonos mértékő változása következett be, melynek átlagos nagyságát a B paraméter fejezte ki. Az exponenciális függvényt akkor alkalmazzuk, ha az X egységnyi változásának hatására az Y-ban bekövetkezett változás nem abszolút értelemben közelítıen azonos, hanem relatív módon (vagyis százalékban kifejezve). Ezt úgy is megfogalmazhatjuk, hogy a
192 12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS függı változó abszolút változásának mértéke függ attól, hogy korábban milyen értékeket ért el, hiszen például egy állandó B%-os növekedés egyre nagyobb és nagyobb abszolút növekedésnek felel meg. Az exponenciális regressziófüggvény egyenlete: Yˆ = β 0 ⋅ β1X Egy konkrét X-Y adatsor összefüggésének vizsgálatakor az a feladatunk, hogy meghatározzuk és értelmezzük a β 0 és β 1 regressziós paramétereket. Ezt úgy végezzük el, hogy a fenti függvényt logaritmikus transzformáció segítségével lineárissá alakítjuk, majd a további számításokat a lineáris esetnél megismert módszerre visszavezetve hajtjuk végre. A linearizált egyenlet a következı: log Yˆ = log β 0 + X ⋅ log β1 Vezessük be a következı jelöléseket:
logβ 0 = β ∗0
és
log β 1 = β 1∗
Ekkor az egyenletünk: log Yˆ = β 0∗ + β1∗ ⋅ X A már ismert legkisebb négyzetek módszerét alkalmazva a következı normálegyenletekhez jutunk:
∑ log Y = n ⋅ β + β ⋅ ∑ X ∑ X ⋅ log Y = β ⋅ ∑ X + β ⋅ ∑ X ∗ 0
∗ 1
∗ 0
∗ 1
2
Az egyenletrendszert megoldva megkapjuk a β ∗0 és a β 1∗ értékét, melyek alapján kiszámít∗
hatók a paraméterek: β 0 = 10 β 0
és
∗
β 1 = 10β1
Az így kapott exponenciális regressziófüggvény segítségével megbecsülhetjük az egyes X értékekkel együtt elıforduló Y értékek átlagos nagyságát. A paraméterek értelmezése: β 0 :Az egyenlet alapján látható, hogy ha X = 0 ⇒ Yˆ = β 0 , tehát a β 0 paraméter az X = 0 értékhez tartozó regresszió alapján becsült Y értéket jelenti. Ez megegyezik a lineáris regressziós függvény A paraméterének értelmezésével, s hasonlóan az ott leírtakhoz - itt is mindig meg kell vizsgálni, hogy a konkrét adatsorok esetében van-e értelme ennek a paraméternek. β 1 : Ez a paraméter mindig értelmezhetı, s jelentése a következı: Ha az X változó értéke egy egységgel nı, akkor a regresszió alapján becsült Y érték (100β β 1 - 100)%-kal változik. Ha β 1 > 1, akkor ez a változás növekedés lesz, ha 0 < β 1 < 1, akkor pedig csökkenés. (A β 1 ≤ 0 eset nem fordulhat elı, mivel β 1 a 10 hatványa, ami mindig pozitív.) Példa:
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS 193 Egy felmérés során megvizsgálták 15 budapesti család egy fıre jutó havi jövedelme (X, ezer Ft) és egy fıre jutó havi utazási kiadása (Y, ezer Ft) közötti összefüggést exponenciális regressziószámítás segítségével. Az adatok és a részeredmények a következık:
Sorsz. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Össz.
Egy fıre jutó havi jövedelem(X) utazási kiadás(Y) ezer Ft 15,4 2,21 16,3 2,32 18,7 2,68 22,3 3,28 19,5 2,84 25,9 3,57 28,1 4,01 16,9 2,43 23,4 3,55 22,9 3,39 24,6 3,41 30,5 4,52 17,4 2,51 31,2 4,87 25,5 3,49 338,6 49,08
logY
XlogY
X2
Yˆ
0,3444 0,3655 0,4281 0,5159 0,4533 0,5524 0,6031 0,3856 0,5502 0,5302 0,5327 0,6551 0,3997 0,6875 0,5428 7,5468
5,3038 5,9576 8,0055 11,5046 8,8393 14,3149 16,9471 6,5166 12,8747 12,1416 13,1044 19,9805 6,9548 21,4500 13,8414 177,7368
237,16 265,69 349,69 497,29 380,25 670,81 789,61 285,61 547,56 524,41 605,16 930,25 302,76 973,44 650,25 8009,94
2,27 2,37 2,64 3,12 2,74 3,68 4,07 2,43 3,28 3,21 3,47 4,55 2,49 4,69 3,61 48,62
Megjegyzés: A táblázat utolsó oszlopában a már kész regressziós egyenlet segítségével becsült Y$ értékek találhatók. Ezek összege csupán a kerekítések miatt nem egyezik meg pontosan az eredeti Y értékek összegével.
12.1. táblázat Az adatokat behelyettesítve a normálegyenletekbe a következı adódik:
7,5468 = 15β ∗0 + 338,6β 1∗
177,7368 = 338,6β ∗0 + 8009,94β 1∗ Az egyenletrendszer megoldása:
β ∗0 = 0,0494 és β 1∗ = 0,0201
Így a regressziós paraméterek: β 0 = 10 0,0494 = 112 , Az exponenciális regressziós egyenlet tehát: A paraméterek értelmezése:
és
β 1 = 10 0,0201 = 1,047
Yˆ = 1,12 ⋅ 1,047 X
194 12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS β 0 = 1,12 : Ha az egy fıre jutó havi jövedelem 0 ezer Ft, akkor a regresszió szerint 1,12 ezer Ft lenne az utazási kiadás, de ez természetesen nem értelmezhetı. β 1 = 1,047 : Ahol az egy fıre jutó havi jövedelem 1 ezer Ft-tal nagyobb, ott a regresszió szerint átlagosan 4,7%-kal többet költenek utazásra.
12.1.2. Hatványkitevıs regresszió A hatványkitevıs regressziófüggvényt akkor alkalmazzuk, ha a két vizsgált változó logaritmusa között lineáris összefüggés van. Egyenlete a következı:
Yˆ = β 0 ⋅ X β1
A paraméterek kiszámításához most is az elıbbi módszert alkalmazzuk. Így tehát a linearizált egyenlet:
log Yˆ = log β 0 + β1 ⋅ log X logβ 0 = β ∗0
Alkalmazzuk a következı jelöléseket:
és
Ekkor az egyenlet: log Yˆ = β 0∗ + β1 ⋅ X ∗ A normálegyenletek:
∑ log Y = n ⋅ β + β ⋅ ∑ X ∑ X ⋅ log Y = β ⋅ ∑ X + β ⋅ ∑ X ∗ 0
∗
∗
1
∗ 0
∗
1
∗2
Az egyenletrendszer megoldásaként közvetlenül megkapjuk a β 1 paramétert, a β 0-t pedig a ∗
β ∗0 -ból ugyanúgy számítjuk ki, mint eddig, vagyis β 0 = 10β 0 . A regressziós paramétereket a következı módon értelmezzük: β 0 : Az egyenlet alapján látható, hogy ha X = 1 ⇒ Yˆ = β 0 , vagyis β 0 az X = 1 helyhez tartozó regresszió alapján becsült Y értéket jelenti. Hasonlóan az eddigiekhez, itt is mindig meg kell vizsgálni, hogy a paraméter értelmezhetı-e. β 1 : Ez a paraméter mindig értelmezhetı, s jelentése a következı: Ha X 1%-kal nı, akkor a regresszió alapján becsült Y érték β 1%-kal változik. Ez a változás növekedés akkor, ha β 1 > 0, s csökkenés akkor, ha β 1 < 0. A 7.2.3.4. fejezet alapján látható, hogy a β 1 paraméter lényegében egy elaszticitási (rugalmassági) mutató, amely azonban konstans, tehát nem függ X értékétıl. Példa:
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS 195 Egy háztartás-statisztikai felmérés során megvizsgálták 10 háztartás egy fıre jutó éves jövedelme (X, ezer Ft) és az egy fıre jutó mővelıdésre fordított éves kiadás (Y, ezer Ft) közötti összefüggést hatványkitevıs regressziószámítás segítségével. Az adatokat és a részeredményeket az alábbi táblázat mutatja:
Sorsz. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Össz.
Egy fıre jutó éves jövedelem(X) mőv.kiad.(Y) logX=X* logY ezer Ft 96 28 1,9823 1,4472 120 32 2,0792 1,5051 135 39 2,1303 1,5911 150 49 2,1761 1,6902 175 58 2,2430 1,7634 184 69 2,2648 1,8388 200 80 2,3010 1,9031 300 140 2,4771 2,1461 500 190 2,6990 2,2787 900 200 2,9542 2,3010 2760 885 23,3070 18,4647
X*logY
X*2
Yˆ
2,8688 3,1294 3,3895 3,6780 3,9553 4,1645 4,3790 5,3161 6,1502 6,7976 43,8284
3,9295 4,3231 4,5382 4,7354 5,0310 5,1293 5,2946 6,1360 7,2846 8,7273 55,1290
31,9 39,8 44,6 49,5 57,6 60,5 65,7 97,8 161,5 287,5 896,4
Megjegyzés: A táblázat utolsó oszlopában a már kész regressziós egyenlet segítségével becsült Y$ értékek találhatók.
12.2 táblázat Behelyettesítve a táblázat adatait az egyenletrendszerbe:
18,4647 = 10β ∗0 + 23,307β 1
43,8284 = 23,307β ∗0 + 55,129β 1
Az egyenletrendszer megoldása:
β ∗0 = −0,4418 ⇒ β 0 = 10 −0,4418 = 0,3616
β1 = 0,9818 Így a hatványkitevıs regressziós egyenlet:
Yˆ = 0,3616 ⋅ X 0,9818
A paraméterek értelmezése: β 0 = 0,3616 : Ha az egy fıre jutó éves jövedelem 1 ezer Ft lenne, akkor a regresszió szerint 0,3616 ezer Ft lenne az egy fıre jutó éves mővelıdésre fordított kiadás. Ez nyilvánvalóan nem értelmezhetı, hiszen a valóságban nem fordulhat elı az 1 ezer Ft/fıs éves jövedelem. β 1 = 0,9818 : Amely háztartás évi egy fıre jutó jövedelme 1%-kal nagyobb, ott a regresszió alapján átlagosan 0,9819%-kal többet költenek mővelıdésre. (Ez közel egységnyi rugal-
196 12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS masságnak felel meg, tehát amilyen arányban nı a jövedelem, kb. ugyanolyan arányban nı a mővelıdésre fordított kiadás.)
12.1.3. Nemlineáris korrelációszámítás A lineáristól eltérı módon leírható korrelációs kapcsolatok esetében is vizsgálható a két változó közötti összefüggés szorossága. Általánosan használható erre a célra a korrelációs index (I), melyet a következıképpen határozunk meg:
∑ (Y − Yˆ ) 1− ∑ (Y − Y )
2
I=
2
Határai: 0 ≤ I ≤ 1
(Bizonyítható, hogy ez a mutatószám lineáris esetben megegyezik a lineáris korrelációs együtthatóval.) Értelmezése teljesen hasonló az eddigi korrelációs együtthatók értelmezéséhez azzal a különbséggel, hogy az I nyilván nem mutatja a kapcsolat irányát. Erre a megfelelı regressziós egyenlet β 1 paraméterébıl tudunk következtetni. A kapcsolat szorossága: Ha I = 0 ⇒ nincs kapcsolat I = 1 ⇒ függvényszerő kapcsolat 0 < I < 1 ⇒ sztochasztikus kapcsolat Ezen belül ha: I ≈ 0,5 ⇒ közepesen erıs kapcsolat I << 0,5 ⇒ gyenge kapcsolat I >> 0,5 ⇒ szoros kapcsolat A kapcsolat iránya: a) Exponenciális regresszió esetén: Ha β 1 > 1 ⇒ pozitív irányú kapcsolat 0 < β 1 < 1 ⇒ negatív irányú kapcsolat b) Hatványkitevıs regresszió esetén: Ha β 1 > 0 ⇒ pozitív irányú kapcsolat β 1 < 0 ⇒ negatív irányú kapcsolat Megjegyezzük, hogy létezik olyan - általunk nem tárgyalt - görbe vonalú regresszió is (pl. másodfokú parabola), amelynek változik az iránya. Ilyenkor a korrelációs indexhez nem kapcsolható elıjel. Példa:
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS Állapítsuk meg a kapcsolat irányát és szorosságát a két elızı példa esetén:
197
a) Exponenciális regresszió A 12.1.1. fejezetben szereplı példa alapján a szükséges adatok a következık:
∑ (Y − Yˆ ) = 0,2356 ∑ ( Y − Y ) = 8,7633 2
2
49,08 = 3,27 Y = 15
Így a korrelációs index:
I = 1−
0,2356 = 0,986 8,7633
Látható, hogy a jövedelem és az utazásra fordított kiadások között nagyon szoros sztochasztikus kapcsolat mutatható ki. Ez a kapcsolat pozitív irányú - vagyis a jövedelem növekedésével nınek az utazási kiadások -, hiszen a példában β 1 = 1,047 > 1. b) Hatványkitevıs regresszió A 12.1.2. fejezetben szereplı példa alapján a szükséges adatok a következık:
∑ (Y − Yˆ ) = 10633,9 ∑ ( Y − Y ) = 37632,5 2
2
885 = 88,5 Y = 10
Így a korrelációs index:
I = 1−
10633,9 = 0,847 37632,5
A jövedelem és a mővelıdésre fordított kiadások között is erıs sztochasztikus kapcsolat állapítható meg. A kapcsolat iránya most is pozitív, hiszen a példában β 1 = 0,9818 > 0.
198
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS
12.2. Háromváltozós lineáris korreláció- és regressziószámítás A gyakorlatban igen sokszor elıfordul, hogy egy bizonyos jelenség alakulását több tényezı is befolyásolja, vagyis egy függı változóra több független (magyarázó) változó is hat. Amennyiben ezen változók mindegyike metrikus (vagy kezelhetı metrikusként), akkor a közöttük lévı összefüggés leírható többváltozós regressziós modell segítségével, a kapcsolat iránya és szorossága pedig többváltozós korreláció-számítással határozható meg. Jegyzetünkben a többváltozós elemzéseknek csak a legegyszerőbb fajtájával fogunk foglalkozni, nevezetesen a háromváltozós lineáris modellel. Ebben az esetben egy függı változóra (Y) két független változó (X1 és X2) hat, s a közöttük lévı összefüggés lineáris természető.
12.2.1. A háromváltozós lineáris regressziós modell A háromváltozós lineáris regressziófüggvény egyenlete a következıképpen írható fel:
Yˆ = β 0 + β1 ⋅ X 1 + β 2 ⋅ X 2 Az egyenletben szereplı β 1 és β 2 együtthatókat parciális regressziós paramétereknek nevezzük, s meghatározásukhoz - az eddigiekhez hasonlóan - a legkisebb négyzetek módszerét használjuk fel. Mivel a fenti egyenletben három ismeretlen paraméter szerepel, így nyilván a
∑ (Y − Yˆ )
2
→ min . szélsıérték-keresési probléma megoldásaként most egy
három egyenletbıl álló normálegyenlet-rendszert fogunk kapni, amely a következı:
∑Y = n ⋅β + β ⋅ ∑ X + β ⋅∑ X ∑ X ⋅ Y =β ⋅ ∑ X + β ⋅ ∑ X + β ⋅ ∑ X ⋅ X ∑X ⋅Y = β ⋅∑X +β ⋅∑X ⋅X +β ⋅∑X 0
1
2
1
0
1
1
0
2
2 1
1
2
2
1
2
1
2
1
2
2 2 2
Az egyenletrendszer a fenti formában minden további nélkül megoldható, de egyszerősíthetjük a számításainkat akkor, ha az egyes változókat helyettesítjük a saját számtani átlaguktól vett eltérésekkel. Vezessük be a következı jelöléseket:
dY = Y − Y
d 1 = X 1 − X1
d 2 = X 2 − X2
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS 199 Ezeket behelyettesítve a fenti egyenletrendszerbe látható, hogy az elsı egyenlet "megszőnik", hiszen dY = 0 , d 1 = 0 és d 2 = 0 . A másik két egyenlet a követ-
∑
∑
∑
kezı módon alakul át:
∑d d ∑d d 1
Y
2
Y
= β 1 ⋅ ∑ d 12 + β 2 ⋅ ∑ d 1d 2 = β 1 ⋅ ∑ d 1d 2 + β 2 ⋅ ∑ d 22
Az egyenletrendszert megoldva megkapjuk a β 1 és β 2 paramétereket, melyeket felhasználunk a β 0 paraméter kiszámításához az alábbiak szerint:
β 0 = Y − β 1 ⋅ X1 − β 2 ⋅ X 2 A kész egyenlet alapján bármely X1 - X2 értékpárhoz megbecsülhetjük a velük együtt elıforduló átlagos Y értéket. Végül értelmezzük a paramétereket: β 0 : Ha X1 = X2 = 0 ⇒ Yˆ = β 0, vagyis β 0 azt a regresszió alapján becsült Y értéket mutatja, amely a nulla nagyságú magyarázó változókhoz tartozik. A paraméter értelmezhetıségérıl mindig a konkrét eset kapcsán kell meggyızıdni. β 1 : Ha X2 nagysága állandó, s X1 egy egységgel nı, akkor a regresszió alapján becsült Y érték β 1 egységgel változik. Ez a változás növekedés, ha β 1>0, s csökkenés, ha β 1<0. β 2 : Ha X1 nagysága állandó, s X2 egy egységgel nı, akkor a regresszió alapján becsült Y érték β 2 egységgel változik. Ez a változás növekedés, ha β 2>0, s csökkenés, ha β 2<0. Látható tehát, hogy a β 1 és a β 2 paraméter elıjele megmutatja az Y - X1 és az Y - X2 változók közötti kapcsolat irányát abban az esetben, ha a másik magyarázó változót állandónak tekintjük. Példa: 15 termelıszövetkezetben a kukorica termésátlaga (Y, t/ha), a mővelésre fordított munkaidı (X1, óra/ha) és az öntözésre felhasznált víz mennyisége (X2, m3/ha) a következıképpen alakult:
200
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS Sorsz. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Össz.
Termésátlag(t/ha) Y 6,1 6,7 7,4 7,6 7,7 8,1 8,5 9,0 9,4 9,8 10,2 10,5 11,4 11,8 12,3 136,5
Munkaidı (óra/ha) X1 67 76 83 81 88 88 86 90 94 91 90 93 94 89 95 1305
Öntözıvíz (m3/ha) X2 930 970 1010 1040 1020 1210 1190 1240 1380 1360 1450 1410 1580 1750 1620 19160
12.3. táblázat Vizsgáljuk meg regressziószámítás segítségével, hogy a munkaidı-ráfordítás és az öntözıvíz mennyisége hogyan hatott a kukorica termésátlagára. A számítások elvégzéséhez mindenekelıtt szükségünk van a három változó átlagára, melyek a következık:
Y=
136,5 1305 19160 = 9,1 X1 = = 87 X 2 = = 1277 15 15 15
A további számítási részeredményeket az alábbi táblázat mutatja:
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS Sorsz. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Össz.
dY -3,0 -2,4 -1,7 -1,5 -1,4 -1,0 -0,6 -0,1 0,3 0,7 1,1 1,4 2,3 2,7 3,2 0,0
d1 -20 -11 - 4 - 6 1 1 - 1 3 7 4 3 6 7 2 8 0
d2 -347 -307 -267 -237 -257 - 67 - 87 - 37 103 83 173 133 303 473 343 5≈ ≈0 b)
d1dY 60,0 26,4 6,8 9,0 - 1,4 - 1,0 0,6 - 0,3 2,1 2,8 3,3 8,4 16,1 5,4 25,6 163,8
d2dY 1041,0 736,8 453,9 355,5 359,8 67,0 52,2 3,7 30,9 58,1 190,3 186,2 696,9 1277,1 1097,6 6607,0
201 d1d2 6940 3377 1068 1422 - 257 - 67 87 - 111 721 332 519 798 2121 946 2744 20640
d21 400 121 16 36 1 1 1 9 49 16 9 36 49 4 64 812
d22 120409 94249 71289 56169 66049 4489 7569 1369 10609 6889 29929 17689 91809 223729 117649 919895
dY2 a) 9,00 5,76 2,89 2,25 1,96 1,00 0,36 0,01 0,09 0,49 1,21 1,96 5,29 7,29 10,24 49,80
Megjegyzések: a) A táblázat utolsó oszlopát a következı fejezetben szereplı korrelációszámí tásnál fogjuk csak felhasználni. b) Σd2 azért nem pontosan 0, mert
X 2 kerekített érték, a pontos értéke 1277,3& .
12.4. táblázat A táblázat adatait helyettesítsük be az egyenletrendszerbe:
163,8 = 812β 1 + 20640β 2
6607 = 20640β 1 + 919895β 2
Az egyenletrendszer megoldása:
β 1 = 0,044
β 2 = 0,0062
Ezek felhasználásával meghatározható a β 0 paraméter:
β 0 = 9,1 − 0,044 ⋅ 87 − 0,0062 ⋅ 1277 = −2,645 Így a regressziós egyenlet:
Yˆ = −2,645 + 0,044 X 1 + 0,0062 ⋅ X 2
A paramétereket a következıképpen értelmezhetjük: β 0 = -2,654 : Ha egy szövetkezetben nem végeznek munkát a kukoricaföldeken és nem is öntöznek, akkor -2,645 t/ha lenne a termésátlag a regresszió szerint. Ez
202
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS nyilvánvalóan lehetetlen és teljesen értelmetlen, tehát a paraméter nem értelmezhetı.
β 1 = 0,044 : Ha a felhasznált öntözıvíz mennyiségét állandónak tekintjük, akkor annál a szövetkezetnél, ahol 1 óra/ha-ral több a munkaidı-felhasználás, 0,044 t/ha-ral (44 kg/ha-ral) magasabb a termésátlag a regresszió szerint. β 2 = 0,0062 :Ha a munkaidı-ráfordítást állandónak tekintjük, akkor annál a szövetkezetnél, ahol 1 m3/ha-ral több öntözıvizet használnak fel, 0,0062 t/ha-ral (6,2 kg/ha-ral) nagyobb a termésátlag a regresszió szerint.
12.2.2. A háromváltozós lineáris korreláció A 7.2.3.3. fejezetben már megismerkedtünk a kétváltozós lineáris korrelációs kapcsolatot jellemzı két mutatóval: a lineáris korrelációs együtthatóval (r) és a determinációs együtthatóval (r2). Háromváltozós modell esetén megvizsgálhatjuk azt, hogy a két magyarázó változó (X1 és X2) együttesen milyen szoros kapcsolatban van a függı változóval (Y). Erre a kérdésre a többszörös korrelációs együttható (RY.12) alapján válaszolhatunk, melynek kiszámításához a modellben szereplı változók közötti kétváltozós lineáris korrelációs együtthatókat használjuk fel. Ezeket az együtthatókat általában a korrelációs mátrix (R) felírásával szokás megadni a következıképpen:
Y X1 X 2 Y 1 rY1 rY 2 R = X 1 rY1 1 r12 X 2 rY 2 r12 1 Az R mátrix átlójában található értékek mindegyike 1, hiszen itt a változók önmagukkal való korrelációjáról van szó, s erre az átlóra a mátrix szimmetrikus (ezért általában csak az egyik felét szokás felírni). A mátrixban található jelölések a következık: rY1 : Y és X1 közötti lineáris korrelációs együttható rY2 : Y és X2 közötti lineáris korrelációs együttható r12 : X1 és X2 közötti lineáris korrelációs együttható (Ezek kiszámítása természetesen a 7.2.3.3. fejezetben már ismertetett módon történik.) Ezek után a többszörös korrelációs együttható a következı módon határozható meg:
R Y⋅12 =
rY21 + rY2 2 − 2 ⋅ rY1 ⋅ rY 2 ⋅ r12 1 − r122
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS
203
A mutató elıjelét mindig pozitívnak tekintjük, de ez nem jelent feltétlenül pozitív irányú kapcsolatot a változók között. Így tehát ez az együttható csak az Y valamint az X1 és X2 változók közötti kapcsolat szorosságát méri, de annak irányát itt nem értelmezzük. Értéke a következı határok között mozog: 0 ≤ R Y⋅12 ≤ 1 Értelmezése teljesen megegyezik az eddig tárgyalt korrelációs együtthatók értelmezésével. A háromváltozós korrelációs kapcsolat további jellemzésére kiszámíthatjuk a többszörös determinációs együtthatót ( R 2Y⋅12 ), mely a többszörös korrelációs együttható négyzete. A mutatót mindig százalékban fejezzük ki, s arra a kérdésre ad választ, hogy a független változók (X1 és X2) együttesen hány százalékban magyarázzák a függı változó (Y) szóródását. Példa: Folytassuk az elızı (12.2.1.) fejezet példáját, s nézzük meg, hogy a munkaidıráfordítás (X1) és az öntözıvíz mennyisége (X2) milyen kapcsolatban áll a kukorica termésátlagával (Y). Ehhez elıször a kétváltozós lineáris korrelációs együtthatókat kell meghatároznunk:
rY1 = rY 2 = r12 =
∑d d ∑d ∑d ∑d d ∑d ∑d ∑d d ∑d ∑d 1
Y
2 1
2
Y
2 2
1
2 1
2 Y
2 Y
2
2 2
= = =
163,8 812 ⋅ 49,8
= 0,815
6607 919895 ⋅ 49,8 20640 812 ⋅ 919895
= 0,976
= 0,755
A fentieket behelyettesítve a többszörös korrelációs együttható képletébe, a következı adódik:
R Y⋅12 =
0,815 2 + 0,976 2 − 2 ⋅ 0,815 ⋅ 0,976 ⋅ 0,755 = 0,984 1 − 0,755 2
Látható, hogy nagyon szoros sztochasztikus kapcsolat van a kukorica termésátlaga, valamint a munkaidı-ráfordítás és az öntözıvíz mennyisége között. A többszörös determinációs együttható pedig:
204
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS
R
2 Y⋅12
= 0,984 = 0,968 2
Vagyis a munkaidı-ráfordítás és az öntözıvíz mennyisége együttesen 96,8%-ban magyarázzák a kukorica termésátlagának szóródását. A maradék 3,2% más - általunk nem vizsgált - tényezık hatásának tulajdonítható. *** A háromváltozós modell esetében lehetıség van annak vizsgálatára is, hogy az egyes magyarázó változók külön-külön milyen kapcsolatban állnak a függı változóval, mégpedig a másik magyarázó változó hatásának teljes kikapcsolása mellett. Erre a célra a parciális korrelációs együtthatókat és azok négyzeteit, a parciális determinációs együtthatókat használjuk. Ezek a mutatók szintén a kétváltozós lineáris korrelációs együtthatók segítségével írhatók fel a következıképpen:
rY1.2 = rY 2.1 = r12.Y =
rY1 − rY 2 ⋅ r12
(1 − r ) ⋅ (1 − r ) 2 Y2
2 12
rY 2 − rY1 ⋅ r12
(1 − r ) ⋅ (1 − r ) 2 Y1
2 12
r12 − rY1 ⋅ rY 2
(1 − r ) ⋅ (1 − r ) 2 Y1
2 Y2
⇒ rY21.2 ⇒ rY2 2.1 ⇒ r122.Y
Látható, hogy a mutatók alsó indexében feltüntetjük, hogy mely változók kapcsolatáról van szó, a pont után pedig megjelöljük, hogy mely változó hatását kapcsoltuk ki mindkét változóból. Ez a bizonyos "kikapcsolás" azt jelenti, hogy eltekintünk az adott változó hatásától, vagyis változatlannak, állandónak tekintjük azt. Látszik továbbá az is, hogy parciális korrelációs és determinációs együtthatókat számíthatunk a két magyarázó változó közötti összefüggés jellemzésére is, s ekkor a függı változót tekintjük változatlannak. A mutatók értelmezése az eddigiekhez hasonlóan történik, s határaik a következık:
−1 ≤ rY1.2 ; rY 2.1 ; r12.Y ≤ 1 Parciális korrelációs együtthatók: Elıjele a kapcsolat irányát, abszolút értéke pedig a kapcsolat szorosságát mutatja. Parciális determinációs együtthatók: 0 ≤ rY21.2 ; rY2 2.1 ; r122 .Y ≤ 1 Mindig százalékban fejezzük ki. Példa: Folytatva a már megkezdett példánkat, számítsuk ki a parciális korrelációs és determinációs együtthatókat! Tudjuk, hogy a korrelációs mátrix a következı:
12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS
205
Y X1 X 2 Y 1 0,815 0,976 R = X 1 1 0,755 X 2 1 Így a parciális korrelációs és determinációs együtthatók az alábbiak szerint számíthatók ki:
rY1.2 = rY 2.1 = r12.Y =
0,815 − 0,976 ⋅ 0,755
(1 − 0,976 ) ⋅ (1 − 0,755 ) 2
2
0,976 − 0,815 ⋅ 0,755
(1 − 0,815 ) ⋅ (1 − 0,755 ) 2
2
0,755 − 0,815 ⋅ 0,976
(1 − 0,815 ) ⋅ (1 − 0,976 ) 2
2
= 0,547 ⇒ rY21.2 = 0,299 = 0,949 ⇒ rY2 2.1 = 0,901 = −0,321 ⇒ r122.Y = 0,103
Az elsı mutatópár értelmezése: Ha az öntözıvíz mennyiségét (X2) mind a 15 vizsgált termelıszövetkezetben azonosnak tekintjük, akkor a munkaidı-ráfordítás (X1) és a kukorica termésátlaga (Y) között közepesen erıs pozitív irányú sztochasztikus kapcsolat van. Ilyen feltételek mellett a munkaidıráfordítás 29,9%-ban magyarázza a termésátlag szóródását. A másik két mutatópárt a fentiek analógiájára értelmezzük. (Megjegyezzük, hogy az r122.Y mutató értelmezése gyakran nehézkes - így eltekintünk tıle , mert nem mindig lehet eldönteni, hogy a két független változó közül melyik magyarázza a másik szóródását, hiszen leggyakrabban kölcsönhatás van közöttük.)
12.2.3. Multikollinearitás Végezetül egy olyan fogalommal, jelenséggel ismerkedjünk meg, amely kifejezetten többváltozós modellek esetén fordul elı: ez a jelenség a multikollinearitás. A multikollinearitás a magyarázó változók között fennálló lineáris korrelációs kapcsolatot jelenti. Az ilyen kapcsolat létezése - vagyis ha a magyarázó változók nem függetlenek egymástól - kedvezıtlen jelenség, ugyanis problémákat okoz a korreláció- és regressziószámítás eredményeinek értelmezésekor. Így például a multikollinearitás következtében a β regressziós paraméterek megbízhatósága csökken, valamint nem lehetséges az egyes magyarázó változók hatásának elkülönült vizsgálata. A multikollinearitás kimutatása a következı meggondoláson alapul: Ha a magyarázó változók függetlenek egymástól - vagyis nincs multikollinearitás -, akkor az egyes magya-
206 12. KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS rázó változók függı változóra gyakorolt hatásainak összege éppen megegyezik az együttes hatást mérı többszörös determinációs együtthatóval. Ha viszont ez az egyenlıség nem áll fenn, vagyis a többszörös determinációs együtthatónak van olyan része, amely nem bontható fel a változónkénti hatások összegére, akkor ezt a részt a változók nyilván közösen magyarázzák, így ezt tekintjük a multikollinearitás mértékének. A fentiek alapján a háromváltozós modellben a multikollinearitás mérıszáma (M) a következı:
[(
) (
M = R 2Y⋅12 − R 2Y⋅12 − rY2 2 + R 2Y⋅12 − rY21
)]
Példa: Eddigi példánkat felhasználva számítsuk ki a multikollinearitás mértékét:
[(
) (
M = 0,968 − 0,968 − 0,976 2 + 0,968 − 0,8152
)] = 0,968 − (0,015 + 0,304) = 0,649
Mivel M ≠ 0, így a modellben multikollinearitás van, vagyis az öntözıvíz mennyisége és a munkaidı-ráfordítás között lineáris korrelációs kapcsolat van. Az egyes változók hozzájárulása a többszörös determinációs együtthatóhoz a következı: X1 hatása: X2 hatása: M hatása (X1 és X2 el nem különíthetı hatása): Együtt ( R 2Y⋅12 ):
0,015 0,304 0,649 0,968
*** Megjegyezzük, hogy léteznek a multikollinearitással kapcsolatos további, mélyebb statisztikai elemzési eljárások is, de ezekkel jegyzetünkben nem foglalkozunk.
207
3. A FONTOSABB STATISZTIKAI INFORMÁCIÓFORRÁSOK A statisztikai adatok felhasználói - így az értékesítési, termelési-fejlesztı szakemberek, a piackutatók, a vállalati üzletpolitikát, stratégiai tervet kialakítók, reklámirányítók számára nélkülözhetetlen annak ismerete, hogy a munkájukhoz, elemzéseikhez szükséges statisztikai adatokat honnan, milyen forrásból szerezhetik be. E források száma és jellemzıi olyan széleskörőek és nagyszámúak, hogy akár enciklopédiába is foglalhatók lennének. A továbbiakban azonban - lehetıségünkhöz képest - csak az üzletpolitika szempontjából legfontosabb, számukra szekunder jellegő forrásokról teszünk említést. A szekunder statisztikai forrásokat több csoportba oszthatjuk aszerint, hogy azok kibocsátói hazai vagy külföldi intézmények, illetve hivatalos szervek, vagy profit orientált, információszolgáltatásra specializált vállalatok. Osztályozhatnánk továbbá a forrásokat aszerint is, hogy a fenti csoportokba tartozók elsıdleges, vagy másod- (esetleg harmadlagos kibocsátói az adatoknak. Számunkra azonban ez csak annyiban figyelemreméltó, hogy csupán olyan forrásokat használjunk fel, amelyeknek megbízhatósága közismert. A belföldi és külföldi statisztikai forrásokról a 13.1. ábra nyújt áttekintést
13.1. Belföldi statisztikai adatforrások A hazai szekunder statisztikai források száma és struktúrája jelenleg, a kialakuló piacgazdálkodás követelményeinek megfelelıen, kialakulóban van. Napjainkban s várhatóan az elkövetkezı években is a legjelentısebb adatforrást a Központi Statisztikai Hivatal (KSH) jelenti.
A fontosabb szekunder statisztikai adatforrások Informá ció forrá s
Belfö ldi
KSH é s terü leti szervei
Kutató inté zetek
Kü lfö ldi
Vá llalati
Kö zvé lemé nykutató inté zetek
Hivatalos inté zmé nyek
Egyé b forrá sok
ENSZ
Statisztikai hivatal
Nemzeti inté zmé nyek
Szakmai szervezetek
Regioná lis inté zmé nyek
13.1 ábra
Magá ninté zmé nyek
Piackutató vá llalatok
Nagybankok
Lapkiadó k, ü gynö ksé gek
208
13. FONTOSABB STATISZTIKAI INFORMÁCIÓFORRÁSOK
13.1.1. A KSH, mint adatforrás A KSH a Statisztikai Törvényben elıírt módon végzi adatgyőjtı, értékelı és publikáló tevékenységét. Teljes körő és reprezentatív felmérései felölelik a társadalmi-gazdasági élet jóformán minden fontosabb jelenségét. Kiadványait - amelyek csekély kivétellel potenciálisan felhasználhatók az üzletpolitika számára - négy jellemzı csoportba sorolhatjuk: a) Évkönyvek Ezek a következı tárgykörökre szakosítottak: általános áttekintés (Magyar Statisztikai Évkönyv); demográfia, gazdaságstatisztika, idegenforgalom, külkereskedelem, lakásstatisztika, országos területi és a fıváros, és a 19 megye adatait részletezı évkönyvek és a "Családi költségvetés". b) Közlemények és zsebkönyvek Az e csoportba tartozó sok publikációból csupán azokat emeljük ki, amelyek különösen fontosak lehetnek számunkra. Ezek: az országos-; mezıgazdasági-élelmiszeripari-, nemzetközi-, fıvárosi zsebkönyvek és a "Statisztikai Havi Közlemények", amelyeknek idısorai jól felhasználhatók a dinamikai elemzésnél, az elırejelzésnél. c) Elemzı és ad hoc kiadványok Ezek közül a Havi Tájékoztatót, a "Statisztikai Hírek"-et, és a negyedévenként megjelenı "Iránytő a gazdasághoz" c. kiadványokat tartjuk számunkra fontosnak. d) Statisztikai segédletek Ezek a statisztikai osztályba sorolás kritériumait, jellemzıit, a termékjegyzékeket (a megfigyelt termékcsoportokat, a vállalatok statisztikai számjelének adatait mutatják be. Ezek közül számunkra különös jelentıséggel a termékjegyzék bír, mert ebbıl ismerhetjük meg, hogy milyen legmélyebb bontásban készülnek a termelési és forgalmazási felmérések. - A bemutatott kiadványok közül - a marketing számára különösen fontos szerepe miatt - ha röviden is, de külön kell említést tennünk. Ez a "Családi költségvetés". A KSH évtizedek óta vizsgálja és közreadja a lakosság egyes rétegeinek, csoportjainak fogyasztási színvonalára és szerkezetére vonatkozó adatokat. A korábbi években ezt az évente megjelenı "Háztartásstatisztikai" kiadvány foglalta össze. A piacgazdaság kibontakozása során - a nehezebb gazdasági helyzetben (infláció, munkanélküliség) - egyre nehezebbé válik az ilyen irányú reprezentatív adatgyőjtés. Emiatt az 1989-91-es évekre vonatkozóan a tizenhétezer háztartás adatai alapján készült felmérésnek csupán összefoglalóját adták ki, s 1993-ban jelenik meg a "Családi költségvetés 1991" c. részletes kiadvány. A háztartásstatisztika felépítésével, adatainak elemzésével a gyakorlatok során foglalkozunk. - A KSH az OMFB-vel közösen "STADAT" elnevezéssel 1986-ban fejlesztést indított, egy videotex alapon megvalósuló, gyorsinformációs rendszer létrehozására. Ennek eredményeként ez a rendszer üzemel, s az érdeklıdık részére rendelkezésre áll. A rendszer adatállománya - amely a KSH országos és vidéki adatgyőjtési eredményein kívül tíz központi szerv (tárcák, MNB, OMFB stb.) szolgáltatta adatokat is magában foglal - 6500 táblázat, amelyek havonta, negyedévente, ill. évente kerülnek frissítésre az adatgyőjtéseknek megfelelıen.
13. FONTOSABB STATISZTIKAI INFORMÁCIÓFORRÁSOK 209 - Emellett fontos megemlítenünk a KSH internetes honlapját, ahol a legfontosabb statisztikai adatok ingyenesen állnak rendelkezésre, míg további adatok díjfizetés ellenében lekérdezhetık. - Külön ki kell emelnünk a KSH könyvtárát, amelyben a legújabb publikációk mellett valamennyi KSH kiadvány, amely 125 éves fennállása alatt megjelent, megtekinthetı, ill. felhasználható.
13.1.2. A hazai adatszolgáltatásra szakosított vállalati adatforrások a) A kutató intézetek A teljesség igénye nélkül a jelenlegi "magán"-adatforrások közül elsısorban a gazdasági problémákkal foglalkozó kutató intézeteket kell megemlíteni. Ma már több ilyen mőködik hazánkban. Ezek közül, adatforrás szempontjából a legjelentısebb a Konjunktúra-, Piackutató és Számítástechnikai RT (KOPINT-DATORG), amely mind hazai, mind nemzetközi kutatásaihoz szükséges, különbözı szekunder forrásokból összeállított statisztikáit ugyancsak publikálja. Számunkra a potenciális felhasználásra legjelentısebb, statisztikai adatsorokat közlı kiadványsorozatok a következık: - Ipari konjunktúrateszt eredmények. Az évente négy alkalommal kiadott jelentés a negyedévenkénti tesztvizsgálat eredményeit tartalmazza. - Konjunktúra jelentés. Ez az évente több alkalommal megjelenı értékelés a világgazdaság és a magyar gazdaság helyzetével és kilátásaival foglalkozik. - Árupiac. Ez elsısorban a belföldi árak alakulásának elemzéseit, illetve adatsorait tartalmazza. - A világpiaci árak várható alakulása kiadvány évenként jelenik meg. - Agrártermékeink világpiaca. Ez az évenként megjelenı elemzés a helyzetet bemutató adatsorok mellett rövidtávú elemzéseket is tartalmaz. b) Közvélemény-kutató intézet Szemben a piackutató intézetekkel, amelyek felméréseik adatait csak megbízóiknak bocsáthatják rendelkezésre, a közvélemény-kutató intézetek vizsgálati eredményeiket gyakran hozzák nyilvánosságra. Ezek között sőrőn találhatók olyan adat-összeállítások, amelyek az üzletpolitikában jól hasznosíthatók. Ilyen intézetek között elsısorban a SZONDAIPSOS. a GALLUP; a MODUSZ és a MEDIAN, valamint a GFK-HUNGARIA KFT-t lehet megemlíteni, amelyek reklámhatékonysági felméréseihez megrendeléssel hozzá lehet jutni. c) Egyéb belföldi statisztikai adatforrások Szövetségek, kamarák, egyesületek, különbözı célú adatbankok, az MNB és más bankok egész sora ad ki, illetve az érdeklıdık rendelkezésére bocsátja adatgyőjtéseinek eredményeit.
210
13. FONTOSABB STATISZTIKAI INFORMÁCIÓFORRÁSOK
13.2. Külföldi statisztikai adatforrások 13.2.1. Az ENSZ statisztikai információi Az ENSZ, New Yorkban székelı statisztikai hivatalán keresztül győjti a tagországok statisztikai szervei által hozzá eljuttatott adatokat, s ezekbıl egyrészt rendszeres kiadványokat készít. Évente jelenteti meg a statisztikai évkönyvét (Statistical Yearbook), havi közleményeit (V.N.Monthly Bulletin, of Statistics) és számos szakstatisztikai (demográfiai, ipari, pénzügyi, kereskedelmi statisztikai éves győjteményeit. Másrészt ellátja alapadatokkal az ENSZ egyes szakosított nemzetközi szervezeteit (UNCTAD. ITC, UNIDO, FAO, UNESCO stb.), amelyek azokat feldolgozva, elemzéseik mellett statisztikai évkönyveket, jelentéseket is publikálnak. E tengernyi adatforrásból csupán egy példát ragadunk ki: A Nemzetközi Kereskedelmi Központ (ITC) genfi központja adatbankjából lehívhatók a fejlıdı országok termékcsoport mélységő teljes importstatisztikája (mennyiségben és értékben, évenkénti bontásban, a szállító országok szerinti részletezésben).
13.2.2. Regionális szervezetek statisztikai információi Világszerte több gazdasági regionális szervezet mőködik az ENSZ-en kívül. Ilyen például az OECD (Organization for European Economic Cooperation and Development = Európai Gazdasági Együttmőködési Szervezet) és az EEC (European Economic Community = Európai Gazdasági Közösség), amelyeknek önálló statisztikai szervezeteik ugyancsak bıséges statisztikai kiadványokkal gazdagítják a nemzetközi forrásokat. E gazdag nemzetközi adatforrás, amely fıként angol nyelven kerül kiadásra, Magyarországon az Országgyőlési Könyvtár révén ismerhetı meg, amely az ENSZ publikációk hazai letéteményese. Emellett ezen szervek számos statisztikai kiadványa az OMIKK (Országos Információs Központ és Könyvtár), az AGROINFORM. a KOPINT-DATORG és a HUNGEXPO könyvtáraiban is megtalálható.
13.2.3. A nemzeti intézmények statisztikai információi Amilyen részletes a KSH adatfelmérése és publikációs tevékenysége, ahhoz hasonlóak a fejlett országok statisztikai szerveinek munkái is. Ezek a KSH könyvtárában hozzáférhetık. Emellett a legfejlettebb országok, vállalataik exporttevékenységének segítésére tájékoztató központokat mőködtetnek (pl: ilyen az US Department of Commerce, Industry and Trade Administration és a német Bundesstelle főr Aussenhandelsinformation, amelyek évente számos, közöttük statisztikai közleményeket adnak ki a potenciális export célországok gazdasági helyzetére vonatkozóan.
13.2.4. Külföldi magánvállalkozások statisztikai információi Az információ, közöttük a statisztikai információ, drága termék (szolgáltatás), amelynek eladási árát megszerezhetıségének nehézségei, illetve az irántuk jelentkezı kereslet alapján határozzák meg. Ennek tulajdonítható, hogy e téren is legalább olyan konkurenciaharc jelentkezik a nemzetközi piacon, mint a fogyasztási cikkek, vagy az ipari javak terüle-
13. FONTOSABB STATISZTIKAI INFORMÁCIÓFORRÁSOK 211 tén. E sokaságból kiragadva csupán a következı három fontosabb forrást s azokból is csupán néhány példát ragadunk ki. a) A piackutató vállalatok statisztikai információi A piackutató intézetek egy része egyedi megbízások alapján végzi felméréseit, s ahogy erre már utaltunk - ennek eredményei csak a megbízó révén szerezhetık meg. Az intézetek másik hányada viszont - s ezek fontosak számunkra - un. múlti client study-kat (több megbízás tanulmányokat) készít, amelyet bárki megvásárolhat nem éppen olcsó áron (az ár egyébként a felmérés idıpontjától idıben távolodva, évrıl-évre alacsonyabb). Néhány példa erre: - Az angliai EIV (The Economist Intelligence Unit) egy-egy szakmáról nemzetközi, statisztikai adatsorokkal kiegészített olyan rendszeres publikáció-sorozatokat ad ki, amelyben minden vállalat megtalálhatja az érdeklıdésének megfelelı adatokat. - A FROST and SULLIVAN és a PETER SHERWOOD Ass.(mindkettó amerikai) évente tucatjával jelenteti meg különbözı termékcsoportok nemzetközi helyzetére vonatkozó tanulmányait, amely gazdag statisztikai dokumentációt és elırejelzést tartalmaz. - Sok intézmény (döntıen amerikaiak) adatbankokat mőködtetnek, amelyekbıl "online" bárhonnét lehívhatók az információk. b) A nagy bankok információi Számos nemzetközi tekintélyő múlti bank rendszeresen kiadott értékeléseit, országtanulmányait nem csak kliensei rendelkezésére bocsátja, hanem mások által is megvásárolhatók. (Néhány példa: a Lloyds bank országtanulmányokat ad ki, az UNION BANK of FINLAND évente statisztikai győjteményt ad ki országa fontosabb gazdasági szektorairól). c) A lapkiadók statisztikai információi A nagy nyugati lapkiadó konszernek, amelyek több nagypéldányszámú heti lapot, illetve folyóiratot jelentetnek meg. Pl: a hamburgi kiadók : a GRUNER + JAHR, a SPIEGEL, a BAUER VERLAG annak meggyızésére, hogy érdemes lapjaikban hirdetni, a legtöbb szakmát (árucsoportot) érintı kutatási eredményeket publikálnak a lakosság fogyasztásáról és vásárlási szokásairól. Ezeket a tanulmányokat megbízásokból piackutató intézetek készítik. Az eredményekben egymás mellé állítják az országos adatokat az érintett lap olvasóira vonatkozó adatokkal, bizonyítva, hogy az adott lap olvasótábora hően tükrözi az ország lakossági struktúráját.
212
FÜGGELÉK 1. táblázat A standard normális eloszlású valószínőségi változó eloszlásfüggvényének értékei Φ(z) z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4
0 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159, 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997
1 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997
2 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9572 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997
3 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7352 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997
4 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7703 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9991 0,9994 0,9996 0,9997
5 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997
6 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997
7 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997
8 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997
9 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7853 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998
FÜGGELÉK
213
2. táblázat A t (Student) eloszlású változó eloszlásfüggvényének értékei tp(ν ν) ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞
0,55 0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126 0,126 0,126 0,126
0,60 0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,257 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,255 0,254 0,254 0,253
0,70 0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,535 0,534 0,534 0,533 0,533 0,532 0,532 0,532 0,531 0,531 0,531 0,531 0,530 0,530 0,530 0,529 0,527 0,526 0,524
0,75 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,674
0,80 1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,848 0,845 0,842
p 0,90 3,08 1,89 1,64 1,53 1,48 1,44 1,42 1,40 1,38 1,37 1,36 1,36 1,35 1,34 1,34 1,34 1,33 1,33 1,33 1,32 1,32 1,32 1,32 1,32 1,32 1,32 1,31 1,31 1,31 1,31 1,30 1,30 1,29 1,28
0,95 6,31 2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,74 1,73 1,73 1,72 1,72 1,72 1,71 1,71 1,71 1,71 1,70 1,70 1,70 1,70 1,68 1,67 1,66 1,65
0,975 12,71 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,08 2,07 2,07 2,06 2,06 2,06 2,05 2,05 2,04 2,04 2,02 2,00 1,98 1,96
0,99 31,82 6,96 4,54 3,75 3,36 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,57 2,55 2,54 2,53 2,52 2,51 2,50 2,49 2,48 2,48 2,47 2,47 2,46 2,46 2,42 2,39 2,36 2,33
0,995 63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,84 2,83 2,82 2,81 2,80 2,79 2,78 2,77 2,76 2,76 2,75 2,70 2,66 2,62 2,58
214
FÜGGELÉK
3. táblázat A χ2 eloszlású változó eloszlásfüggvényének értékei χ2p (ν ν) ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
0,005 0,00 0,01 0,07 0,21 0,41 0,68 0,99 1,34 1,73 2,16 2,60 3,07 3,57 4,07 4,60 5,14 5,70 6,26 6,84 7,43 8,03 8,64 9,26 9,89 10,5 11,2 11,8 12,5 13,1 13,8 20,7 28,0 35,5 43,3 51,2 59,2 67,3
0,01 0,00 0,02 0,12 0,30 0,55 0,87 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,63 8,26 8,90 9,54 10,2 10,9 11,5 12,2 12,9 13,6 14,3 15,0 22,2 29,7 37,5 45,4 53,5 61,8 70,1
0,025 0,00 0,05 0,22 0,48 0,83 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,3 11,0 11,7 12,4 13,1 13,8 14,6 15,3 16,0 16,8 24,4 32,4 40,5 48,8 57,2 65,6 74,2
0,05 0,00 0,10 0,35 0,71 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,1 10,9 11,6 12,3 13,1 13,8 14,6 15,4 16,2 16,9 17,7 18,5 26,5 34,8 43,2 51,7 60,4 69,1 77,9
0,10 0,02 0,21 0,58 1,06 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,1 10,9 11,7 12,4 13,2 14,0 14,8 15,7 16,5 17,3 18,1 18,9 19,8 20,6 29,1 37,7 46,5 55,3 64,3 73,3 82,4
p 0,25 0,10 0,58 1,21 1,92 2,67 3,45 4,25 5,07 5,90 6,74 7,58 8,44 9,30 10,2 11,0 11,9 12,8 13,7 14,6 15,5 16,3 17,2 18,1 19,0 19,9 20,8 21,7 22,7 23,6 24,5 33,7 42,9 52,3 61,7 71,1 80,6 90,1
0,5 0,46 1,39 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,3 11,3 12,3 13,3 14,3 15,3 16,3 17,3 18,3 19,3 20,3 21,3 22,3 23,3 24,3 25,3 26,3 27,3 28,3 29,3 39,3 49,3 59,3 69,3 79,3 89,3 99,3
0,75 0,90 0,95 1,32 2,71 3,84 2,77 4,61 5,99 4,11 6,25 7,81 5,39 7,78 9,49 6,63 9,24 11,1 7,84 10,6 12,6 9,04 12,0 14,1 10,2 13,4 15,5 11,4 14,7 16,9 12,5 16,0 18,3 13,7 17,3 19,7 14,8 18,5 21,0 16,0 19,8 22,4 17,1 21,1 23,7 18,2 22,3 25,0 19,4 23,5 26,3 20,5 24,8 27,6 21,6 26,0 28,9 22,7 27,2 30,1 23,8 28,4 31,4 24,9 29,6 32,7 26,0 30,8 33,9 27,1 32,0 35,2 28,2 33,2 36,4 29,3 34,4 37,7 30,4 35,6 38,9 31,5 36,7 40,1 32,6 37,9 41,3 33,7 39,1 42,6 34,8 40,3 43,8 45,6 51,8 55,8 56,3 63,2 67,5 67,0 74,4 79,1 77,6 85,5 90,5 88,1 96,6 101,9 98,6 107,6 113,1 109,1 118,5 124,3
0,975 5,02 7,38 9,35 11,1 12,8 14,4 16,0 17,5 19,0 20,5 21,9 23,3 24,7 26,1 27,5 28,8 30,2 31,5 32,9 34,2 35,5 36,8 38,1 39,4 40,6 41,9 43,2 44,5 45,7 47,0 59,3 71,4 83,3 95,0 106,6 118,1 129,6
0,99 6,63 9,21 11,3 13,3 15,1 16,8 18,5 20,1 61,7 23,2 24,7 26,2 27,7 29,1 30,6 32,0 33,4 34,8 36,2 37,6 38,9 40,3 41,6 43,0 44,3 45,6 47,0 48,3 49,6 50,9 63,7 76,2 88,4 100,4 112,3 124,1 135,8
0,995 7,88 10,6 12,8 14,9 16,7 18,5 20,3 22,0 23,6 25,2 26,8 28,3 29,8 31,3 32,8 34,3 35,7 37,2 38,6 40,0 41,4 42,8 44,2 45,6 46,9 48,3 49,6 51,0 52,3 53,7 66,8 79,5 92,0 104,2 116,3 128,3 140,2
FÜGGELÉK
215
4. táblázat Az F eloszlású változó eloszlásfüggvényének értékei Fp (ν ν1;ν2) p = 0,95 ν2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞
1 161,00 18,50 10,10 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,23 4,21 4,20 4,18 4,17 4,08 4,00 3,92 3,84
2 200,00 19,00 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 3,89 3,81 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,39 3,37 3,35 3,34 3,33 3,32 3,23 3,15 3,07 3,00
3 216,00 19,20 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,84 2,76 2,68 2,60
4 225,00 19,20 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,73 2,71 2,70 2,69 2,61 2,53 2,45 2,37
ν1 5 230,00 19,30 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,03 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,55 2,53 2,45 2,37 2,29 2,21
6 234,00 19,30 8,84 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,45 2,43 2,42 2,34 2,25 2,17 2,10
7 237,00 19,40 8,89 6,09 4,88 4,21 3,79 3,50 3,29 3,14 3,01 2,91 2,83 2,76 2,71 2,66 2,61 2,58 2,54 2,51 2,49 2,46 2,44 2,42 2,40 2,39 2,37 2,36 2,35 2,33 2,25 2,17 2,09 2,01
8 239,00 19,40 8,85 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,37 2,36 2,34 2,32 2,31 2,29 2,28 2,27 2,18 2,10 2,02 1,94
9 241,00 19,40 8,81 6,00 4,77 4,10 3,68 3,39 3,18 3,02 2,90 2,80 2,71 2,65 2,59 2,54 2,49 2,46 2,42 2,39 2,37 2,34 2,32 2,30 2,28 2,27 2,25 2,24 2,22 2,21 2,12 2,04 1,96 1,88
216
FÜGGELÉK
Fp(ν ν1;ν2) p = 0,95 ν2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞
10 242,00 19,40 8,79 5,96 4,74 4,06 3,64 3,35 3,14 2,98 2,85 2,75 2,67 2,60 2,54 2,49 2,45 2,41 2,38 2,35 2,32 2,30 2,27 2,25 2,24 2,22 2,20 2,19 2,18 2,16 2,08 1,99 1,91 1,83
12 244,00 19,40 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,60 2,53 2,48 2,42 2,38 2,34 2,31 2,28 2,25 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,00 1,92 1,83 1,75
15 246,00 19,40 8,70 5,86 4,62 3,94 3,51 3,22 3,01 2,85 2,72 2,62 2,53 2,46 2,40 2,35 2,31 2,27 2,23 2,20 2,18 2,15 2,13 2,11 2,09 2,07 2,06 2,04 2,03 2,01 1,92 1,84 1,75 1,67
20 248,00 19,40 8,66 5,80 4,56 3,87 3,44 3,15 2,94 2,77 2,65 2,54 2,46 2,39 2,33 2,28 2,23 2,19 2,16 2,12 2,10 2,07 2,05 2,03 2,01 1,99 1,97 1,96 1,94 1,93 1,84 1,75 1,66 1,57
ν1 30 250,00 19,50 8,62 5,75 4,50 3,81 3,38 3,08 2,86 2,70 2,57 2,47 2,38 2,31 2,25 2,19 2,15 2,11 2,07 2,04 2,01 1,98 1,96 1,94 1,92 1,90 1,88 1,87 1,85 1,84 1,74 1,65 1,55 1,46
40 251,00 19,50 8,59 5,72 4,46 3,77 3,34 3,04 2,83 2,66 2,53 2,43 2,34 2,27 2,20 2,15 2,10 2,06 2,03 1,99 1,96 1,94 1,91 1,89 1,87 1,85 1,84 1,82 1,81 1,79 1,69 1,59 1,50 1,39
60 252,00 19,50 8,57 5,69 4,43 3,74 3,30 3,01 2,79 2,62 2,49, 2,38 2,30 2,22 2,16 2,11 2,06 2,02 1,98 1,95 1,92 1,89 1,86 1,14 1,82 1,80 1,79 1,77 1,75 1,74 1,64 1,53 1,43 1,32
120 253,00 19,50 8,55 5,66 4,40 3,70 3,27 2,97 2,75 2,58 2,45 2,34 2,25 2,18 2,11 2,06 2,01 1,97 1,93 1,90 1,87 1,84 1,81 1,79 1,77 1,75 1,73 1,71 1,70 1,68 1,58 1,47 1,35 1,22
∞ 254,00 19,50 8,53 5,63 4,36 3,67 3,23 2,93 2,71 2,54 2,40 2,30 2,21 2,13 2,07 2,01 1,96 1,92 1,88 1,84 1,81 1,78 1,76 1,73 1,71 1,69 1,67 1,65 1,64 1,62 1,51 1,39 1,25 1,00
FÜGGELÉK
217
5. táblázat A Durbin-Watson próba kritikus értékei α = 0,05 n 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100
m=1 dL 1,08 1,10 1,13 1,16 1,18 1,20 1,22 1,24 1,26 1,27 1,29 1,30 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,43 1,44 1,48 1,50 1,53 1,55 1,57 1,58 1,60 1,61 1,62 1,63 1,64 1,65
dU 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,45 1,46 1,47 1,48 1,48 1,49 1,50 1,50 1,51 1,51 1,52 1,52 1,53 1,54 1,54 1,54 1,57 1,59 1,60 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,69
m=2 dL dU 0,95 1,54 0,98 1,54 1,02 1,54 1,05 1,53 1,08 1,53 1,10 1,54 1,13 1,54 1,15 1,54 1,17 1,54 1,19 1,55 1,21 1,55 1,22 1,55 1,24 1,56 1,26 1,56 1,27 1,56 1,28 1,57 1,30 1,57 1,31 1,57 1,32 1,58 1,33 1,58 1,34 1,58 1,35 1,59 1,36 1,59 1,37 1,59 1,38 1,60 1,39 1,60 1,43 1,62 1,46 1,63 1,49 1,64 1,51 1,65 1,54 1,66 1,55 1,67 1,57 1,68 1,59 1,69 1,60 1,70 1,61 1,70 1,62 1,71 1,63 1,72
m=3 dL 0,82 0,86 0,90 0,93 0,97 1,00 1,03 1,05 1,08 1,10 1,12 1,14 1,16 1,18 1,20 1,21 1,23 1,24 1,26 1,27 1,28 1,29 1,31 1,32 1,33 1,34 1,38 1,42 1,45 1,48 1,50 1,52 1,54 1,56 1,57 1,59 1,60 1,61
dU 1,75 1,73 1,71 1,69 1,68 1,68 1,67 1,66 1,66 1,66 1,66 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,67 1,68 1,69 1,70 1,70 1,71 1,72 1,72 1,73 1,73 1,74
m=4 dL dU 0,69 1,97 0,74 1,93 0,78 1,90 0,82 1,87 0,86 1,85 0,90 1,83 0,93 1,81 0,96 1,80 0,99 1,79 1,01 1,78 1,04 1,77 1,06 1,76 1,08 1,76 1,10 1,75 1,12 1,74 1,14 1,74 1,16 1,74 1,18 1,73 1,19 1,73 1,21 1,73 1,22 1,73 1,24 1,73 1,25 1,72 1,26 1,72 1,27 1,72 1,29 1,72 1,34 1,72 1,38 1,72 1,41 1,72 1,44 1,73 1,47 1,73 1,49 1,74 1,51 1,74 1,53 1,74 1,55 1,75 1,57 1,75 1,58 1,75 1,59 1,76
m=5 dL dU 0,56 2,21 0,62 2,15 0,67 2,10 0,71 2,06 0,75 2,02 0,79 1,99 0,83 1,96 0,86 1,94 0,90 1,92 0,93 1,90 0,95 1,89 0,98 1,88 1,01 1,86 1,03 1,85 1,05 1,84 1,07 1,83 1,09 1,83 1,11 1,82 1,13 1,81 1,15 1,81 1,16 1,80 1,18 1,80 1,19 1,80 1,21 1,79 1,22 1,79 1,23 1,79 1,29 1,78 1,34 1,77 1,38 1,77 1,41 1,77 1,44 1,77 1,46 1,77 1,49 1,77 1,51 1,77 1,52 1,77 1,54 1,78 1,56 1,78 1,57 1,78
218
FELHASZNÁLT SZAKIRODALOM 1)
F.Croxton - D.Cowden: Practical Business Statistics Prentice-Hall.Inc. New York, 1955.
2)
Florea György: A jövedelemelaszticitás számítása és felhasználásának lehetıségei. BKI Közleményei. Budapest. 1962.
3)
Horváth Gézáné: Alkalmazott statisztika I. Külkereskedelmi Fıiskola jegyzete, Budapest, 1996.
4)
Hunyadi László - Vita László: Statisztika I. Aula Kiadó, Budapest, 1991.
5)
Hunyadi László - Mundruczó György - Vita László : Statisztika II. Aula Kiadó, Budapest, 1991.
6)
Kerékgyártó Györgyné - Mundruczó György: Statisztikai módszerek a gazdasági elemzésben Aula Kiadó, Budapest, 1995.
7)
Korreláció és trendszámítás (Szerzıi kollektíva munkája) Mezıgazdasági és Jogi Könyvkiadó, 1958.
8)
Köves Pál - Párniczky Gábor: Általános statisztika Közgazdasági és Jogi Könyvkiadó, Budapest, 1973.
9)
Rácz Albertné - Szabó László: Statisztika. A Kereskedelmi és Vendéglátóipari Fıiskola tankönyve. Közgazdasági és Jogi Könyvkiadó, Budapest, 1987.
10) Schweng Lóránd: Statisztika (Módszertani alapvetés) A magyar Statisztikai Társaság kiadványai. 18.sz. Budapest. 1944. 11) Szabó László: Az exportfejlesztés piaci információs bázisa Közgazdasági és Jogi Könyvkiadó. Budapest, 1981. 12) Szabó László: Vállalati piackutatás Közgazdasági és Jogi Könyvkiadó, Budapest. 1969.