Az egymintás t-próba azt vizsgálja, hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy adott m értéktől.
A próba alkalmazásának feltételei
A próba nullhipotézise
Nullhipotézis: a vizsgált változó átlaga statisztikai szempontból megegyezik az előre megadott m értékkel.[* 1]
Alternatív hipotézis: a vizsgált változó átlaga statisztikai szempontból nem egyezik meg az előre megadott m értékkel.
- A "statisztikai szempontból" kifejezés itt arra utal, hogy az eltérés a mintából kiszámolt átlag és az m érték között olyan minimális, hogy pusztán csak a véletlen ingadozásnak tulajdonítható (ekkor a minta átlaga statisztikai szempontból azonosnak tekinthető az m-mel), vagy jelentősen nagyobb, mint ami a véletlennel magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg m-mel).
Valójában a fenti két hipotézis precíz matematikai megfogalmazása a következő.
- H0: Az X valószínűségi változó várható értéke megegyezik m-mel.
- H1: Az X valószínűségi változó várható értéke nem egyezik meg m-mel.
A próbastatisztika
Az egymintás t-próba próbastatisztikája
ahol
- a vizsgált valószínűségi változó átlaga a mintában,
- s a vizsgált valószínűségi változó becsült szórása,
- m az előre adott érték, amelyhez az átlagot viszonyítjuk (ld. nullhipotézis) és
- n a minta elemszáma.
A szórást itt többnyire a szokott
képlettel becsüljük, ahol a minta az {} értékekből áll.
Azonban ha a minta elemszáma kisebb mint 30 (vagyis n<30), akkor a szórás helyett a korrigált szórással szoktunk számolni, melyet s helyett s*-gal jelölünk. Ennek képlete
,
ahol n-1 a szabadsági fok.[* 2]
Az n<30 esetben tehát a t próbastatisztika képletében az s helyére s* kerül. (A csere mögött az a meggondolás áll, hogy az s torzított becslése míg s* torzítatlan becslése a szórásnak.)
A próba végrehajtásának lépései
- Az t próbastatisztika értékének kiszámítása.
- A p szignifikanciaszint megválasztása. (Ez a legtöbb vizsgálat esetén 0,05 vagy 0,01.)
- A p szignifikanciaszinttől függő érték kiválasztása a próbának megfelelő táblázatból. A táblázat jelen esetben a t-eloszlás táblázata, melyre szoktak úgy is utalni, mint Student-eloszlás, illetve Student-féle t-eloszlás. A táblázat kétdimenziós, a p szignifikanciaszint és az f szabadsági fok ismeretében azonnal megkapjuk a táblázatbeli értéket. Az f szabadsági fokot az egymintás t-próba esetén az f = n – 1 képlettel számítjuk.
- A nullhipotézisre vonatkozó döntés meghozása.
- Ha |t| ≥ , akkor a nullhipotézist elvetjük, az alternatív hipotézist tartjuk meg, és az eredményt úgy interpretáljuk, hogy a mintában a vizsgált valószínűségi változó átlaga szignifikánsan eltér az adott m értéktől (p szignifikanciaszint mellett).
- Ha |t| < , akkor a nullhipotézist megtartjuk, amit úgy interpretálunk, hogy az egymintás t-próba nem mutat ki szignifikáns különbséget a vizsgált valószínűségi változó mintabeli átlaga és az adott m érték között (p szignifikanciaszint mellett).
Példa
Egy gyárban egy gépnek 500 g töltőanyagot kell a konzervekbe juttatnia minden töltéskor. A töltőanyag egyenetlenségéből adódóan a gép néha kicsit többet, néha kicsit kevesebbet tölt, mint 500 g. Arra vagyunk kíváncsiak, hogy a gép átlagos "teljesítménye" 500 g-nak mondható-e. Kiveszünk 10 konzervet a futószalagról és megmérjük mindben a töltőanyag súlyát. Az eredmények rendre
483, 502, 498, 496, 502, 483, 494, 491, 505, 486.
Azt látjuk, hogy a töltőanyag tömege többnyire valóban nem tér el az 500 g-tól nagyon, az átlag = 494[* 3]. Ránézésre mégsem tudjuk megállapítani, hogy ez a 494 g lényegesen eltér-e az 500 g-tól vagy csak a véletlennek tulajdonítható apró eltérésről van szó. Ennek a dilemmának az eldöntésére egymintás t-próbát alkalmazunk.
Feltesszük, hogy a töltőanyag tömege, mint valószínűségi változó normális eloszlást követ. (Hogy ez így van-e azt illeszkedésvizsgálatokkal, azon belül is normalitásvizsgálatokkal lehetne ellenőrizni.) A tömegnek kg-ban való mérése arányskála, így az egymintás t-próba alkalmazásának feltételei teljesülnek. Mivel a minta elemszáma n = 10 < 30 így a szórás becslésére az s* képletet használjuk: s* = 8,05 adódik. Az érték, amelytől a minta átlagának esetleges eltérésére vagyunk kíváncsiak, nyilvánvalóan az m = 500 érték. A próbastatisztika képletének minden elemét ismerjük, tehát számítható
Vegyük a szignifikanciaszintet p = 0,05-nek azaz 5%-os kockázatot vállalunk arra, hogy esetleg úgy vetjük el a nullhipotézist, hogy az közben igaz. A szabadsági fok f = n -1 = 9, így a p és az f ismeretében a t-eloszlás táblázatából könnyen kikereshetjük a megfelelő táblázatbeli értéket, ami 1,833.
|t| ≈ 2,36 miatt 2,36 > 1,833 =
azaz |t| ≥ teljesül.
Így a nullhipotézist elvetjük, az egymintás t-próba szerint az átlagos töltőtömeg szignifikánsan eltér (p = 0,05-ös szignifikanciaszint mellett) az 500 g-tól, de p=0,01-es szignifikanciaszint mellett már |t| = 2,36 < = 2,821, így az eltérés nem lenne szignifikáns.
A próba matematikai háttere
A próba matematikai hátterének legfontosabb gondolata, hogy bármely X normális eloszlású valószínűségi változóra vett X1, X2, … Xn minta esetén az
és
jelölésekkel élve megmutatható, hogy a
valószínűségi változó (n–1) szabadsági fokú t-eloszlást követ.
Emiatt az (n–1) szabadsági fokú t-eloszlás ismeretében bármilyen 1>p>0 esetén meg lehet határozni azt a tp értéket, melyre
- .
Ez azt jelenti, hogy ha igaz a nullhipotézis, akkor a t próbastatisztika értéke 1-p valószínűséggel a (-tp, tp) intervallumba esik.
Megjegyzések
- Az egymintás t-próba bizonyos tekintetben az egymintás u-próba párja. Az egymintás u-próba ugyanezt a nullhipotézist vizsgálja, csak a feltételei közt szerepel az szórás értékének előzetes ismerete, s nem a minta adataiból becsli azt. A próbastatisztika képlete is nagyon hasonló, csak benne az becsült s szórás helyett az eleve adott σ szórás szerepel. Természetesen a két próba matematikai háttere is nagyon hasonló.
- A szakirodalom nem teljesen egységes annak tekintetében, hogy a nullhipotézis elvetéséről vagy megtartásáról szóló döntésben az |t| és közötti két egyenlőtlenség közül melyiknél engedi meg az egyenlőséget. Ennek gyakorlati jelentősége nem igazán van, az alkalmazások során nagyon ritkán adódik, hogy a kiszámított próbastatisztika pontosan egybe essék a táblázatbeli értékkel. Ha esetleg mégis így alakul, akkor az eredmény úgy interpretálható, hogy a nullhipotézis elvetése esetén a kockázat pontosan megegyezik a szignifikanciaszinttel, s innen a kutató (és a tudós társadalom) szája ízétől függ, hogy ebben inkább a nullhipotézis elvetésének, vagy inkább a nullhipotézis megtartásának zálogát látja.
- Érdemes megfigyelni az óvatos fogalmazást a nullhipotézis megtartása esetén. Az általunk meghatározott p szignifikanciaszint az elsőfajú hiba elkövetésének valószínűségét adja meg. Ha elvetem a nullhipotézist, akkor ekkora kockázatot vállalok arra nézve, hogy esetleg hiba elvetni. Amennyiben viszont nem vetem el a nullhipotézist, akkor elsőfajú hibát biztosan nem követek el, ám elkövethetek másodfajú hibát, melynek kockázatáról semmit nem mond a próba. Ez indokolja, hogy ha a nullhipotézist megtartjuk, akkor nem azt mondjuk, hogy nincs szignifikáns különbség a minta átlaga és az előre megadott m érték között, hanem hogy az egymintás t-próba nem tudott szignifikáns különbséget kimutatni (ami ettől még lehet, hogy van).
- Az egymintás t-próba feltételezi, hogy az eloszlás elemei folytonos értékkészletű változók. Ezért értelmetlen a szignifikanciaszint emelése egészen a bizonyosságig.
- A próbát Student-féle t-próbának, vagy egymintás Student-féle t-próbának is szokták nevezni. Az elnevezés mögött az áll, hogy a t próbastatisztika azt a t-eloszlást követi, melyet szoktak Student-eloszlásnak, vagy Student-féle t-eloszlásnak is nevezni.
Lásd még
Kétmintás t-próba
Jegyzetek
- ↑ A mérésügyben m a valódi érték, az átlag pedig annak lehető legjobb becslése; várható értéke
- ↑ Az, hogy az eloszlás elemeiből egy adatot elvettünk az átlag kiszámítása céljára, csökkentette az eloszlás szabadsági fokát eggyel
- ↑ A matematikai statisztika nem foglalkozik a változók mértékegységével; csakis a mérőszámával. Ezért ezt a számításokban nem szokás jelölni
Források
- Fazekas I. (szerk.) (2000): Bevezetés a matematikai statisztikába. Kossuth Egyetemi Kiadó, Debrecen.
- Lukács O. (2002): Matematikai statisztika. Műszaki Könyvkiadó, Budapest.
- Michaletzky Gy. – Mogyoródi J. (1995): Matematikai statisztika, Nemzeti Tankönyvkiadó, Budapest.
- Michelberger P. – Szeidl L. – Várlaki P. (2001): Alkalmazott folyamatstatisztika és idősor-analízis. Typotex Kiadó, Budapest.
- Vargha A. (2000): Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó, Budapest.