FAIR and interactive data graphics from a scientific knowledge graph
Korrelaatio on todennäköisyyslaskennassa ja tilastotieteessä käytetty käsite, joka kuvaa kahden muuttujan välistä riippuvuutta. Korrelaatiokerroin on numeerinen mitta satunnaismuuttujien väliselle lineaariselle riippuvuudelle. Riippumattomien muuttujien välillä ei ole korrelaatiota.
Korrelaatiokerroin saadaan standardoimalla muuttujien kovarianssi välille [−1, 1]. Standardointi tehdään jakamalla kovarianssi muuttujien keskihajontojen tulolla.
Korrelaatiokerroin ei siis riipu käytetyistä yksiköistä. Mitä enemmän korrelaatiokerroin poikkeaa nollasta, sitä voimakkaampaa muuttujien välinen riippuvuus on. Arvo 1 tarkoittaa, että muuttujien välillä on täydellinen lineaarinen riippuvuus (−1 tarkoittaa täydellistä negatiivista lineaarista riippuvuutta), ts. toisen muuttujan voi laskea tarkasti lineaarisesti toisen arvosta.
Korrelaatio voidaan laskea usealla eri tavalla muuttujien mitta-asteikosta ja käyttötarkoituksesta riippuen. Tavallisesti sanalla korrelaatiokerroin (joskus vain korrelaatio) tarkoitetaan kuitenkin Pearsonin korrelaatiokerrointa. Nimestä huolimatta sen esitti ensimmäisenä Francis Galton. Jos tarkasteltavat muuttujat on mitattu vain järjestysasteikolla, niin korrelaation mittaamiseen soveltuu paremmin jokin ei-parametrinen korrelaatiokerroin.
Riippuvuus voi olla vahva, vaikka korrelaatio olisi nolla
Korrelaatio mittaa ainoastaan lineaarista riippuvuutta, siis kertoo siitä, jos ensimmäisen muuttujan (x) suuret arvot ovat pieniä arvoja enemmän yhteydessä toisen muuttujan (y) suuriin arvoihin (tai päinvastoin pieniin arvoihin). Se on sitä lähempänä lukua 1 tai −1, mitä lähempänä kuvaaja on jotain suoraa (kuten oheisen kuvan ensimmäisellä rivillä; b:n etumerkki määrää korrelaatin etumerkin).
Jos riippuvuus on ei-lineaarinen, esimerkiksi suuret ja pienet x:n arvot liittyvät suuriin y:n arvoihin mutta keskisuuret x:n arvot pieniin (esimerkiksi käyrä välillä [−10, +10]), korrelaatio voi olla nolla vaikka riippuvuus olisi täydellinen niin, että x:n arvosta voitaisiin täydellisesti päätellä y:n arvo.
Oheisen kuvan alimman rivin pistejoukoissa selvästi muuttujien y ja x arvojen välillä on yhteys, riippuvuus, vaikka riippuvuus ei olekaan lineaarinen, suuret x:n arvot eivät ole suuriin y:n arvoihin yhteydessä sen useammin kuin pienetkään. Silti tieto x:n arvosta auttaa niissäkin veikkaamaan y:n arvoa.
Korrelaatio ei todista syy-seuraussuhdetta
Korrelaatio voi olla pienestä otoksesta johtuva sattuma. Voi myös olla, että y on x:n syy tai päinvastoin, tai sitten jokin kolmas asia voi olla molempien syy, esimerkiksi jäätelönsyönti ja hukkumiset ovat kumpikin runsaampia kesällä mutta eivät silti ole toistensa syitä vaan kuumuus on molempien syy. Siis korrelaatio ei implikoi kausaliteettia. Usein se on kuitenkin hyvä vihje mahdollisesta syy-seuraussuhteesta.
"Jäätelökorrelaatio" tarkoittaakin sitä klassista virhepäätelmää, että asioiden esiintyminen yhdessä tarkoittaisi toisen olevan toisen syy.[1][2]
Pearsonin korrelaatiokerroin
Matemaattinen määritelmä
Satunnaismuuttujien ja välinen korrelaatio on määritelty:
missä ja ovat muuttujien odotusarvot sekä ja ovat muuttujien keskihajonnat.
Koska ja , voidaan yhtälö kirjoittaa myös:
Korrelaatio on määritelty vain, jos molemmat keskivirheet ovat äärellisiä ja nollasta poikkeavia. Cauchyn–Schwarzin epäyhtälön perusteella korrelaation itseisarvo ei voi ylittää yhtä. Riippumattomien muuttujien korrelaatio on 0, mutta päinvastainen ei ole välttämättä totta. Esimerkiksi kun on tasajakautunut välillä (-1,1) ja , on niiden välinen korrelaatio 0, vaikka ne riippuvat toisistaan. Normaalijakautuneiden satunnaismuuttujien tapauksessa korreloimattomuus tosin johtaa riippumattomuuteen.
Etenkin kun ja ovat normaalijakautuneita, Pearsonin korrelaatiokerroin on paras korrelaation estimaatti.
Otoskorrelaatio
Kun käytettävissä on koko selitettävä aineisto (esimerkiksi tutkitaan suomalaisten painon riippuvuutta pituudesta ja tiedot on saatu kaikista suomalaisista), Pearsonin korrelaatiokerroin lasketaan yllä esitetyllä tavalla. Mikäli käytettävissä on vain otos aineistosta, tulee yllä esitettyjen kaavojen sijasta laskea otoskorrelaatio seuraavasti:
missä ja ovat otoskeskiarvoja () sekä ja ovat otoshajontoja (), joten
Tällöin näet otoksesta lasketut keskiarvot ja ovat yleensä lähempänä otosta kuin todellinen keskiarvo, mutta vastaavasti jakajakin on pienempi (n−1) kuin koko aineiston kohdalla käytetyssä kaavassa (n), mikä korjaa ongelman keskimäärin optimaalisesti, siis on paras koko aineiston :n estimaatti, joka pelkän otoksen avulla voidaan tuottaa (kun taas normaali kaava aliarvioisi sitä, miten pitkälti x:n vaihtelut selittävät y:n vaihteluita). Samaan tapaan otoskeskivirheen (otoskeskihajonnan) kaavassa on termi , joka alemmassa, aukikirjoitetummassa otoskorrelaatiokertoimen kaavassa on sievennetty pois.
Ei-parametriset korrelaatiokertoimet
Pearsonin korrelaatiokerroin on parametrinen tunnusluku ja vähemmän hyödyllinen, jos taustalla oleva normaalisuusoletus ei päde. Ei-parametriset korrelaatiokertoimet ovat tällöin parempia korrelaation laskemiseen. Ne ovat vähemmän tehokkaita normaalisuusoletuksen vallitessa mutta antavat epäselvissä tapauksissa luotettavampia tuloksia.
Seuraavat menetelmät perustuvat lukujen järjestykseen, joten niitä voidaan käyttää myös silloin, kun muuttujat on mitattu järjestysasteikolla:
- Kendallin järjestyskorrelaatiokerroin (Kendallin tau)
- Spearmanin järjestyskorrelaatiokerroin (Spearmanin rho)
Katso myös
Lähteet
- ↑ Tervetuloa töihin (Arkistoitu – Internet Archive), Anu Partanen, Helsingin Sanomien kuukausiliite, elokuu 2010.
- ↑ Cognitive Science: An Introduction to Mind and Brain, Daniel Kolak, William Hirstein, Peter Mandik, Jonathan Waskan, Routledge, 3.10.2006, page 65.
Aiheesta muualla
- Kuvia tai muita tiedostoja aiheesta Korrelaatio Wikimedia Commonsissa