- Kaip apskaičiuoti koreliacijos koeficientą?
- Kovariancija ir dispersija
- Iliustracinis atvejis
- Kovariancija Sxy
- Standartinis nuokrypis Sx
- Standartinis nuokrypis Sy
- Koreliacijos koeficientas r
- Interpretacija
- Tiesinė regresija
- Pavyzdys
- Nuorodos
Koreliacijos koeficientas į statistiką yra rodiklis, kad matuoja du kiekybinių kintamųjų X ir Y polinkį į linijinę arba proporcingas santykis tarp jų.
Paprastai kintamųjų X ir Y poros yra dvi tos pačios populiacijos charakteristikos. Pvz., X gali būti asmens ūgis ir Y jo svoris.
1 pav. Koreliacijos koeficientas keturioms duomenų poroms (X, Y). Šaltinis: F. Zapata.
Šiuo atveju koreliacijos koeficientas parodytų, ar tam tikroje populiacijoje yra proporcingo ūgio ir svorio santykio tendencija.
Pearsono tiesinis koreliacijos koeficientas žymimas mažosiomis raidėmis r, o jo mažiausia ir didžiausia reikšmės yra atitinkamai -1 ir +1.
Vertė r = +1 reikštų, kad porų rinkinys (X, Y) yra puikiai suderintas ir kad augant X, Y augs ta pačia proporcija. Kita vertus, jei atsitiko taip, kad r = -1, porų rinkinys taip pat būtų neprilygstamai išlygintas, tačiau tokiu atveju, kai X padidėja, Y sumažėja ta pačia proporcija.
2 pav. Skirtingos tiesinės koreliacijos koeficiento vertės. Šaltinis: „Wikimedia Commons“.
Kita vertus, r = 0 reikšmė parodytų, kad tarp kintamųjų X ir Y nėra tiesinės koreliacijos. Jei r = +0,8 reikšmė reikš, kad poros (X, Y) linkusios susilieti vienoje pusėje ir kita tam tikra linija.
Koreliacijos koeficiento r apskaičiavimo formulė yra tokia:
Kaip apskaičiuoti koreliacijos koeficientą?
Linijinis koreliacijos koeficientas yra statistinis dydis, integruotas į mokslinius skaičiuotuvus, daugumą skaičiuoklių ir statistinių programų.
Vis dėlto patogu žinoti, kaip taikoma formulė, apibrėžianti ją, ir tam bus parodytas išsamus skaičiavimas, atliktas per mažą duomenų rinkinį.
Ir kaip buvo pasakyta ankstesniame skyriuje, koreliacijos koeficientas yra kovariacija Sxy, padalyta iš kintamųjų X ir Sy standartinio nuokrypio Sx sandaugos, kintamojo Y atveju.
Kovariancija ir dispersija
Kovariancija Sxy yra:
Sxy = / (N-1)
Kai suma eina nuo 1 iki N duomenų porų (Xi, Yi).
Savo ruožtu standartinis kintamojo X nuokrypis yra duomenų rinkinio Xi dispersijos kvadratinė šaknis, kai i yra nuo 1 iki N:
Sx = √
Taip pat kintamojo Y standartinis nuokrypis yra duomenų rinkinio Yi dispersijos kvadratinė šaknis, kai i yra nuo 1 iki N:
Sy = √
Iliustracinis atvejis
Norėdami išsamiai parodyti, kaip apskaičiuoti koreliacijos koeficientą, paimsime šį keturių duomenų porų rinkinį
(X, Y): {(1, 1); (2. 3); (3, 6) ir (4, 7)}.
Pirmiausia apskaičiuojame X ir Y aritmetinį vidurkį taip:
Tada apskaičiuojami likę parametrai:
Kovariancija Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Standartinis nuokrypis Sx
Sx = √ = √ = 1,29
Standartinis nuokrypis Sy
Sx = √ =
√ = 2,75
Koreliacijos koeficientas r
r = 3,5 / (1,29 * 2,75) = 0,98
Interpretacija
Ankstesnio atvejo duomenų rinkinyje tarp kintamųjų X ir Y yra ryški tiesinė koreliacija, kuri pasireiškia tiek sklaidos diagramoje (parodyta 1 paveiksle), tiek koreliacijos koeficiente, kuris davė vertė gana artima vienybei.
Tuo atveju, kai koreliacijos koeficientas yra artimesnis 1 ar -1, tuo prasmingiau duomenis derinti prie eilutės, o tai yra tiesinės regresijos rezultatas.
Tiesinė regresija
Tiesinė regresijos linija gaunama mažiausių kvadratų metodu. kuriame regresijos tiesės parametrai gaunami sumažinus skirtumo tarp apskaičiuotos Y vertės ir N duomenų N kvadrato sumą.
Kita vertus, regresijos tiesės y = a + bx parametrai a ir b, gauti mažiausiųjų kvadratų metodu, yra šie:
* b = Sxy / (Sx 2 ) nuolydžiui
* a =
Prisiminkite, kad Sxy yra aukščiau apibrėžta kovariacija, o Sx 2 - aukščiau apibrėžto standartinio nuokrypio dispersija arba kvadratas.
Pavyzdys
Koreliacijos koeficientas naudojamas norint nustatyti, ar tarp dviejų kintamųjų yra tiesinė koreliacija. Tai taikoma, kai tiriami kintamieji yra kiekybiniai, be to, daroma prielaida, kad jie seka normalų tipo pasiskirstymą.
Žemiau pateiktas aiškinamasis pavyzdys: nutukimo laipsnis yra kūno masės indeksas, kuris gaunamas padalijus asmens svorį kilogramais iš asmens ūgio kvadratu kvadratiniais metrais.
Norite sužinoti, ar yra stiprus ryšys tarp kūno masės indekso ir DTL cholesterolio koncentracijos kraujyje, matuojant milimoliais litre. Šiuo tikslu buvo atliktas tyrimas su 533 žmonėmis, kuris apibendrintas toliau pateiktoje diagramoje, kurioje kiekvienas taškas žymi vieno asmens duomenis.
3 pav. KMI ir DTL cholesterolio tyrimas 533 pacientams. Šaltinis: Aragono sveikatos mokslų institutas (IAKS).
Atidus grafiko stebėjimas rodo, kad tarp DTL cholesterolio koncentracijos ir kūno masės indekso yra tam tikra tiesinė tendencija (nelabai ryški). Kiekybinis šios tendencijos matas yra koreliacijos koeficientas, kuris šiuo atveju pasirodė r = -0,276.
Nuorodos
- González C. Bendroji statistika. Atgauta iš: tarwi.lamolina.edu.pe
- IAKS. Aragono sveikatos mokslų institutas. Atkurta iš: ics-aragon.com
- Salazar C. ir Castillo S. Pagrindiniai statistikos principai. (2018 m.). Atkurta iš: dspace.uce.edu.ec
- Superprofilis. Koreliacijos koeficientas. Atgauta iš: superprof.es
- USAC. Aprašomasis statistikos vadovas. (2011). Atkurta iš: statistika.ingenieria.usac.edu.gt
- Vikipedija. Pirsono koreliacijos koeficientas. Atkurta iš: es.wikipedia.com.