- Kaip apskaičiuoti nustatymo koeficientą?
- Iliustracinis atvejis
- Interpretacija
- Pavyzdžiai
- - 1 pavyzdys
- Sprendimas
- - 2 pavyzdys
- Sprendimas
- - 3 pavyzdys
- Sprendimas
- Tinka palyginimui
- Išvados
- Nuorodos
Nustatymo koeficientas yra skaičius nuo 0 iki 1, kuris žymi taškų (X, Y), einančių po duomenų rinkinio, turinčio du kintamuosius, regresijos liniją, dalį.
Jis taip pat žinomas kaip gerumo tinka ir žymimas R 2 . Jai apskaičiuoti imamas santykis tarp duomenų Ŷi, apskaičiuotų pagal regresijos modelį, ir duomenų Yi dispersijos, atitinkančios kiekvieną duomenų Xi.
R 2 = SY / Sy
1 pav. Koreliacijos koeficientas keturioms duomenų poroms. Šaltinis: F. Zapata.
Jei 100% duomenų yra regresijos funkcijos tiesėje, tada nustatymo koeficientas bus 1.
Priešingai, jei duomenų rinkiniui ir tam tikrai tinkamumo funkcijai koeficientas R 2 yra lygus 0,5, galima sakyti, kad 50% yra tinkamas arba geras.
Taip pat, kai regresijos modelį ir derlius R 2 vertės yra mažesnis nei 0,5, tai rodo, kad pasirinktas koregavimo funkcija nėra pritaikyti patenkinamai duomenimis, tokiu būdu, kad būtina ieškoti kitos koregavimo funkcija.
Ir, kai kovariacijos arba koreliacijos koeficientas siekia nuliui, tada kintamieji X ir Y kartu su kitais duomenimis yra nesusiję, ir todėl R 2 taip pat linkę iki nulio.
Kaip apskaičiuoti nustatymo koeficientą?
Ankstesniame skyriuje buvo sakoma, kad nustatymo koeficientas apskaičiuojamas nustatant koeficientą tarp dispersijų:
- Įvertinta kintamojo Y regresijos funkcija
- Tai kintamasis Yi, atitinkantis kiekvieną N duomenų poros kintamąjį Xi.
Teigiama, kad jis atrodo taip:
R 2 = SY / Sy
Iš šios formulės tai reiškia, kad R 2 atstovauja dispersinė dalis paaiškinti tuo, kad regresijos modelį. Alternatyviai, R 2 gali būti apskaičiuojamas pagal šią formulę, visiškai lygiavertės į ankstesnį vieną:
R 2 = 1 - (Sε / Sy)
Kur Sε žymi liekanų εi = Ŷi - Yi dispersiją, o Sy yra duomenų Yi aibės rinkinio dispersija. Determinei nustatyti taikoma regresijos funkcija, kuri reiškia, kad thati = f (Xi).
Duomenų rinkinio Yi dispersija, kai i yra nuo 1 iki N, apskaičiuojama taip:
Sy =
Ir tada atlikite panašų kelią S for arba Sε.
Iliustracinis atvejis
Norėdami parodyti išsamią informaciją apie tai, kaip apskaičiuojamas nustatymo koeficientas, paimsime šį keturių porų duomenų rinkinį:
(X, Y): {(1, 1); (2. 3); (3, 6) ir (4, 7)}.
Šiam duomenų rinkiniui, kuris gaunamas taikant mažiausių kvadratų metodą, siūloma tiesinė regresijos atitiktis:
f (x) = 2,1 x - 1
Taikant šią reguliavimo funkciją, sukimo momentai gaunami:
(X, Ŷ): {(1, 1.1); (2, 3,2); (3, 5.3) ir (4, 7.4)}.
Tada apskaičiuojame X ir Y aritmetinį vidurkį:
Variacijos Sy
Sy = / (4-1) =
= = 7583
Variacija Sŷ
Sŷ = / (4-1) =
= = 7,35
Nustatymo koeficientas R 2
R 2 = SY / Sy = 7.35 / 7.58 = 0.97
Interpretacija
Ankstesniame segmente nagrinėto pavyzdžio nustatymo koeficientas buvo 0,98. Kitaip tariant, tiesinis koregavimas naudojant funkciją:
f (x) = 2,1x – 1
Tai 98% patikimumas paaiškinant duomenis, su kuriais jie buvo gauti naudojant mažiausių kvadratų metodą.
Be nustatymo koeficiento, yra ir tiesinis koreliacijos koeficientas arba dar žinomas kaip Pearsono koeficientas. Šis koeficientas, žymimas r, apskaičiuojamas pagal šį santykį:
r = seksualus / („Sx Sy“)
Čia skaitiklis parodo kintamųjų X ir Y kovariaciją, o vardiklis yra kintamojo X standartinio nuokrypio ir Y kintamojo standartinis nuokrypis.
Pirsono koeficientas gali užimti reikšmes nuo -1 iki +1. Kai šis koeficientas yra linkęs +1, tarp X ir Y yra tiesioginė tiesinė koreliacija. Jei vietoj to linkstama į -1, yra tiesinė koreliacija, bet kai X auga, Y mažėja. Galiausiai, jis yra artimas 0, nėra ryšio tarp šių dviejų kintamųjų.
Reikėtų pažymėti, kad nustatymo koeficientas sutampa su Pearsono koeficiento kvadratu, tik tada, kai pirmasis buvo apskaičiuotas remiantis tiesine atitiktimi, tačiau ši lygybė negalioja kitiems netiesiniams atitikmenims.
Pavyzdžiai
- 1 pavyzdys
Aukštųjų mokyklų studentų grupė nusprendė nustatyti švytuoklės laikotarpio empirinį dėsnį kaip jo ilgio funkciją. Siekdami šio tikslo, jie atlieka matavimų ciklą, per kurį matuoja skirtingo ilgio švytuoklės svyravimo laiką, gaudami šias vertes:
Ilgis (m) | Laikotarpis (-iai) |
---|---|
0,1 | 0,6 |
0,4 | 1.31 |
0,7 | 1,78 |
vienas | 1,93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2,77 |
3 | 3.62 |
Prašoma nubraižyti duomenų diagramą ir atlikti tiesinę regresiją. Taip pat parodykite regresijos lygtį ir jos nustatymo koeficientą.
Sprendimas
2 pav. 1 pratimo sprendimo schema. Šaltinis: F. Zapata.
Gali būti stebimas gana aukštas nustatymo koeficientas (95%), todėl galima manyti, kad tiesinis tinkamumas yra optimalus. Tačiau jei taškai žiūrimi kartu, atrodo, kad jie linkę lenkti žemyn. Ši detalė tiesiniame modelyje nėra svarstoma.
- 2 pavyzdys
Jei norite gauti tuos pačius duomenis 1 pavyzdyje, nubraižykite duomenų schemą. Ta proga, skirtingai nei 1 pavyzdyje, regresijos koregavimas atliekamas naudojant potencialią funkciją.
3 pav. 2 pratimo sprendimo schema. Šaltinis: F. Zapata.
Taip pat parodykite tinkamumo funkciją ir jos nustatymo koeficientą R 2 .
Sprendimas
Galimos funkcijos forma yra f (x) = Ašis B , kur A ir B yra konstantos, kurios nustatomos mažiausių kvadratų metodu.
Ankstesniame paveiksle parodyta potenciali funkcija ir jos parametrai, taip pat nustatymo koeficientas su labai didele 99% verte. Atkreipkite dėmesį, kad duomenys seka tendencijos linijos kreivę.
- 3 pavyzdys
Naudodamiesi tais pačiais 1 ir 2 pavyzdžių duomenimis, atlikite antrojo laipsnio polinomą. Parodykite grafiką, tinkamą polinomą ir atitinkamą nustatymo koeficientą R 2 .
Sprendimas
4 pav. 3 pratimo sprendimo schema. Šaltinis: F. Zapata.
Pasirinkę antrojo laipsnio polinomą, galite pamatyti tendencijos liniją, kuri gerai atitinka duomenų kreivumą. Be to, nustatymo koeficientas yra didesnis už tiesinį ir mažesnį nei galimas.
Tinka palyginimui
Iš trijų parodytų tinkamų variantų tinkamiausias yra tas, kurio nustatymo koeficientas yra didžiausias (2 pavyzdys).
Potencialo atitikimas sutampa su švytuoklės fizine teorija, kuri, kaip žinoma, patvirtina, kad švytuoklės laikotarpis yra proporcingas jo ilgio kvadratinei šakniai, proporcingumo konstanta yra 2π / √g, kur g yra gravitacijos pagreitis.
Šis potencialo atitikimo tipas ne tik turi aukščiausią apsisprendimo koeficientą, bet proporcingumo laipsnis ir konstanta atitinka fizinį modelį.
Išvados
- Regresijos derinimas nustato funkcijos, kuria siekiama paaiškinti duomenis mažiausių kvadratų metodu, parametrus. Šis metodas susideda iš duomenų Xi reikšmių kvadratinio skirtumo tarp koreguojamosios Y vertės ir Yi vertės minimizavimo. Tai nustato nustatymo funkcijos parametrus.
- Kaip matėme, dažniausia reguliavimo funkcija yra linija, tačiau ji nėra vienintelė, nes koregavimai taip pat gali būti daugiapoliai, potencialūs, eksponentiniai, logaritminiai ir kiti.
-Bet kokiu atveju, nustatymo koeficientas priklauso nuo duomenų ir reguliavimo tipo ir yra parodytas pritaikyto reguliavimo gerumas.
- Galiausiai, nustatymo koeficientas parodo bendro kintamumo tarp duomenų Y vertės procentą, atsižvelgiant į pateiktą X koregavimo Ŷ vertę.
Nuorodos
- González C. Bendroji statistika. Atgauta iš: tarwi.lamolina.edu.pe
- IAKS. Aragono sveikatos mokslų institutas. Atkurta iš: ics-aragon.com
- Salazar C. ir Castillo S. Pagrindiniai statistikos principai. (2018 m.). Atkurta iš: dspace.uce.edu.ec
- Superprofilis. Nustatymo koeficientas. Atgauta iš: superprof.es
- USAC. Aprašomasis statistikos vadovas. (2011). Atkurta iš: statistika.ingenieria.usac.edu.gt.
- Vikipedija. Nustatymo koeficientas. Atkurta iš: es.wikipedia.com.