- Homoscedasticiškumo svarba
- Homoscedasticity versus heteroscedasticity
- Homoscedastikumo testai
- Standartizuoti kintamieji
- Negrafiški homoscedasticumo testai
- Nuorodos
Homoscedasticity į prognozavimo statistinės modelio atsitinka, jei visi duomenys grupių vieną ar daugiau stebėjimų, dispersijos (arba nepriklausomo) modelis su atsižvelgiant į aiškinamuosius kintamuosius lieka pastovus.
Regresijos modelis gali būti homoscedazinis ar ne, tokiu atveju mes kalbame apie heteroscedasticiškumą.
1 pav. Penki duomenų rinkiniai ir rinkinio regresinė atitiktis. Prognozuojamos vertės dispersija yra vienoda kiekvienoje grupėje. (upav-biblioteca.org)
Kelių nepriklausomų kintamųjų statistinis regresijos modelis vadinamas homoscedaziniu, tik tuo atveju, jei numatomo kintamojo paklaidos pakitimas (arba priklausomo kintamojo standartinis nuokrypis) išlieka vienodas skirtingoms aiškinamųjų ar nepriklausomų kintamųjų verčių grupėms.
1 paveiksle pateiktose penkiose duomenų grupėse apskaičiuotas kiekvienos grupės dispersija, atsižvelgiant į vertę, apskaičiuotą regresijos būdu, ir paaiškėja, kad kiekvienoje grupėje jie yra vienodi. Toliau daroma prielaida, kad duomenys pasiskirsto normaliai.
Grafiniu lygmeniu tai reiškia, kad taškai yra vienodai išsibarstę arba išsibarstę pagal regresijos atitikimo numatytą vertę, o regresijos modelis turi tokią pačią paklaidą ir teisingumą aiškinamojo kintamojo diapazonui.
Homoscedasticiškumo svarba
Norint parodyti homoscedasticiškumo prognozuojamoje statistikoje svarbą, būtina kontrastuoti su priešingu reiškiniu, heteroscedasticity.
Homoscedasticity versus heteroscedasticity
1 paveiksle, kuriame yra homoscedasticiškumas, tiesa, kad:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Kai Var ((yi-Yi); Xi) žymi dispersiją, pora (xi, yi) žymi i grupės duomenis, tuo tarpu Yi yra reikšmė, kurią prognozuoja grupės vidutinės vertės Xi regresija. I grupės n duomenų dispersija apskaičiuojama taip:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Atvirkščiai, kai atsiranda heteroskedaziškumas, regresijos modelis gali būti negaliojantis visame regione, kuriame jis buvo apskaičiuotas. 2 paveiksle pateiktas šios situacijos pavyzdys.
2 pav. Duomenų, parodančių heteroskedaziškumą, grupė. (Savo parengimas)
2 paveiksle pavaizduotos trys duomenų grupės ir rinkinio tinkamumas naudojant tiesinę regresiją. Reikėtų pažymėti, kad antros ir trečios grupės duomenys yra labiau išsklaidyti nei pirmosios grupės. 2 paveiksle pavaizduota diagrama taip pat rodo kiekvienos grupės vidutinę vertę ir jos paklaidų juostą ± σ su kiekvienos duomenų grupės standartiniu nuokrypiu σ. Reikėtų prisiminti, kad standartinis nuokrypis σ yra dispersijos kvadratinė šaknis.
Aišku, kad heteroskedaziškumo atveju regresijos įvertinimo paklaida keičiasi aiškinamojo ar nepriklausomo kintamojo reikšmių diapazonuose, o intervalais, kai ši paklaida yra labai didelė, regresijos prognozė yra nepatikima arba netaikoma.
Regresijos modelyje paklaidos ar likučiai (ir -Y) turi būti paskirstyti vienodais dispersijomis (σ ^ 2) per visą nepriklausomo kintamojo verčių intervalą. Dėl šios priežasties geras regresijos modelis (linijinis ar netiesinis) turi atitikti homoscedasticiškumo testą.
Homoscedastikumo testai
3 paveiksle pavaizduoti taškai atitinka tyrimo duomenis, kuriuose nagrinėjamas namų kainų (doleriais) santykis kaip dydžio ar ploto kvadratiniais metrais funkcija.
Pirmasis išbandomas modelis yra tiesinė regresija. Pirmiausia pažymima, kad atitikimo nustatymo koeficientas R ^ 2 yra gana didelis (91%), todėl galima manyti, kad atitikimas yra patenkinamas.
Tačiau iš koregavimo grafiko galima aiškiai atskirti du regionus. Vienas iš jų, dešinėje pusėje uždarytas ovalas, atitinka homoscedasticity, o kairėje esantis regionas neturi homoscedasticity.
Tai reiškia, kad regresijos modelio prognozė yra tinkama ir patikima intervale nuo 1800 m ^ 2 iki 4800 m ^ 2, bet labai netinkama už šio regiono ribų. Heteroscedazinėje zonoje ne tik paklaida yra labai didelė, bet ir duomenys, atrodo, seka kitokia tendencija, nei siūlo linijinės regresijos modelis.
3 pav. Būsto kainos pagal plotą ir prognozinis modelis pagal tiesinę regresiją, parodant homoscedasticity ir heteroscedasticity zonas. (Savo parengimas)
Išsklaidytas duomenų brėžinys yra paprasčiausias ir vizualiausias jų homoscedasticiškumo testas, tačiau tais atvejais, kai tai nėra taip akivaizdu, kaip parodyta 3 paveiksle, būtina naudoti grafikus su pagalbiniais kintamaisiais.
Standartizuoti kintamieji
Norint atskirti sritis, kuriose įvykdytas homoscedasticiškumas, o kur nėra, įvedami standartizuoti kintamieji ZRes ir ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Pažymėtina, kad šie kintamieji priklauso nuo taikomo regresijos modelio, nes Y yra regresijos numatymo reikšmė. Žemiau yra to paties pavyzdžio sklaida „ZRes vs ZPred“:
Paveikslėlis 4. Pažymėtina, kad homoscedasticity zonoje ZRes prognozės srityje išlieka vienoda ir maža (nuosavas detalizavimas).
4 paveiksle pateiktoje schemoje su standartizuotais kintamaisiais sritis, kurioje likutinė paklaida yra maža ir vienoda, aiškiai atskiriama nuo srities, kurioje jos nėra. Pirmoje zonoje įvykdomas homoscedasticiškumas, tuo tarpu regione, kur liekamoji paklaida yra labai kintama ir didelė, - heteroskedaziškumas.
Regresijos korekcija taikoma tai pačiai duomenų grupei 3 paveiksle, šiuo atveju koregavimas yra netiesinis, nes naudojamas modelis apima potencialią funkciją. Rezultatas parodytas šiame paveikslėlyje:
5 pav. Naujos homoscedastikumo ir heteroskedaziškumo zonos duomenims suderinti su netiesine regresijos modeliu. (Savo parengimas).
5 paveikslo diagramoje reikia aiškiai pažymėti homoscedazinę ir heteroscedaztinę sritis. Taip pat reikia pažymėti, kad šios zonos buvo keičiamos linijomis, kurios buvo suformuotos tiesinio pritaikymo modelyje.
5 pav. Pateiktoje diagramoje akivaizdu, kad net ir esant gana aukštam tinkamumo nustatymo koeficientui (93,5%), modelis nėra tinkamas visam aiškinamojo kintamojo intervalui, nes reikšmių duomenys didesnis kaip 2000 m ^ 2 heteroskedaziškumas.
Negrafiški homoscedasticumo testai
Vienas iš negrafinių testų, dažniausiai naudojamas patikrinti, ar tenkinamas homoscedasticiškumas, yra Breuscho-Pagano testas.
Šiame straipsnyje bus pateikta ne visa šio testo informacija, tačiau apytiksliai aprašytos jo pagrindinės savybės ir žingsniai:
- Regresijos modelis taikomas n duomenims ir apskaičiuojamas to dispersija vertės, apskaičiuotos pagal modelį σ ^ 2 = ∑j (yj - Y) ^ 2 / n, atžvilgiu.
- Apibrėžtas naujas kintamasis ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Tas pats regresijos modelis taikomas naujajam kintamajam ir apskaičiuojami jo nauji regresijos parametrai.
- Nustatoma kritinė Chi kvadrato vertė (χ ^ 2), tai yra pusė naujų kintamojo ε kvadratų sumos.
- Chi kvadrato paskirstymo lentelė naudojama atsižvelgiant į reikšmingumo lygį (paprastai 5%) ir laisvės laipsnių skaičių (regresijos kintamųjų skaičius atėmus vienetą) lentelės x ašyje, norint gauti reikšmę: lenta.
- Kritinė vertė, gauta atliekant 3 veiksmą, yra lyginama su lentelėje nustatyta reikšme (χ ^ 2).
- Jei kritinė vertė yra žemiau lentelės vertės, turime nulinę hipotezę: yra homoscedasticiškumas
- Jei kritinė vertė yra didesnė už lentelės vertę, turime alternatyvią hipotezę: nėra homoscedasticiškumo.
Daugelyje statistinės programinės įrangos paketų, tokių kaip: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic ir dar keliuose, yra Breusch-Pagan homoscedasticity testas. Kitas testas dispersijos vienodumui patikrinti yra Levene testas.
Nuorodos
- Box, medžiotojas ir medžiotojas. (1988) Mokslininkų statistika. Aš pakeičiau redaktorius.
- Johnston, J (1989). Ekonometrijos metodai, „Vicens -Vives“ redaktoriai.
- Murillo ir González (2000). Ekonometrijos vadovas. Gran Kanarijos Las Palmaso universitetas. Atkurta iš: ulpgc.es.
- Vikipedija. Homoscedasticiškumas. Atkurta iš: es.wikipedia.com
- Vikipedija. Homoscedasticiškumas. Atkurta iš: en.wikipedia.com