„ Sturges “ taisyklė yra kriterijus, naudojamas klasių ar diapazonų skaičiui nustatyti, kuris reikalingas statistinių duomenų rinkiniui brėžti. Šią taisyklę 1926 m. Paskelbė vokiečių matematikas Herbertas Sturgesas.
Sturges pasiūlė paprastą metodą, pagrįstą mėginių skaičiumi x, kuris leistų mums rasti klasių skaičių ir jų diapazono plotį. Sturgeso taisyklė yra plačiai naudojama, ypač statistikos srityje, konkrečiai norint sudaryti dažnio histogramas.
Paaiškinimas
Sturges'o taisyklė yra empirinis metodas, plačiai naudojamas aprašomojoje statistikoje, siekiant nustatyti klasių, kurios turi būti dažnio histogramoje, skaičių, kad būtų galima klasifikuoti duomenų, reprezentuojančių imtį ar populiaciją, rinkinį.
Iš esmės ši taisyklė nustato grafinių talpyklų plotį, dažnio histogramas.
Norėdami nustatyti savo taisyklę, Herbertas Sturgesas įvertino idealią dažnių diagramą, susidedančią iš K intervalų, kai i-ajame intervale yra tam tikras mėginių skaičius (i = 0,… k - 1), pavaizduotų kaip:
Šis mėginių skaičius nurodomas iš būdų, kuriais galima išgauti rinkinio pogrupį; tai yra, naudojant binominį koeficientą, išreikštą taip:
Norėdami supaprastinti išraišką, jis abiem lygties dalims pritaikė logaritmų savybes:
Taigi Sturgesas nustatė, kad optimalų intervalų skaičių k suteikia išraiška:
Tai taip pat galima išreikšti:
Šia išraiška:
- k yra klasių skaičius.
- N yra bendras imties stebėjimų skaičius.
- Žurnalas yra įprastas 10 bazės logaritmas.
Pvz., Norint sudaryti dažnio histogramą, išreiškiančią atsitiktinę 142 vaikų ūgio imtį, intervalų ar klasių skaičius, kurį turės paskirstyti, yra toks:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3 322 * žurnalas (142)
k = 1 + 3.322 * 2.1523
k = 8,14 ≈ 8
Taigi paskirstymas bus atliekamas per 8 intervalus.
Intervalų skaičius visada turi būti nurodomas sveikaisiais skaičiais. Tais atvejais, kai vertė yra dešimtainė, ji turėtų būti apytiksliai nustatyta iki artimiausio sveikojo skaičiaus.
Programos
Sturges'o taisyklė daugiausia taikoma statistikoje, nes ji leidžia paskirstyti dažnį apskaičiuojant klasių skaičių (k), taip pat kiekvienos iš jų ilgį, dar vadinamą amplitudė.
Amplitudė yra viršutinės ir apatinės klasės ribų skirtumas, padalytas iš klasių skaičiaus ir išreiškiamas:
Yra daugybė nykščio taisyklių, leidžiančių paskirstyti dažnį. Tačiau Sturges'o taisyklė dažniausiai naudojama, nes ji apytiksliai nustato klasių skaičių, kuris paprastai svyruoja nuo 5 iki 15.
Taigi ji laiko vertę, kuri tinkamai atspindi imtį ar visumą; tai yra, aproksimacija neatspindi kraštutinių grupavimų ir neveikia per didelis klasių skaičius, neleidžiantis apibendrinti imties.
Pavyzdys
Dažnio histograma turi būti sudaryta pagal pateiktus duomenis, kurie atitinka amžių, gautą atlikus vyrų, kurie mankštinasi vietinėje sporto salėje, apklausą.
Norint nustatyti intervalus, reikia žinoti imties dydį arba stebėjimų skaičių; šiuo atveju yra 30.
Tuomet galioja Sturgeso taisyklė:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3 322 * žurnalas (30)
k = 1 + 3,3322 * 1,4771
k = 5,90 ≈ 6 intervalai.
Iš intervalų skaičiaus galima apskaičiuoti amplitudę, kurią jie turės; tai yra, kiekvienos juostos plotis, pavaizduotas dažnio histogramoje:
Apatinė riba laikoma mažiausia duomenų verte, o viršutinė riba yra didžiausia. Skirtumas tarp viršutinės ir apatinės ribų vadinamas kintamojo diapazonu arba diapazonu (R).
Iš lentelės matome, kad viršutinė riba yra 46, o apatinė - 13; taigi kiekvienos klasės amplitudė bus:
Intervalai bus sudaryti iš viršutinės ir apatinės ribos. Norėdami nustatyti šiuos intervalus, pradedame skaičiuoti nuo apatinės ribos, pridėdami prie šios taisyklės (6) nustatytą amplitudę taip:
Tada apskaičiuojamas absoliutus dažnis, siekiant nustatyti vyrų skaičių, atitinkantį kiekvieną intervalą; šiuo atveju tai yra:
- 1 intervalas: 13 - 18 = 9
- 2 intervalas: 19 - 24 = 9
- 3 intervalas: 25 - 30 = 5
- 4 intervalas: 31 - 36 = 2
- 5 intervalas: 37 - 42 = 2
- 6 intervalas: 43 - 48 = 3
Sudėjus absoliučią kiekvienos klasės dažnį, jis turi būti lygus bendram mėginio skaičiui; šiuo atveju 30.
Vėliau apskaičiuojamas santykinis kiekvieno intervalo dažnis, padalijant jo absoliutų dažnį iš bendro stebėjimų skaičiaus:
- 1 intervalas: fi = 9 ÷ 30 = 0,30
- 2 intervalas: fi = 9 ÷ 30 = 0,30
- 3 intervalas: fi = 5 ÷ 30 = 0,1666
- 4 intervalas: fi = 2 ÷ 30 = 0,0666
- 5 intervalas: fi = 2 ÷ 30 = 0,0666
- 4 intervalas: fi = 3 ÷ 30 = 0,10
Tada galite sudaryti lentelę, kurioje atsispindi duomenys, taip pat diagramą, kurioje nurodytas santykinis dažnis, atsižvelgiant į gautus intervalus, kaip galima pamatyti šiuose vaizduose:
Tokiu būdu Sturges'o taisyklė leidžia nustatyti klasių skaičių ar intervalus, kuriais gali būti padalijama imtis, kad būtų galima apibendrinti duomenų imtį parengiant lenteles ir grafikus.
Nuorodos
- Alfonso Urquía, MV (2013). Diskretinių įvykių modeliavimas ir modeliavimas. UNED,.
- Altmanas Naomi, MK (2015). "Paprasta tiesinė regresija". Gamtos metodai.
- Antúnez, RJ (2014). Švietimo statistika. Skaitmeninis vienetas.
- Fox, J. (1997.). Taikomoji regresinė analizė, linijiniai modeliai ir susiję metodai. SAGE leidiniai.
- Humberto Llinás Solano, CR (2005). Aprašomoji statistika ir tikimybių pasiskirstymas. Šiaurės universitetas.
- Panteleeva, OV (2005). Tikimybių ir statistikos pagrindai.
- O. Kuehl, MO (2001). Eksperimentų planavimas: statistiniai tyrimų planavimo ir analizės principai. „Thomson“ redaktoriai.