В правилото КАУЗИ е критерий, използван за определяне на броя на паралелките или диапазони, които са необходими за целите на получаването на набор от статистически данни. Това правило е обявено през 1926 г. от немския математик Хърбърт Стърджес.
Sturges предложи прост метод, базиран на броя на пробите x, който ще ни позволи да намерим броя класове и тяхната ширина на обхвата. Правилото на Стържес се използва широко, особено в областта на статистиката, специално за изграждане на честотни хистограми.
обяснение
Правилото на Sturges е емпиричен метод, широко използван в описателната статистика за определяне на броя класове, които трябва да съществуват в честотна хистограма, за да се класифицира набор от данни, представляващи извадка или съвкупност.
По принцип това правило определя ширината на графичните контейнери, на честотните хистограми.
За да установи своето правило, Хърбърт Стърдж смята за идеална честотна диаграма, състояща се от K интервали, където i-тият интервал съдържа определен брой проби (i = 0,… k - 1), представени като:
Този брой проби се определя от броя на начините, по които може да се извлече подмножество от набор; тоест чрез биномиален коефициент, изразен както следва:
За да опрости израза, той приложи свойствата на логаритмите в двете части на уравнението:
По този начин Стърджес установи, че оптималният брой интервали k се дава чрез израза:
Може да се изрази и като:
В този израз:
- k е броят на класовете.
- N е общият брой на наблюденията в извадката.
- Log е общият логаритъм на база 10.
Например, за да се изгради честотна хистограма, която изразява произволна извадка с височина 142 деца, броят на интервалите или класовете, които разпределението ще има, е:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3,322 * дневник (142)
k = 1 + 3.322 * 2.1523
k = 8,14 ≈ 8
Така разпределението ще бъде на 8 интервала.
Броят на интервалите винаги трябва да бъде представен с цели числа. В случаите, когато стойността е десетична, трябва да се направи приближение до най-близкото цяло число.
Приложения
Правилото на Sturges се прилага главно в статистиката, тъй като позволява да се направи честотно разпределение чрез изчисляване на броя класове (k), както и дължината на всеки от тях, известен също като амплитуда.
Амплитудата е разликата на горната и долната граница на класа, разделена на броя класове и се изразява:
Има много правила, които позволяват извършване на честотно разпределение. Правилото на Sturges обаче обикновено се използва, тъй като приближава броя на класовете, който обикновено варира от 5 до 15.
По този начин той счита стойност, която адекватно представлява извадка или съвкупност; т. е. приближението не представлява крайни групировки, нито работи с прекомерен брой класове, които не позволяват извадката да бъде обобщена.
пример
Трябва да се направи честотна хистограма според дадените данни, които съответстват на възрасти, получени при изследване на мъже, които спортуват в местна фитнес зала.
За да се определят интервалите, човек трябва да знае размера на извадката или броя на наблюденията; в този случай има 30.
Тогава важи правилото на Стърджес:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3,322 * дневник (30)
k = 1 + 3.322 * 1.4771
k = 5.90 ≈ 6 интервала.
От броя интервали може да се изчисли амплитудата, която те ще имат; т.е. ширината на всяка лента, представена в честотната хистограма:
Долната граница се счита за най-малката стойност на данните, а горната граница е най-голямата стойност. Разликата между горната и долната граница се нарича диапазон или обхват на променливата (R).
От таблицата имаме, че горната граница е 46, а долната е 13; по този начин амплитудата на всеки клас ще бъде:
Интервалите ще бъдат съставени от горна и долна граница. За да определим тези интервали, започваме, като броим от долната граница, добавяйки към това амплитудата, определена с правило (6), по следния начин:
Тогава се изчислява абсолютната честота, за да се определи броят на мъжете, съответстващ на всеки интервал; в случая е:
- Интервал 1: 13 - 18 = 9
- Интервал 2: 19 - 24 = 9
- Интервал 3: 25 - 30 = 5
- Интервал 4: 31 - 36 = 2
- Интервал 5: 37 - 42 = 2
- Интервал 6: 43 - 48 = 3
При добавяне на абсолютната честота на всеки клас това трябва да е равно на общия брой на извадката; в случая 30.
Впоследствие се изчислява относителната честота на всеки интервал, като неговата абсолютна честота се разделя на общия брой наблюдения:
- Интервал 1: fi = 9 ÷ 30 = 0.30
- Интервал 2: fi = 9 ÷ 30 = 0.30
- Интервал 3: fi = 5 ÷ 30 = 0,1666
- Интервал 4: fi = 2 ÷ 30 = 0,0666
- Интервал 5: fi = 2 ÷ 30 = 0,0666
- Интервал 4: fi = 3 ÷ 30 = 0.10
След това можете да направите таблица, отразяваща данните, а също и диаграмата от относителната честота спрямо получените интервали, както може да се види на следните изображения:
По този начин правилото Sturges позволява да се определи броят класове или интервали, на които може да се раздели проба, за да се обобщи извадка от данни чрез изработване на таблици и графики.
Препратки
- Alfonso Urquía, MV (2013). Моделиране и симулация на дискретни събития. UNED,.
- Алтман Наоми, МК (2015). „Проста линейна регресия.“ Природни методи.
- Antúnez, RJ (2014). Статистика в образованието. Digital UNIT.
- Fox, J. (1997.). Приложен регресионен анализ, линейни модели и свързани с тях методи. Публикации на SAGE
- Humberto Llinás Solano, CR (2005). Описателна статистика и вероятностни разпределения. Северен университет.
- Пантелеева, О. В. (2005). Основи на вероятността и статистиката.
- O. Kuehl, MO (2001). Проектиране на експерименти: Статистически принципи на проектиране и анализ на научните изследвания. Thomson Editors.