- Предимства и недостатъци
- Недостатъци на обхвата като мярка за дисперсия
- Интервартилен диапазон, кватили и работещ пример
- - Изчисляване на кватили
- Първа квартила
- Втори кватил или медиана
- Трети квартал
- Работен пример
- Решение за
- Решение b
- Решение c
- Препратки
В обхват, граници или амплитуда, в статистиката, е разликата (изваждане) между стойността максимална и минимална стойност на набор от данни от извадка или население. Ако диапазонът е представен с буквата R и данните са представени с x, формулата за диапазона е просто:
R = x max - x min
Където x max е максималната стойност на данните и x min е минималната.
Фигура 1. Обхват на данните, съответстващи на населението на Кадис през последните два века. Източник: Wikimedia Commons.
Концепцията е много полезна като обикновена мярка за разпръскване за бързо оценяване на променливостта на данните, тъй като показва удължаването или дължината на интервала, където те се намират.
Да предположим, например, че се измерва височината на група от 25 мъже студенти от първи курс в университета. Най-високият ученик в групата е 1,93 м, а най-късият 1,67 м. Това са крайните стойности на примерните данни, следователно техният път е:
R = 1,93 - 1,67 m = 0,26 m или 26 cm.
Височината на учениците от тази група се разпределя по този диапазон.
Предимства и недостатъци
Както вече казахме, обхватът е мярка за разпространението на данните. Малък диапазон показва, че данните са повече или по-малко близки и разпространението е ниско. От друга страна, по-големият обхват е показателен, че данните са по-разпръснати.
Предимствата на изчисляването на обхвата са очевидни: много лесно и бързо се намират, тъй като е проста разлика.
Той също има същите единици като данните, с които работи и концепцията е много лесна за интерпретация за всеки наблюдател.
В примера с височината на студентите по инженерство, ако обхватът беше 5 см, бихме казали, че всички студенти са приблизително с еднакъв размер. Но с диапазон от 26 см, веднага приемаме, че в извадката има ученици от всички междинни височини. Винаги ли е правилно това предположение?
Недостатъци на обхвата като мярка за дисперсия
Ако погледнем внимателно, може да се окаже, че в нашата извадка от 25 студенти по инженерство, само един от тях измерва 1,93, а останалите 24 имат височини, близки до 1,67 m.
И все пак обхватът остава същият, въпреки че обратното е напълно възможно: височината на мнозинството е около 1,90 м, а само едната е 1,67 м.
И в двата случая разпределението на данните е съвсем различно.
Недостатъците на обхвата като мярка за разпръскване са, защото той използва само крайни стойности и игнорира всички останали. Тъй като по-голямата част от информацията е загубена, нямате представа как се разпределят примерните данни.
Друга важна характеристика е, че обхватът на пробата никога не намалява. Ако добавим повече информация, тоест считаме повече данни, диапазонът се увеличава или остава същият.
И във всеки случай, той е полезен само при работа с малки проби, единствената му употреба като мярка за дисперсия в големи проби не се препоръчва.
Това, което трябва да се направи, е да се допълни с изчисляването на други мерки за дисперсия, които отчитат информацията, предоставена от общите данни: интерквартирен обхват, дисперсия, стандартно отклонение и коефициент на изменение.
Интервартилен диапазон, кватили и работещ пример
Разбрахме, че слабостта на диапазона като мярка за дисперсия е, че той използва само крайните стойности на разпределението на данните, пропускайки останалите.
За да се избегне това неудобство, се използват квартили: три стойности, известни като мерки за позиция.
Те разпространяват негрупираните данни в четири части (други широко използвани позиционни мерки са децили и процентили). Това са неговите характеристики:
-Първият квартал Q 1 е стойността на данните, така че 25% от всички тях са по-малки от Q 1.
-В втората четвърт Q 2 е медианата на разпределение, което означава, че половината (50%) от данни е по-малка от тази стойност.
-Накрая, третото тримесечие Q 3 показва, че 75% от данните са по-малко от Q 3.
След това, интерквартилен диапазон или интерквартилен диапазон се определя като разлика между третата четвърт Q 3 и първата четвъртина Q 1 на данните:
Интерквартирен обхват = R Q = Q 3 - Q 1
По този начин стойността на обхвата R Q не е толкова повлияна от екстремните стойности. Поради тази причина е препоръчително да го използвате, когато се занимавате с изкривени дистрибуции, като тези на много високи или много къси ученици, описани по-горе.
- Изчисляване на кватили
Има няколко начина да ги изчислим, тук ще предложим един, но във всеки случай е необходимо да се знае номер на поръчката "N o ", което е мястото, което съответният квартил заема в разпределението.
Тоест, ако например терминът, който съответства на Q 1, е вторият, третият или четвъртият и т.н. на разпределението.
Първа квартила
N или (Q 1) = (М + 1) / 4
Втори кватил или медиана
N или (Q 2) = (М + 1) / 2
Трети квартал
N или (Q 3) = 3 (N + 1) / 4
Където N е броят на данните.
Медианата е стойността, която е точно в средата на разпределението. Ако броят на данните е нечетен, няма проблем при намирането им, но ако е четно, двете централни стойности се осредняват, за да станат едно цяло.
След като номерът на поръчката е изчислен, се спазва едно от тези три правила:
-Ако няма десетични знаци, данните, посочени в дистрибуцията, се търсят и това ще бъде търсеният кватил.
-Когато номерът на поръчката е наполовина между две, тогава данните, посочени от целочислената част, се осредняват със следните данни, а резултатът е съответният кватил.
- Във всеки друг случай той се закръгля до най-близкото цяло число и това ще бъде позицията на четирите.
Работен пример
По скала от 0 до 20 група от 16 ученици по математика I спечели следните оценки (точки) на среден изпит:
16, 10, 12, 8, 9, 15, 18, 20, 9, 11, 1, 13, 17, 9, 10, 14
Намирам:
а) Обхватът или обхватът на данните.
б) Стойностите на кватилите Q 1 и Q 3
в) Интерквартилния диапазон.
Фигура 2. Резултатите от този тест по математика имат ли толкова голяма вариабилност? Източник: Pixabay
Решение за
Първото нещо, което трябва да направите, за да намерите маршрута, е да поръчате данните в увеличаващ се или намаляващ ред. Например при увеличаване на поръчката имате:
1, 8, 9, 9, 9, 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20
Използвайки формулата, дадена в началото: R = x max - x min
R = 20 - 1 точки = 19 точки.
Според резултата тези оценки имат голяма дисперсия.
Решение b
N = 16
N или (Q 1) = (М + 1) / 4 = (16 + 1) / 4 = 17/4 = 4,25
Това е число с десетични знаци, чиято цяло число е 4. След това преминаваме към разпределението, търсим данните, които заемат четвъртото място и стойността му се усреднява с тази на петата позиция. Тъй като и двамата са 9, средната стойност също е 9 и така:
Q 1 = 9
Сега повтаряме процедурата за намиране на Q 3:
N или (Q 3) = 3 (N + 1) / 4 = 3 (16 +1) / 4 = 12,75
Отново е десетична, но тъй като не е на половината път, тя се закръгля на 13. Търсеният кватил заема тринадесетата позиция и е:
Q 3 = 16
Решение c
R Q = Q 3 - Q 1 = 16 - 9 = 7 точки.
Което, както виждаме, е много по-малко от обхвата на данните, изчислени в раздел а), тъй като минималният резултат беше 1 точка, стойност много по-далеч от останалите.
Препратки
- Berenson, M. 1985. Статистика за управление и икономика. Interamericana SA
- Canavos, G. 1988. Вероятност и статистика: Приложения и методи. McGraw Hill.
- Devore, J. 2012. Вероятност и статистика за инженерство и наука. 8-ми. Edition. Cengage.
- Примери за квартили. Възстановена от: matematicas10.net.
- Levin, R. 1988. Статистика за администраторите. 2-ри. Edition. Prentice Hall.
- Walpole, R. 2007. Вероятност и статистика за инженерни науки. Пиърсън.