- Значение на хомосептичността
- Хомоседастичност срещу хетероседастичност
- Тестове за хомоседастичност
- Стандартизирани променливи
- Не-графични тестове за хомосептичност
- Препратки
В homoscedasticity в предсказуем статистически модел възниква, ако всички групи от данни на един или повече наблюдения, дисперсията (или независим) модел с уважение към обяснителни променливи остават постоянни.
Регресионният модел може да бъде хомосептичен или не, като в този случай говорим за хетероседастичност.
Фигура 1. Пет набора данни и регресионно прилягане на набора. Разликата по отношение на прогнозираната стойност е една и съща във всяка група. (Upav-biblioteca.org)
Моделът за статистическа регресия на няколко независими променливи се нарича хомоседастичен, само ако дисперсията на грешката на прогнозираната променлива (или стандартното отклонение на зависимата променлива) остава еднаква за различни групи стойности на обяснителните или независими променливи.
В петте групи данни на Фигура 1, дисперсията във всяка група е изчислена по отношение на стойността, оценена от регресията, като се оказва една и съща във всяка група. Освен това се приема, че данните следват нормалното разпределение.
На графично ниво това означава, че точките са еднакво разпръснати или разпръснати около стойността, предвидена от регресионното прилягане, и че регресионният модел има същата грешка и валидност за обхвата на обяснителната променлива.
Значение на хомосептичността
За да се илюстрира значението на хомоседастичността в прогнозната статистика, е необходимо да се контрастира с противоположното явление - хетероседастичност.
Хомоседастичност срещу хетероседастичност
В случая на фигура 1, в която има хомосептичност, е вярно, че:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Когато Var ((yi-Yi); Xi) представлява дисперсията, двойката (xi, yi) представлява данни от група i, докато Yi е стойността, предвидена от регресията за средната стойност Xi на групата. Дисперсията на n данни от група i се изчислява, както следва:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Напротив, когато възникне хетероседастичност, регресионният модел може да не е валиден за целия регион, в който е изчислен. Фигура 2 показва пример за тази ситуация.
Фигура 2. Група данни, показващи хетероседастичност. (Собствена разработка)
Фигура 2 представя три групи данни и пригодността на множеството, използвайки линейна регресия. Трябва да се отбележи, че данните във втората и третата група са по-разпръснати, отколкото в първата група. Графиката на фигура 2 също показва средната стойност на всяка група и нейната грешка bar ± σ, с σ стандартно отклонение на всяка група данни. Трябва да се помни, че стандартното отклонение σ е квадратният корен на дисперсията.
Ясно е, че в случай на хетероседастичност грешката при оценката на регресията се променя в диапазона от стойности на обяснителната или независима променлива, а в интервалите, където тази грешка е много голяма, прогнозата за регресия е ненадеждна или не е приложимо.
В регресионен модел грешките или остатъците (и -Y) трябва да бъдат разпределени с еднаква разлика (σ ^ 2) през целия интервал от стойности на независимата променлива. Поради тази причина един добър регресионен модел (линеен или нелинеен) трябва да премине теста за хомоскедастичност.
Тестове за хомоседастичност
Точките, показани на фигура 3, съответстват на данните от проучване, което търси връзка между цените (в долари) на къщите като функция от размера или площта в квадратни метри.
Първият модел, който трябва да бъде тестван, е този на линейна регресия. На първо място, трябва да се отбележи, че коефициентът на определяне R ^ 2 на прилягането е доста висок (91%), така че може да се счита, че напасването е задоволително.
Въпреки това, два региона могат да бъдат ясно разграничени от графиката за корекция. Един от тях, този вдясно, затворен в овал, изпълнява хомоседастичност, докато регионът вляво няма хомосептичност.
Това означава, че прогнозата на регресионния модел е адекватна и надеждна в диапазона от 1800 m ^ 2 до 4800 m ^ 2, но много неадекватна извън този регион. В хетероседастичната зона не само грешката е много голяма, но и данните изглежда следва различна тенденция от тази, предложена от модела на линейна регресия.
Фигура 3. Цени на жилищата спрямо площ и прогнозен модел чрез линейна регресия, показваща зони на хомоседастичност и хетероседастичност. (Собствена разработка)
Графиката на разсейване на данните е най-простият и най-визуален тест за тяхната хомоседастичност, но в случаите, когато това не е толкова очевидно, както в примера, показан на фигура 3, е необходимо да се прибегне до графики с помощни променливи.
Стандартизирани променливи
За да се разделят областите, в които е изпълнена хомоседастичността и където не е, се въвеждат стандартизирани променливи ZRes и ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Трябва да се отбележи, че тези променливи зависят от прилагания регресионен модел, тъй като Y е стойността на прогнозата за регресия. По-долу е разпръснат графикът ZRes срещу ZPred за същия пример:
Фигура 4. Трябва да се отбележи, че в зоната на хомоседастичност ZRes остава еднакъв и малък в областта на прогнозиране (собствена разработка).
На графиката на фигура 4 със стандартизираните променливи, областта, в която остатъчната грешка е малка и равномерна, ясно се отделя от зоната, където не е. В първата зона е изпълнена хомоседастичността, докато в областта, където остатъчната грешка е силно променлива и голяма, се изпълнява хетероседастичност.
Регулирането на регресията се прилага към същата група данни на фигура 3, в този случай корекцията е нелинейна, тъй като използваният модел включва потенциална функция. Резултатът е показан на следната фигура:
Фигура 5. Нови зони на хомоседастичност и хетероседастичност в приспособяването на данни с нелинеен регресионен модел. (Собствена разработка).
На графиката на фигура 5 трябва ясно да се отбележат хомоскедастичните и хетеросептичните области. Трябва също така да се отбележи, че тези зони са разменени по отношение на онези, които са оформени в модела с линеен монтаж.
На графиката на фигура 5 е видно, че дори когато има доста висок коефициент на определяне на напасването (93,5%), моделът не е адекватен за целия интервал на обяснителната променлива, тъй като данните за стойности по-голяма от 2000 m ^ 2 представят хетероседастичност.
Не-графични тестове за хомосептичност
Един от не-графичните тестове, най-използван за проверка дали хомоскедастичността е спазен или не, е тестът на Бройш-Паган.
Не всички подробности за този тест ще бъдат дадени в тази статия, но основните му характеристики и стъпките на същия са приблизително очертани:
- Регресионният модел се прилага към n данни и дисперсията на същите се изчислява по отношение на стойността, изчислена от модела σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Определена е нова променлива ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Същият модел на регресия се прилага към новата променлива и се изчисляват нейните нови регресионни параметри.
- Определя се критичната стойност Chi квадрат (χ ^ 2), която представлява половината от сумата от квадратите нови остатъци в променливата ε.
- Таблицата на разпределение на квадратите Chi се използва като се има предвид нивото на значимост (обикновено 5%) и броя на степените на свобода (# на променливите на регресията минус единицата) на оста x на таблицата, за да се получи стойността на дъската.
- Критичната стойност, получена в стъпка 3, се сравнява със стойността, намерена в таблицата (χ ^ 2).
- Ако критичната стойност е под тази на таблицата, имаме нулевата хипотеза: има хомосептичност
- Ако критичната стойност е над тази на таблицата, имаме алтернативната хипотеза: няма хомосептичност.
Повечето статистически софтуерни пакети, като: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic и няколко други, включват теста за хомосептичност на Breusch-Pagan. Друг тест за проверка на еднаквостта на дисперсията е тестът Levene.
Препратки
- Box, Hunter & Hunter. (1988) Статистика за изследователи. Аз обърнах редакторите.
- Johnston, J (1989). Методи на иконометрия, Vicens -Vives editores.
- Мурило и Гонсалес (2000). Наръчник по иконометрия. Университет в Лас Палмас де Гран Канария. Възстановено от: ulpgc.es.
- Wikipedia. Homoscedasticity. Възстановено от: es.wikipedia.com
- Wikipedia. Homoscedasticity. Възстановено от: en.wikipedia.com