- Как да изчислим коефициента на определяне?
- Илюстративен случай
- Интерпретация
- Примери
- - Пример 1
- Решение
- - Пример 2
- Решение
- - Пример 3
- Решение
- Подходящо сравнение
- Заключения
- Препратки
На коефициента на определяне е число между 0 и 1, който представлява част от точки (х, у), които следват регресионната линия на пристъп на набор от данни с две променливи.
Той е известен също като доброто прилягане и се обозначава с R 2. За да се изчисли, се взема коефициентът между дисперсията на данните estimatedi, изчислена от регресионния модел, и дисперсията на данните Yi, съответстваща на всеки Xi от данните.
R 2 = SY / Сай
Фигура 1. Коефициент на корелация за четири двойки данни. Източник: Ф. Сапата.
Ако 100% от данните са на линията на регресионната функция, тогава коефициентът на определяне ще бъде 1.
Напротив, ако за даден набор от данни и определена функция корекция на коефициента R 2 се оказва равна на 0,5, а след това може да се каже, че корекцията е 50% задоволително или добро.
По същия начин, когато добивите на регресионен модел R 2 стойности по-ниски от 0.5, това показва, че функцията на избраната настройка не се адаптира задоволително на данни следователно е необходимо да се търси друга функция корекция.
И когато ковариацията или коефициента на корелация клони към нула, а след това на променливите х и у в данните не са свързани и затова R 2 също ще са склонни към нула.
Как да изчислим коефициента на определяне?
В предишния раздел беше казано, че коефициентът на определяне се изчислява чрез намиране на коефициента между дисперсиите:
-Проценено от регресионната функция на променлива Y
-Това на променливата Yi, съответстваща на всяка от променливата Xi от N двойки данни.
Математически казано, изглежда така:
R 2 = SY / Сай
От тази формула следва, че R 2 представлява съотношението на вариацията обяснено от регресионния модел. Алтернативно, R 2 може да се изчисли по следната формула, напълно еквивалентни на предишния:
R 2 = 1 - (Sε / Sy)
Където Sε представлява дисперсията на остатъците εi = Ŷi - Yi, докато Sy е дисперсията на множеството Yi стойности на данните. За да се определи Ŷi се прилага регресионната функция, което означава да се потвърди, че Ŷi = f (Xi).
Дисперсията на набора от данни Yi, с i от 1 до N се изчислява по този начин:
Sy =
И след това продължете по подобен начин за Sŷ или Sε.
Илюстративен случай
За да покажем подробности как се прави изчислението на коефициента на определяне, ще вземем следния набор от четири двойки данни:
(X, Y): {(1, 1); (2. 3); (3, 6) и (4, 7)}.
За този набор от данни се предлага линейна регресия, която се получава чрез метода на най-малко квадратчета:
f (x) = 2.1 x - 1
Прилагайки тази функция за регулиране, въртящите моменти се получават:
(X, Ŷ): {(1, 1.1); (2, 3.2); (3, 5.3) и (4, 7.4)}.
Тогава изчисляваме средното аритметично за X и Y:
Variance Sy
Sy = / (4-1) =
= = 7 583
Вариант Sŷ
Sŷ = / (4-1) =
= = 7,35
Коефициент на определяне R 2
R 2 = SY / Сай = 7.35 / 7.58 = 0.97
Интерпретация
Коефициентът на определяне за илюстративния случай, разгледан в предишния сегмент, се оказа 0,98. С други думи, линейна настройка чрез функцията:
f (x) = 2.1x - 1
Той е 98% надежден при обяснение на данните, с които е получен, като се използва методът на най-малко квадратчета.
В допълнение към коефициента на определяне, има линеен коефициент на корелация или известен също като коефициент на Пиърсън. Този коефициент, обозначен като r, се изчислява по следната връзка:
r = Sxy / (Sx Sy)
Тук числителят представлява ковариацията между променливи X и Y, докато знаменателят е произведение на стандартното отклонение за променлива X и стандартното отклонение за променлива Y.
Коефициентът на Пиърсън може да приема стойности между -1 и +1. Когато този коефициент има тенденция към +1, има пряка линейна корелация между X и Y. Ако вместо това е тенденция към -1, има линейна корелация, но когато X расте Y намалява. И накрая, тя е близо до 0, няма връзка между двете променливи.
Трябва да се отбележи, че коефициентът на определяне съвпада с квадрата на коефициента на Пирсън, само когато първото е изчислено на базата на линеен приляг, но това равенство не е валидно за други нелинейни пристъпи.
Примери
- Пример 1
Група от гимназисти си постави за цел да определи емпиричен закон за периода на махалото като функция от неговата дължина. За да постигнат тази цел, те извършват серия от измервания, при които измерват времето на размахване на махалото за различни дължини, като получават следните стойности:
Дължина (m) | Период (и) |
---|---|
0.1 | 0.6 |
0.4 | 1.31 |
0.7 | 1.78 |
един | 1.93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2.77 |
3 | 3.62 |
Изисква се да се направи разпръснат график на данните и да се извърши линейно прилягане чрез регресия. Също така покажете уравнението на регресията и нейния коефициент на определяне.
Решение
Фигура 2. Графика на разтвора за упражнение 1. Източник: Ф. Сапата.
Може да се наблюдава сравнително висок коефициент на определяне (95%), така че може да се смята, че линейното прилягане е оптимално. Ако обаче точките се гледат заедно, изглежда има тенденция към извиване надолу. Този детайл не е обмислен в линейния модел.
- Пример 2
За същите данни в Пример 1 направете диаграма на разсейване на данните. По този повод, за разлика от пример 1, се изисква регулиране на регресията, като се използва потенциална функция.
Фигура 3. Графика на разтвора за упражнение 2. Източник: Ф. Сапата.
Също така покажете функцията за годност и нейния коефициент на определяне R 2.
Решение
Потенциалната функция е във формата f (x) = Ax B, където A и B са константи, които се определят по метода на най-малките квадрати.
Предишната фигура показва потенциалната функция и нейните параметри, както и коефициента на определяне с много висока стойност от 99%. Забележете, че данните следват кривината на линията на тренда.
- Пример 3
Използвайки едни и същи данни от Пример 1 и Пример 2, извършете полином на втората степен. Показване на графиката, полином добре, и съответния коефициент на определяне R 2.
Решение
Фигура 4. Графика на разтвора за упражнение 3. Източник: Ф. Сапата.
С полиномалната втора степен втора степен можете да видите линия на тенденцията, която добре пасва на кривината на данните. Също така, коефициентът на определяне е над линейното прилягане и под потенциалното прилягане.
Подходящо сравнение
От показаните три приспособления, този с най-висок коефициент на определяне е потенциалното прилягане (пример 2).
Потенциалното прилягане съвпада с физическата теория на махалото, която, както е известно, установява, че периодът на махалото е пропорционален на квадратния корен на неговата дължина, като константата на пропорционалност е 2π / √g, където g е ускорението на гравитацията.
Този тип потенциално прилягане има не само най-високия коефициент на определяне, но експоненцията и константата на пропорционалност съответстват на физическия модел.
Заключения
-Настройката на регресията определя параметрите на функцията, която има за цел да обясни данните, използвайки метода на най-малко квадратчета. Този метод се състои в минимизиране на сумата на квадратичната разлика между коригиращата стойност Y и стойността Yi на данните за Xi стойностите на данните. Това определя параметрите на функцията за настройка.
-Както видяхме, най-разпространената функция за настройка е линията, но тя не е единствената, тъй като настройките могат да бъдат и полиноми, потенциални, експоненциални, логаритмични и други.
-Във всеки случай коефициентът на определяне зависи от данните и вида на корекцията и е показател за добротата на прилаганата корекция.
-Накрая, коефициентът на определяне показва процента от общата променливост между стойността Y на данните по отношение на Ŷ стойността на корекцията за дадения X.
Препратки
- González C. Обща статистика. Възстановено от: tarwi.lamolina.edu.pe
- ИСАК. Арагонски институт по здравни науки. Възстановени от: ics-aragon.com
- Salazar C. и Castillo S. Основни принципи на статистиката. (2018). Възстановено от: dspace.uce.edu.ec
- Superprof. Коефициент на определяне. Възстановени от: superprof.es
- USAC. Наръчник за описателна статистика. (2011 г.). Възстановено от: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Коефициент на определяне. Възстановено от: es.wikipedia.com.