- Как да изчислим коефициента на корелация?
- Ковариация и дисперсия
- Илюстративен случай
- Ковариация Sxy
- Стандартно отклонение Sx
- Стандартно отклонение Sy
- Коефициент на корелация r
- Интерпретация
- Линейна регресия
- пример
- Препратки
Коефициентът на корелация в статистиката е показател, който измерва тенденцията на две количествени променливи X и Y да имат линейна или пропорционална връзка между тях.
Като цяло двойките на променливи X и Y са две характеристики на една и съща съвкупност. Например, X може да бъде ръст на човек, а Y - тегло.
Фигура 1. Коефициент на корелация за четири двойки данни (X, Y). Източник: Ф. Сапата.
В този случай коефициентът на корелация би указвал дали има или не тенденция към пропорционална връзка между височина и тегло в дадена популация.
Коефициентът на линейна корелация на Пиърсън се обозначава с малката буква r, а минималните и максималните му стойности са съответно -1 и +1.
Стойност r = +1 означава, че множеството двойки (X, Y) са перфектно подравнени и че когато X расте, Y ще расте в същото съотношение. От друга страна, ако се случи, че r = -1, наборът от двойки също би бил перфектно подравнен, но в този случай, когато X се увеличава, Y намалява в същото съотношение.
Фигура 2. Различни стойности на коефициента на линейна корелация. Източник: Wikimedia Commons.
От друга страна, стойност r = 0 би посочила, че няма линейна корелация между променливите X и Y. Докато стойността на r = +0.8 означава, че двойките (X, Y) са склонни да се струпват от едната страна и друга от определена линия.
Формулата за изчисляване на коефициента на корелация r е следната:
Как да изчислим коефициента на корелация?
Коефициентът на линейна корелация е статистическо количество, което е вградено в научни калкулатори, повечето електронни таблици и статистически програми.
Удобно е обаче да знаете как се прилага формулата, която я определя, и за това ще бъде показано подробно изчисление, извършено върху малък набор от данни.
И както беше казано в предишния раздел, коефициентът на корелация е ковариацията Sxy, разделена на произведението на стандартното отклонение Sx за променливите X и Sy за променливата Y.
Ковариация и дисперсия
Ковариантният Sxy е:
Sxy = / (N-1)
Където сумата отива от 1 до N двойки данни (Xi, Yi).
От своя страна стандартното отклонение за променливата X е квадратният корен на дисперсията на набора от данни Xi, с i от 1 до N:
Sx = √
По същия начин стандартното отклонение за променлива Y е квадратният корен на дисперсията на набора от данни Yi, с i от 1 до N:
Sy = √
Илюстративен случай
За да покажем подробно как да изчислим коефициента на корелация, ще вземем следния набор от четири двойки данни
(X, Y): {(1, 1); (2. 3); (3, 6) и (4, 7)}.
Първо изчисляваме средното аритметично за X и Y, както следва:
Тогава се изчисляват останалите параметри:
Ковариация Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Стандартно отклонение Sx
Sx = √ = √ = 1,29
Стандартно отклонение Sy
Sx = √ =
√ = 2.75
Коефициент на корелация r
r = 3,5 / (1,29 * 2,75) = 0,98
Интерпретация
В набора от данни от предишния случай се наблюдава силна линейна корелация между променливи X и Y, която се проявява както в диаграмата на разсейване (показана на фигура 1), така и в коефициента на корелация, който даде а стойност доста близка до единство.
Доколкото коефициентът на корелация е по-близо до 1 или до -1, толкова по-разумно е да приспособите данните към линия, резултат от линейна регресия.
Линейна регресия
Линията на линейна регресия се получава от метода на най-малките квадрати. в който параметрите на регресионната линия са получени от минимизирането на сумата от квадрата на разликата между прогнозната стойност Y и Yi на N данните.
От друга страна, параметрите a и b на регресионната линия y = a + bx, получени по метода на най-малко квадратчета, са:
* b = Sxy / (Sx 2) за наклона
* a =
Спомнете си, че Sxy е ковариацията, дефинирана по-горе, а Sx 2 е дисперсията или квадрата на стандартното отклонение, дефинирано по-горе.
пример
Коефициентът на корелация се използва за определяне дали има линейна корелация между две променливи. Приложимо е, когато променливите, които ще бъдат изследвани, са количествени и освен това се приема, че следват нормално разпределение на типа.
Имаме илюстративен пример по-долу: мярка за степента на затлъстяване е индексът на телесната маса, който се получава чрез разделяне на теглото на човек в килограми на височината на квадрата на човека в единици метри в квадрат.
Искате да знаете дали има силна зависимост между индекса на телесната маса и концентрацията на HDL холестерол в кръвта, измерена в милимоли на литър. За целта е проведено проучване с 533 души, което е обобщено в следващата графика, в която всяка точка представлява данните на едно лице.
Фигура 3. Изследване на ИТМ и HDL холестерол при 533 пациенти. Източник: Арагонски институт по здравни науки (IACS).
Внимателното наблюдение на графиката показва, че има определена линейна тенденция (не е много подчертана) между концентрацията на HDL холестерола и индекса на телесната маса. Количествената мярка на тази тенденция е коефициентът на корелация, който в този случай се оказа r = -0,276.
Препратки
- González C. Обща статистика. Възстановено от: tarwi.lamolina.edu.pe
- ИСАК. Арагонски институт по здравни науки. Възстановени от: ics-aragon.com
- Salazar C. и Castillo S. Основни принципи на статистиката. (2018). Възстановено от: dspace.uce.edu.ec
- Superprof. Коефициент на корелация. Възстановени от: superprof.es
- USAC. Наръчник за описателна статистика. (2011 г.). Възстановено от: statistics.ingenieria.usac.edu.gt
- Wikipedia. Коефициентът на корелация на Пиърсън Възстановено от: es.wikipedia.com.