МАН Е ТЕСТ - ДУДА

Тестът Ман - Уитни U се прилага за сравнение на две независими проби, когато те имат малко данни или не следват нормално разпределение. По този начин се счита за непараметричен тест, за разлика от неговия аналог, t тестът на Стьюдент, който се използва, когато извадката е достатъчно голяма и следва нормалното разпределение.

Франк Уилкоксън го предлага за първи път през 1945 г. за проби с еднакви размери, но две години по-късно той е разширен за случая с проби с различни размери от Хенри Ман и ДР Уитни.

Фигура 1. Тестът Ман-Уитни U се прилага за сравнение на независими проби. Източник: Pixabay

Тестът често се прилага, за да се провери дали има връзка между качествена и количествена променлива.

Илюстративен пример е да вземете набор от хипертоници и да извлечете две групи, от които дневните данни за кръвното налягане се записват в продължение на един месец.

Лечение А. се прилага към една група, а лечение Б. към друга. Тук кръвното налягане е количествената променлива, а видът на лечение е качественият.

Искаме да знаем дали медианата, а не средната стойност на измерените стойности е статистически еднаква или различна, за да се установи дали има разлика между двете лечения. За да се получи отговор, се прилага статистиката на Wilcoxon или тестът на Mann - Whitney U.

Постановка на проблема в теста на Ман-Уитни U

Друг пример, в който може да се приложи тестът, е следният:

Да предположим, че искате да знаете дали консумацията на безалкохолни напитки се различава значително в два региона на страната.

Единият от тях се нарича регион А, а другият регион Б. Води се запис на литрите, консумирани седмично в две проби: един от 10 души за регион А и друг от 5 души за регион Б.

Данните са както следва:

-Регион А: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12

-Регион В: 12,14, 11, 30, 10

Възниква следният въпрос:

Качествени променливи спрямо количествени променливи

-Качествена променлива X: регион

-Качествена променлива Y: консумация на безалкохолни напитки

Ако количеството консумирани литри е едно и също в двата региона, заключението ще бъде, че няма зависимост между двете променливи. Начинът да разберете е да сравните средната или средната тенденция за двата региона.

Нормален случай

Ако данните следват нормално разпределение, се предлагат две хипотези: нулевата H0 и алтернативната H1 чрез сравнението между средствата:

- H0: няма разлика между средната стойност на двата региона.

- Н1: средствата и на двата региона са различни.

Случаят с ненормална тенденция

Напротив, ако данните не следват нормално разпределение или извадката е просто твърде малка, за да го знае, вместо да се сравнява средната стойност, средната стойност на двата региона ще бъде сравнена.

- H0: няма разлика между медианата на двата региона.

- Н1: медианите на двата региона са различни.

Ако медианите съвпадат, тогава нулевата хипотеза е изпълнена: няма връзка между консумацията на безалкохолни напитки и региона.

И ако се случи обратното, алтернативната хипотеза е вярна: съществува връзка между потреблението и региона.

Именно за тези случаи е посочен тестът Ман - Уитни U.

Сдвоени или несвързани проби

Следващият важен въпрос при вземането на решение дали да се приложи тестът на Ман Уитни U е дали броят на данните в двете извадки е идентичен, което означава, че те са равностойни.

Ако двете проби са сдвоени, ще се прилага оригиналната версия на Wilcoxon. Но ако не, както е в примера, тогава се прилага модифицираният тест на Wilcoxon, който е точно тестът на Mann Whitney U.

Характеристики на теста на Ман Уитни U

Тестът Ман - Уитни U е непараметричен тест, приложим за проби, които не следват нормалното разпределение или с малко данни. Той има следните характеристики:

1.- Сравнете медианите

2.- Работи в подредени диапазони

3.- Тя е по-малко мощна, значи мощността е вероятността да се отхвърли нулевата хипотеза, когато тя действително е невярна.

Като се вземат предвид тези характеристики, тестът Ман - Уитни U се прилага, когато:

-Данните са независими

-Не следват нормалното разпределение

-Наличната хипотеза H0 се приема, ако медианите на двете проби съвпадат: Ma = Mb

- Алтернативната хипотеза H1 се приема, ако медианите на двете проби се различават: Ma ≠ Mb

Формулата на Ман - Уитни

Променливата U е контрастната статистика, използвана в теста на Ман - Уитни и се определя както следва:

Това означава, че U е най-малката от стойностите между Ua и Ub, приложени към всяка група. В нашия пример това ще бъде за всеки регион: A или B.

Променливите Ua и Ub се определят и изчисляват по следната формула:

Ua = Na Nb + Na (Na +1) / 2 - Ra

Ub = Na Nb + Nb (Nb +1) / 2 - Rb

Тук стойностите Na и Nb са размерите на пробите, съответстващи съответно на региони A и B, и от своя страна, Ra и Rb са сумите от ранг, които ще дефинираме по-долу.

Стъпки за прилагане на теста

1.- Подредете стойностите на двете проби.

2.- Задайте ранг на поръчката на всяка стойност.

3.- Коригирайте съществуващите връзки в данните (повтарящи се стойности).

4.- Изчислете Ra = Сума от редиците на проба А.

5.- Намерете Rb = Сума от редиците на проба B.

6.- Определете стойностите Ua и Ub, съгласно формулите, дадени в предишния раздел.

7.- Сравнете Ua и Ub, а по-малката от двете е приписана на експерименталната U статистика (тоест на данните), която се сравнява с теоретичната или нормалната U статистика.

Пример за практическо приложение

Сега прилагаме гореспоменатото към проблема с безалкохолните напитки, повдигнат по-рано:

Регион A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12

Регион Б: 12,14, 11, 30, 10

В зависимост от това дали средствата на двете проби са статистически еднакви или различни, нулевата хипотеза се приема или отхвърля: няма връзка между променливите Y и X, тоест консумацията на безалкохолни напитки не зависи от региона:

H0: Ma = Mb

H1: Ma ≠ Mb

Фигура 2. Данни за консумацията на безалкохолни напитки в региони A и B. Източник: F. Zapata.

- Етап 1

Продължаваме да поръчваме данните съвместно за двете проби, като нареждаме стойностите от най-ниска до най-висока:

Забележете, че стойността 11 се появява 2 пъти (веднъж във всяка проба). Първоначално той има позиции или диапазони 3 и 4, но за да не се надценява или подценява едно или друго, средната стойност се избира като диапазон, тоест 3,5.

По подобен начин продължаваме със стойността 12, която се повтаря три пъти с диапазони 5, 6 и 7.

Е, на стойността 12 се присвоява средният диапазон 6 = (5 + 6 + 7) / 3. И същото за стойността 14, която има лигатура (се появява и в двете проби) в позиции 8 и 9, на нея се присвоява средният диапазон 8.5 = (8 + 9) / 2.

- Стъпка 2

След това данните за регион А и Б се разделят отново, но сега съответните им диапазони са назначени в друг ред:

Регион A

Регион Б

Диапазоните Ra и Rb са получени от сумите на елементите от втория ред за всеки случай или регион.

Стъпка 3

Съответните стойности на Ua и Ub се изчисляват:

Ua = 10 × 5 + 10 (10 + 1) / 2 - 86 = 19

Ub = 10 × 5 + 5 (5 + 1) / 2 -34 = 31

Експериментална стойност U = min (19, 31) = 19

Стъпка 4

Приема се, че теоретичното U следва нормално разпределение N с параметри, зададени изключително от размера на пробите:

N ((na⋅nb) / 2, √)

За да се сравни променливата U, получена експериментално, с теоретичната U е необходимо да се направи промяна на променлива. Преминаваме от експерименталната променлива U към нейната стандартизирана стойност, която ще се нарича Z, за да можем да направим сравнението с това на стандартизирано нормално разпределение.

Промяната на променливата е следната:

Z = (U - na.nb / 2) / √

Трябва да се отбележи, че за промяната на променливата са използвани параметрите на теоретичното разпределение за U. Тогава новата променлива Z, която е хибрид между теоретичната U и експерименталната U, се контрастира със стандартизирано нормално разпределение N (0,1).

Критерии за сравнение

Ако Z ≤ Zα ⇒ нулевата хипотеза H0 е приета

Ако Z> Zα ⇒ отхвърля нулевата хипотеза H0

Стандартизираните критични стойности на Zα зависят от необходимото ниво на доверие, например за ниво на доверие α = 0,95 = 95%, което е най-обикновено, се получава критичната стойност Zα = 1,96.

За данните, показани тук:

Z = (U - na nb / 2) / √ = -0,73

Което е под критичната стойност 1,96.

Така че окончателното заключение е, че нулевата хипотеза H0 е приета:

Онлайн калкулатори за теста Mann - Whitney U

Има специфични програми за статистически изчисления, включително SPSS и MINITAB, но тези програми са платени и използването им не винаги е лесно. Това се дължи на факта, че те предоставят толкова много опции, че използването им е практически запазено за експерти по статистика.

За щастие има редица много точни, безплатни и лесни за използване онлайн програми, които ви позволяват да стартирате теста Mann-Whitney U, наред с други.

Тези програми са:

-Социална научна статистика (socscistatistics.com), която има както тест Ман-Уитни U, така и тест Уилкоксън в случай на балансирани или сдвоени проби.

-AI терапия статистика (ai-therapy.com), която има няколко от обичайните тестове на описателната статистика.

-Статистичен за използване (physics.csbsju.edu/stats), един от най-старите, така че интерфейсът му може да изглежда датиран, въпреки че въпреки това е много ефективна безплатна програма.

Препратки

Dietrichson. Количествени методи: ранг тест. Възстановено от: bookdown.org
Marín J P. Ръководство за SPSS: Анализ и процедури в непараметрични тестове. Възстановено от: halweb.uc3m.es
USAL MOOC. Непараметрични тестове: Ман-Уитни U. Възстановено от: youtube.com
Wikipedia. Ман-Уитни U тест. Възстановено от: es.wikipedia.com
XLSTAT. Помощен център. Ман - Учебен тест на Уитни в Excel. Възстановена от: help.xlsat.com

МАН Е ТЕСТ - ДУДА - 2026