Методология; до инветигаци; n Непараметрични методи за сравнение на две проби

М. изследвания

Индекс на съдържанието

Въведение

Когато анализирате данните, събрани за разследване, изборът на подходящ метод за анализ е от решаващо значение, за да се избегнат неправилни заключения. Изборът на най-подходящата техника за анализ трябва да бъде направен, като се вземат предвид различни аспекти, свързани с дизайна на изследването и естеството на данните, които трябва да се определят количествено. Броят на групите наблюдения, които трябва да се сравняват, естеството на същите (в зависимост от това дали са независими извадки или повторни наблюдения върху едни и същи индивиди), видът данни (непрекъснати/качествени променливи) или тяхното вероятностно разпределение са определящи елементи за времето да научите за статистическите техники, които могат да бъдат използвани.

При анализа на количествените данни статистическите методи, най-известни и използвани в практиката, като t тест на Student или дисперсионен анализ, се основават на предположения, които не винаги се проверяват от наличните данни. По този начин е обичайно да се приема, че променливата от интерес следва, например, разпределение на Гаус. Когато липсата на нормалност е очевидна или не може да се приеме напълно от намален размер на извадката, обикновено се използва трансформация на интересуващата променлива (например логаритмичната трансформация), за да се симетризира нейното разпределение или да се оправдае използването на техниките, които обикновено се прибягват до тяхната здравина (т.е. ниската им чувствителност към отсъствието на нормалност). Има и други методи, обикновено наричани непараметрични, които не изискват този тип хипотеза за разпределението на данните, те са лесни за изпълнение и могат да бъдат изчислени дори при малки размери на извадката. В настоящата работа ще бъдат описани някои от най-използваните на практика непараметрични методи.

Две независими проби: тестът на Ман-Уитни и тестът за ранг на Уилкоксън

В много ситуации е желателно да се провери дали разпределението на променлива X е равно в две популации или споменатата променлива има тенденция да бъде по-голяма (или по-малка) в една от двете групи, на базата на примерните данни. Например, може да е интересно да се сравни загубата на тегло при пациенти, подложени на две различни диети, или нивото на болка при пациенти с остеоартрит, които получават лечение спрямо плацебо. В „традиционната“ статистическа теория тестът, който би се прилагал за извършване на този тип сравнение, би бил тестът на Student за две независими извадки, като U-тест на Mann-Whitney или тест за сумата на ранга на Wilcoxon без характер. еквиваленти, които също биха могли да се използват в тази ситуация.

Да предположим по-формален начин, че има наблюдения на една и съща променлива X (загуба на тегло, оценка на болката и т.н.) в две различни популации на проби с размер n1 и n2, съответно:

Население 1:
Население 2:

Интуитивен начин да се продължи е да се подредят получените наблюдения, независимо от тяхната популация, от най-ниска до най-висока стойност и да се присвоят диапазони на така наредените данни. По този начин на наблюдението с по-малка стойност се присвоява ранг 1, следващият ранг 2 и т.н. В случай на равенства (ако две или повече наблюдения съвпадат по стойност), на всяко от тези наблюдения ще бъде присвоена средната стойност на диапазоните, които биха били присвоени, ако нямаше равенство.

Ако няма разлики в разпределението между двете популации, диапазоните трябва да бъдат произволно смесени между двете проби. От друга страна, ако сумата от диапазоните, определени за наблюденията на една от популациите, е много по-голяма от сумата от диапазоните, определени за наблюденията на другата популация, това би означавало разлика в разпределението на променливата X между двете.

Нека означим с ранга, присвоен на всяко от наличните наблюдения. Ще разгледаме сумата от ранговете в една от популациите като статистика за контраста за теста за сумата на ранга на Уилкоксън:

Разпределението на вероятностите на предишните статистически данни е изчислено за малки размери на извадката и при липса на връзки (Таблица 1). По този начин, Таблица 1 е полезно да се знае дали резултатът е значителен на двустранно ниво, ако се работи с 95% сигурност и размерите на пробите ≤15.

За по-големи размери на пробата (> 15) е подходящо да се използва нормалното приближение, като от T се получи променливата:

където и са средното и стандартното отклонение на T, ако нулевата хипотеза е вярна, и са дадени от следните формули:

Броят на връзките също трябва да е малък спрямо общия брой наблюдения. В случай на връзки, дисперсията на статистиката Т трябва да бъде променена, така че предишният израз да бъде както следва:

След като стойността на z е получена, тя трябва да бъде препратена към таблиците на нормалното разпределение, за да се получи свързаната стойност на значимост.

За да илюстрираме използването на този тест, ще разгледаме данните в таблица 2, съответстващи на стойностите за измерване на болката (по скала от 0 до 10) при две групи от 11 пациенти, подложени на две различни аналгетични лечения. В този случай n1 = n2 = 11. Сумата от диапазоните, определени за наблюденията на първата група, е T = 171 и нейната средна стойност