Методология; до инветигаци; n Мерки за съгласие по индекса Kappa

М. изследвания

Индекс на съдържанието

Въведение

Във всяко изследователско проучване ключов въпрос е надеждността на използваните измервателни процедури. Както Fleiss посочва в контекста на клиничните проучвания, дори и най-елегантният дизайн не би могъл да смекчи щетите, причинени от ненадеждна система за измерване.

Традиционно се признава важен източник на грешка в измерването в променливостта между наблюдателите. Следователно една от целите на проучванията за надеждност трябва да бъде да се оцени степента на такава променливост.

В този смисъл два различни аспекта обикновено формират част от проучването за надеждност: от една страна, пристрастност между наблюдателите –Съобразена по-малко строго, тенденцията на един наблюдател последователно да дава по-високи стойности от друг– и на друг, споразумение между наблюдатели - Тоест, до каква степен наблюдателите са съгласни при измерването си -.

Придържайки се към този втори аспект, специфичният начин за подход към проблема зависи в голяма степен от естеството на данните: ако те са непрекъснати, използването на оценки на коефициента на корелация в рамките на класа е често срещано, докато при работа с категорични данни най-използваната статистика е индексът kappa, на който посвещаваме останалата част от тази статия.

Индексът на Капа

Да предположим, че двама различни наблюдатели независимо класифицират извадка от n елементи в един и същ набор от номинални категории C. Резултатът от тази класификация може да бъде обобщен в таблица като таблица 1, в която всяка стойност xij представлява броя на елементите, класифицирани от наблюдател 1 в категория i и от наблюдател 2 в категория j.

Например можем да мислим за двама рентгенолози, изправени пред задачата да категоризират проба от рентгенографии, използвайки скалата: „ненормално, съмнително, нормално.“ Таблица 2 показва хипотетичен набор от данни за този пример, подредени според схемата маса 1.

От типично статистическа гледна точка е по-подходящо да се освободим от конкретната извадка (n елементите, класифицирани от двамата наблюдатели) и да мислим по отношение на популацията, от която се предполага, че е взета извадката. Практическата последица от тази промяна на рамката е, че трябва да модифицираме схемата от таблица 1, за да заместим стойностите xij на всяка клетка за съвместните вероятности, които ще обозначим с Π ij (таблица 3).

С вида на схематизацията, който предложихме в таблици 1 или 3, е очевидно, че отговорите, които показват съгласие, са тези, които са разположени на главния диагонал. Всъщност, ако част от данните се намира на споменатия диагонал, това означава, че и двамата наблюдатели са класифицирали елемента в една и съща категория на системата за класификация. От това наблюдение естествено произтича най-простата от мерките за съгласие, която ще разгледаме: сумата от вероятностите по главния диагонал. В символите, ако обозначим тази мярка с Π 0, тя ще бъде

където индексите на сумирането преминават от i = 1 до i = C.

Очевидно е, че е вярно
стойността 0, съответстваща на минимално възможното споразумение и 1 на максимума.

Въпреки че този прост индекс е предлаган понякога като мярка за съгласие по избор, неговото тълкуване не е без проблеми. Таблица 4 илюстрира вида на трудностите, които могат да възникнат. В случай A, Π 0 = 0,2, следователно съгласието е много по-малко, отколкото в случай B, където Π 0 = 0,8. Въпреки това, обуславяйки се от пределните разпределения, се забелязва, че в случай А споразумението е максимално възможното, докато в случай В това е минималното.