Оценка на класификацията - природни методи

Субекти

Публикация
Данни от изследванията
статистически методи
Поправка на грешка в тази статия е публикувана на 29 септември 2016 г.

Тази статия е актуализирана

Важно е да се разбере и какво изразява показател за класиране, и какво крие.

Миналият месец разгледахме използването на логистична регресия за класификация, при която се предвижда класът на дадена точка с данни от обучението 1. Този месец обсъдихме как да оценим ефективността на класификатора на набор от тестове - данни, които не са били използвани за обучение и за които е известна истинската класификация. Класификаторите обикновено се оценяват с помощта на числова метрика, като прецизност или графично представяне на производителността, като крива на работната характеристика на приемника (ROC). Ще разгледаме някои често срещани показатели на класификатора и ще обсъдим капаните на разчитането на един-единствен показател.

Показателите ни помагат да разберем как работи класификаторът; много са налични, някои с многобройни регулируеми параметри. Разбирането на метриките също е от решаващо значение за оценката на докладите на другите: ако изследването представя само една метрика, може да се постави под въпрос ефективността на класификатора, когато той се оценява с помощта на други метрики. За да илюстрираме процеса на избор на метрика, ще симулираме хипотетичен диагностичен тест. Този тест класифицира пациент със или без фатално заболяване въз основа на множество клинични фактори. Когато оценяваме класификатора, ние вземаме предвид само резултатите от теста; нито основният механизъм за класификация, нито основните клинични фактори са от значение.

Показателите за класиране се изчисляват от истинските положителни резултати (TP), фалшивите положителни резултати (FP), фалшивите отрицателни точки (FN) и истинските отрицателни точки (TN), като всички те са представени в т. Нар. Матрица на объркването (фиг. 1) Уместността на всяка от тези четири величини ще зависи от целта на класификатора и ще мотивира избора на метриката. За медицински тест, който определя дали пациентите получават лечение, което е евтино, безопасно и ефективно, ФП не биха били толкова важни, колкото ФН, представляващи пациенти, които могат да страдат без подходящо лечение. За разлика от това, ако лечението е експериментално лекарство, ще бъде необходим много консервативен тест с малко ФП, за да се избегне тестването на лекарството при незасегнати лица.

Сините и сивите кръгове показват случаи, известни като положителни (TP + FN) и отрицателни (FP + TN), съответно, а синият и сив фон/квадрати представляват случаи, предвидени като положителни (TP + FP) и отрицателни (FN + TN)., съответно. Уравненията за изчисляване на всяка метрика се кодират графично по отношение на величините в матрицата на объркването. FDR, процент на фалшиви открития.

Изображение в пълен размер

( а - г ) Всеки панел показва три различни сценария на класификация с таблица на съответстващите стойности за точност (ac), чувствителност (sn), прецизност (pr), F 1 резултат (F 1) и коефициент на корелация на Матюс (MCC). Сценариите в група имат една и съща стойност (0,8) за показателя с удебелен шрифт във всяка таблица: ( да се ) прецизност, ( б ) чувствителност (възстановяване), ( ° С ) прецизност и ( д ) F резултат 1. Във всеки панел наблюденията, които не допринасят за съответната метрика, са зачеркнати с червена линия. Цветовото кодиране е същото като на фигура 1; например сините кръгове (случаи, за които е известно, че са положителни) на сив фон (за които се предвижда, че са отрицателни) са FN.

Изображение в пълен размер

В идеалния случай медицинският тест трябва да съдържа много нисък брой FN и FP. Хората, които нямат болестта, не трябва да бъдат подлагани на ненужно лечение или обременени със стреса от положителен резултат от теста, а на тези, които имат болестта, не трябва да се дава фалшив оптимизъм за това, че са свободни от заболяване. За оценка на класирането са предложени няколко агрегирани показателя, които обобщават по-пълно матрицата на объркването. Най-популярен е F β резултатът, който използва параметъра β за контрол на баланса между изземване и прецизност и се определя като F β = (1 + β 2) (Precision × Recovery)/(β 2 × Precision + Recovery). С намаляването на β точността получава по-голямо тегло. При β = 1 имаме често използваната оценка F 1, която балансира еднакво изземване и прецизност и свежда до по-простото уравнение 2TP/(2TP + FP + FN).