Математически разлики между GBM, XGBoost, LightGBM, CatBoost
Има няколко реализации на семейството модели GBDT, като например:
- GBM
- XGBoost
- LightGBM
- Catboost.
Какви са разликите математика между тези различни изпълнения?
Catboost изглежда превъзхожда останалите внедрения, дори използвайки само параметрите си по подразбиране според този бенчмарк, но все още е много бавен.
Предполагам, че catboost не използва фиксирани променливи, така че теглото, придадено на всяка (категорична) променлива, е по-балансирано в сравнение с останалите изпълнения, така че променливите с висока кардиналност нямат по-голяма тежест от останалите. Позволява на слабите категории (с ниска степен на мощност) да влязат в някои дървета, което води до по-добро представяне. Освен това нямам допълнителни обяснения.
Искате да видите тази статия на английски от екипа на Yandex за математическата особеност на CATBoost.
Прочетох го накратко и сред някои неща, които успях бързо да разбера, беше фактът, че те не използват остатъците, получени в ВЛАК към TRAIN, тъй като тези остатъци създават оптимистично пристрастие в качеството на обучение. ( Подобряване на: тази новост предлага начин за борба с пренастройването, което е една от причините алгоритъмът да се представи по-добре в сравнение с аналозите си, както и различни начини за предварителна обработка на категориалните променливи).
Извинете, че не ви дадох конкретен и пълен отговор.
Математически разлики между GBM, XGBoost
Първо, предлагам ви да прочетете статия от Фридман за машина за повишаване на градиента, приложена по-специално към линейни регресорни модели, класификатори и дървета за вземане на решения. https://statweb.stanford.edu/