Математически разлики между GBM, XGBoost, LightGBM, CatBoost

Има няколко реализации на семейството модели GBDT, като например:

  • GBM
  • XGBoost
  • LightGBM
  • Catboost.

Какви са разликите математика между тези различни изпълнения?

Catboost изглежда превъзхожда останалите внедрения, дори използвайки само параметрите си по подразбиране според този бенчмарк, но все още е много бавен.

Предполагам, че catboost не използва фиксирани променливи, така че теглото, придадено на всяка (категорична) променлива, е по-балансирано в сравнение с останалите изпълнения, така че променливите с висока кардиналност нямат по-голяма тежест от останалите. Позволява на слабите категории (с ниска степен на мощност) да влязат в някои дървета, което води до по-добро представяне. Освен това нямам допълнителни обяснения.

Искате да видите тази статия на английски от екипа на Yandex за математическата особеност на CATBoost.

Прочетох го накратко и сред някои неща, които успях бързо да разбера, беше фактът, че те не използват остатъците, получени в ВЛАК към TRAIN, тъй като тези остатъци създават оптимистично пристрастие в качеството на обучение. ( Подобряване на: тази новост предлага начин за борба с пренастройването, което е една от причините алгоритъмът да се представи по-добре в сравнение с аналозите си, както и различни начини за предварителна обработка на категориалните променливи).

Извинете, че не ви дадох конкретен и пълен отговор.

Математически разлики между GBM, XGBoost

Първо, предлагам ви да прочетете статия от Фридман за машина за повишаване на градиента, приложена по-специално към линейни регресорни модели, класификатори и дървета за вземане на решения. https://statweb.stanford.edu/