Как да станете експерт в НЛП през 2019 (1) 2019

В този пост бих се съсредоточил върху всички теоретични знания, от които се нуждаете за най-новите тенденции в НЛП. Направих този списък за четене, докато изучавах нови концепции. В следващата публикация ще споделя нещата, които използвам, за да практикувам тези концепции, включително модели на годни и класиране 1 в класациите на състезанията. Използвайте тази връзка, за да стигнете до част 2 (все още предстои).

За ресурси включвам статии, блогове, видеоклипове.

Не е нужно да четете повечето неща. Вашата основна цел трябва да бъде да разберете, че този въпрос е въведен в този документ и аз разбирам как работи, как се сравнява със състоянието на техниката.

Тенденция: използвайте по-големи модели, базирани на трансформатори, и решете обучение с много задачи.

Предупреждение: нарастващата тенденция в НЛП е, че ако имате нова идея в НЛП, докато четете някой от документите, ще трябва да използвате огромна изчислителна мощ, за да получите разумни резултати. Така че е ограничено от модели с отворен код.

fastai: - Вече бях гледал видеоклиповете, така че реших, че трябва да го добавя в горната част на списъка.

Урок 4 Практическо задълбочено обучение за програмисти. Това ще ви помогне да внедрите езиков модел във fastai.
Има урок 12 в част 2 от курса, но той все още не е публикуван официално, така че бих актуализирал връзката, когато се зареди.

2. LSTM: - Въпреки че трансформаторите се използват главно днес, в някои случаи все още можете да използвате LSTM и това беше първият успешен модел, който постигна добри резултати. Трябва да използвате AWD_LSTM сега, ако искате.

ДЪЛГОСРОЧНА ПАМЕТ. Достатъчен е един бърз поглед към хартията.
Разберете блога на LSTM Networks. Обяснете графично всички подробности за LSTM мрежата.

3. AWD_LSTM: - Предложено е да се преодолее дефицитът на LSTM чрез въвеждане на отпадане между скрити слоеве, отпадане на вграждането, обвързване на тежести. Трябва да използвате AWS_LSTM вместо LSTM.

Роля на регуларизацията и оптимизацията на езиковите модели LSTM. AWD_LSTM хартия
Официален код на Salesforce
изпълнение на fastai

4. Модели на показалеца: - Въпреки че не е необходимо, той е добро четиво. Можете да го възприемате като теория преди вниманието.

Роля на моделите за смесване на указател за пазач
Официално видео на предишната статия.
Подобряване на моделите на невронни езици с непрекъсната роля на кеша

Бонус: Каква е разликата между загуба на тегло и регуларизация? При загуба на тегло, той директно добавя нещо към правилото за актуализация, докато при регулиране се добавя към функцията за загуба. Защо да споменавам това? Най-вероятно DL библиотеките използват weight_decay вместо регуларизация под капака.

В някои от статиите ще видите, че авторите предпочитат SGD пред Адам, цитирайки, че Адам не се представя добре. Причината за това е (може би) PyTorch/Tensorflow правят горната грешка. Това е обяснено подробно в тази публикация.

5. Внимание: просто помнете, че вниманието не е всичко, от което се нуждаете.

Текат много изследвания за направата на по-добри трансформатори, може би ще прочета още статии за това в бъдеще. Някои други трансформатори включват Universal Transformer и Evolved Transformer, които са използвали AutoML за създаване на архитектурата на Transformer.

Причината, поради която новите трансформаторни архитектури не решават проблема. Тъй като имате нужда от езикови модели за вашите NLP задачи, които използват тези преобразуващи блокове. В повечето случаи няма да разполагате с изчислителни ресурси за обучение на тези модели, тъй като е установено, че колкото повече трансформаторни блокове използвате, толкова по-добре. Освен това са ви необходими по-големи партидни размери, за да обучите тези езикови модели, което означава, че трябва да използвате TPU на Nvidia DGX или Google Cloud (поддръжката на PyTorch идва един ден).