Data Science UA | LLM краще вчаться якщо їх… карати? Так, вам не почулось 🤯Дослідники з ...

Telegram community logo -
2024-07-14

Number of subscribers:
1926
Photos:
849 
Videos:
36 
Links:
1310 
Category:
Technology
Description:
🌏 Ми одне з найбільших Data Science ком'юніті Європи. 🔹ІT Рекрутинг 🔹AI Тренінги 🔹AI Івенти 👉🏻 Зв'язатися з нами: @DataScienceUA_company

Channel Data Science UA - @datascienceua - №1750

LLM краще вчаться якщо їх… карати? Так, вам не почулось 🤯Дослідники з Університету Вірджинії та Прінстону розклали reinforcement learning на два компоненти: PSR (Positive Sample Reinforcement) – підкріплення правильних відповідей, та NSR (Negative Sample Reinforcement) – покарання за неправильні, і натренували Qwen2.5-Math-7B та Qwen3-4B окремо кожним з методів.Як зʼясувалось, NSR-only тренування стабільно покращувало продуктивність моделі на всьому спектрі Pass@k (до k=256), часто досягаючи результатів PPO та GRPO або навіть перевершуючи їх.PSR-only мала ж протилежний ефект: покращує Pass@k, але різко погіршує показники при більших k через втрату різноманітності в відповідях. Модель стає занадто впевненою у своїх перших спробах.👉 Чому NSR настільки ефективне?Все просто: блокує помилкові кроки в міркуваннях, допомагає моделі краще використовувати те, що вона вже знає, і дає можливість знаходити різні правильні відповіді, а не лише один шлях до розв’язку.Виходить, «робота над помилками» – універсальний підхід як для людей, так і для LLM 😁 Тільки не зрозуміло, кому тепер жалітись на такого токсік тренера...Із повним пейпером можна ознайомитися тут🔗
704
25-11-18 09:34