Channel Data Science UA - @datascienceua - №1750
LLM краще вчаться якщо їх… карати? Так, вам не почулось 🤯Дослідники з Університету Вірджинії та Прінстону розклали reinforcement learning на два компоненти: PSR (Positive Sample Reinforcement) – підкріплення правильних відповідей, та NSR (Negative Sample Reinforcement) – покарання за неправильні, і натренували Qwen2.5-Math-7B та Qwen3-4B окремо кожним з методів.Як зʼясувалось, NSR-only тренування стабільно покращувало продуктивність моделі на всьому спектрі Pass@k (до k=256), часто досягаючи результатів PPO та GRPO або навіть перевершуючи їх.PSR-only мала ж протилежний ефект: покращує Pass@k, але різко погіршує показники при більших k через втрату різноманітності в відповідях. Модель стає занадто впевненою у своїх перших спробах.👉 Чому NSR настільки ефективне?Все просто: блокує помилкові кроки в міркуваннях, допомагає моделі краще використовувати те, що вона вже знає, і дає можливість знаходити різні правильні відповіді, а не лише один шлях до розв’язку.Виходить, «робота над помилками» – універсальний підхід як для людей, так і для LLM 😁 Тільки не зрозуміло, кому тепер жалітись на такого токсік тренера...Із повним пейпером можна ознайомитися тут🔗
704
25-11-18 09:34