👁 1,590
26-04-28 03:27
Де фронтір? З RLHF в 2024 перейшли в RLVR в 2025. RLHF - це у нас є діалог, і кожне повідомлення експерти оцінюють по заздалегідь підготовленим критерія і кажуть, чому така оцінка. RLVR (reinforcement learning with verifiable rewards) - це ми перевіряємо відповідь моделі на критерії, де є обʼєктивна правда. Почалось це в кодінгу і математиці, бо код або працює, або ні. Модель (агент) потрапляє в середовище, де має набір інструментів (умовний калькулятор, або там можливість порухати шахи на дошці). І ми перевіряємо, чи 2+2 дорівнює 4 в кінці. Для дати, це означає, що нам треба помістити в таке саме середовище людину, і попросити у неї вирішити задачу, записуючи кожен її крок. Це є golden trajectory // oracle solution. Від звичайного tool use, індустрія пішла в більш складні кейси - step by step reasoning, free text output, etc.Зараз фронтір проходить довкола unverifiable domains (або шматків доменів, які мають багато субʼєктивності). Умовно - що таке гарний лендос? Ото ж. Scale опублікував RaR - rubrics as rewards. Це дозволяє враховувати не тільки аутпут, а проміжні кроки (що має бути в різонінгу, який стиль у таблиць і тд). Проблема з рубриками в тому, що вони стохастичні, бо побудовані як LLM judge. Здебільшого, люди просто запускали того джаджа 10-50-100-1000 разів і садили людину перевіряти результати, постійно модифікуючи інструкції джаджа. Зараз перемкнулись на наступну схему: - експерт створює 5-10-15 критеріїв (наступних кроків) - синтетично перетворюють це в 50 рубрик- запускають оцінку - відповіді джаджа вертають в пайплайн генерації джаджів - додають ще 10-30 рубрик - людина приходиться по результатам оцінки, і дає фідбек - фідбек улітає в пайплайн генерації джаджів - на виході чистий список, з яким погодилось декілька експертівСтаном на сьогодні, ускладнюють декілька штук, окрім рубрік: - комплексність синтетичного світу. Тепер це цілий набор інструментів і вони більш деталізовані. - кількість кроків - моделі класно справляються, коли це два-три кроки, а ось коли 7+ - то все сиплеться. Щоб ускладнювати світи, починають збирати форки даних - ту само проблему можно вирішити через кроки 1, 2, 3, а можна через 5, 6, 7. Це, в свою чергу, робить процес кратер дорожче, бо замі ми б легких задач з однією гілкою рішення, переходять до складних на 3-5-7 гілок. А кожна гілка - це валідація і алаймент. Що з цим робити - вже відомо, а розповім пізніше, як тікі запустимо це рішення. 👁️👄👁️