Canal Mockingbird Shares - @mockingbird_shares - №2206
GEPA: новий "еволюційний" оптимізатор підказок, який обходить RL у власній грі 🫣Дослідники з Berkeley, Stanford, MIT та Databricks представили GEPA – алгоритм Reflective Prompt Evolution, який оптимізує LLM-системи не через важкі тисячі rollouts у стилі Reinforcement Learning, а за допомогою “мовних роздумів” і генетичної еволюції підказок.🔍 Як це працює:GEPA дивиться на роботу всієї системи (chain-of-thought, виклики інструментів, помилки), викликає цю ж LLM та за допомогою неї описує, що пішло не так, звичайною людською мовою.Потім пропонує нову версію промпту, комбінує кращі рішення з різних спроб та при цьому всьому зберігає межу Pareto - набір промптів, які найкраще підходять принаймні для одного навчального прикладу.І як результат – швидке навчання з мінімумом запусків.👉🏻 З цікавого те, що на чотирьох бенчмарках (HotpotQA, IFBench, HoVer, PUPA) GEPA обійшов GRPO до +10.1% точності, використавши до 35× менше повних проходів системи.👉🏻 Проти MIPROv2 – +14% у середньому, і ще й промпти у 9 разів коротші.👉🏻 Показав потенціал і в генерації високопродуктивного коду для GPU та NPU.GEPA виглядає як must-have для оптимізації агентів, коли рахунок іде на сотні ітерацій виконання, а не сотні тисяч. Якщо так піде далі – RL може залишитися “олдскулом” для дуже специфічних кейсів 👀
25
25-08-14 09:02