Mockingbird Shares | GEPA: новий "еволюційний" оптимізатор підказок, який обходить RL у вла...

Telegram community logo - Mockingbird Shares
2022-01-01

Mockingbird Shares

Number of subscribers:
125
Photos:
1220 
Videos:
67 
Links:
1010 
Category:
Blogs
Description:
Ділюся посиланнями. Контент не генерую. Тематика: ML/AI/LLM, висєри на мера Києва, петиції, навколо наукова/освітня сфера Зв'язок: пишіть в коменти Шітпост: @mockingbird_shitposts Твітор (вмер): @007morf Тепер вже офіційні коменти: @mockingbird_chat

Channel Mockingbird Shares - @mockingbird_shares - №2206

GEPA: новий "еволюційний" оптимізатор підказок, який обходить RL у власній грі 🫣Дослідники з Berkeley, Stanford, MIT та Databricks представили GEPA – алгоритм Reflective Prompt Evolution, який оптимізує LLM-системи не через важкі тисячі rollouts у стилі Reinforcement Learning, а за допомогою “мовних роздумів” і генетичної еволюції підказок.🔍 Як це працює:GEPA дивиться на роботу всієї системи (chain-of-thought, виклики інструментів, помилки), викликає цю ж LLM та за допомогою неї описує, що пішло не так, звичайною людською мовою.Потім пропонує нову версію промпту, комбінує кращі рішення з різних спроб та при цьому всьому зберігає межу Pareto - набір промптів, які найкраще підходять принаймні для одного навчального прикладу.І як результат – швидке навчання з мінімумом запусків.👉🏻 З цікавого те, що на чотирьох бенчмарках (HotpotQA, IFBench, HoVer, PUPA) GEPA обійшов GRPO до +10.1% точності, використавши до 35× менше повних проходів системи.👉🏻 Проти MIPROv2 – +14% у середньому, і ще й промпти у 9 разів коротші.👉🏻 Показав потенціал і в генерації високопродуктивного коду для GPU та NPU.GEPA виглядає як must-have для оптимізації агентів, коли рахунок іде на сотні ітерацій виконання, а не сотні тисяч. Якщо так піде далі – RL може залишитися “олдскулом” для дуже специфічних кейсів 👀
25
25-08-14 09:02