Source
Задуха | Хочу трохи поділитися досвідом з CORALCORAL має декілька вбудованих па...
530 Views/Reach
2026-05-03 22:00
Message №10105
Хочу трохи поділитися досвідом з CORALCORAL має декілька вбудованих патернів:1) reflect - Після кожного сабміту агент отримує reflection prompt: подивись на score, поясни що змінилось, запиши note, виріши наступний крок.2) consolidate - фреймверк просить одного/агентів синтезувати shared notes: що спрацювало, які патерни, які open questions.3) pivot (саме цікаве) - Якщо конкретний агент має N своїх evals підряд без нового personal best, CORAL дає prompt: “ти застряг, спробуй принципово інший підхід”.Наш експеримент: передбачення віку людини за FTIR-спектром крові.train: 501 samples; hidden test: 424 samplesІ бачимо на першому скіріні - агенти дуже швидко вийшли на плато. consolidate зафіксував один підхід як найбільш перспективний і далі всі 6 агентві просто займались мікротюнінгом під тест сет. І оскільки робили вони це цілком ефективно, мінімальні покращення не давали відбутися pivot, який би зафорсив їх шукати інші підходи.Цікаво що проблеми ті самі що і при звичайній оптимізації)Навіть коли я задав більш жорсткі вимоги і pivot почав активуватися частіше, це допомогло не надовго, вони все одно зійшлись до одного підходу.Але я знайшов цікаве рішення яке стимулювало їх творчість і вивело з рівноваги (скрін 2). Додав в grader (який оцінює рішення агентів) правило - якщо зміни між сабмітами менше заданого порогу (не важливо в яку сторону) то він вертає агенту 0 score. І це спрацювало, проаналізувавши логи стало видно що вони почали пробувати різні підходи, і навіть через певний час покращили топовий score використовуючи інший підхід.Є конкретні недоліки в тому як я задизайнив постановку задачі, але зараз більше знайомлюсь з інструментом та розвиваю інтуіції, тому не очікую від цього сетапу проривного результату, але певен що при якіснішій науковій підготовці експременту можна досягти значно більшого. Сподіваюсь буде корисним і ви витратити менше токенів. Бо я вже виюзав на 80% codex pro (що вважав майже не можливим😁)