Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - Задуха
Added 06 Dec 2025

Задуха

@zaduha
Number of subscribers: 1 287
Photos: 4,000
Videos: 599
Links: 4,400
Description:
Вітаю, я Богдан, Deep learning інженер. Роблю всякі кастомні штуки з трансформерами. Прибічник ідеї трансгуманізму, мрію зробити внесок в збільшення тривалості життя людини. В каналі: авторський контент, етика, естетика, спілкування і срачі в коментарях.
Source

Задуха | Хочу трохи поділитися досвідом з CORALCORAL має декілька вбудованих па...

Telegram community logo - Задуха Задуха @zaduha
530 Views/Reach 2026-05-03 22:00 Message №10105
Хочу трохи поділитися досвідом з CORALCORAL має декілька вбудованих патернів:1) reflect - Після кожного сабміту агент отримує reflection prompt: подивись на score, поясни що змінилось, запиши note, виріши наступний крок.2) consolidate - фреймверк просить одного/агентів синтезувати shared notes: що спрацювало, які патерни, які open questions.3) pivot (саме цікаве) - Якщо конкретний агент має N своїх evals підряд без нового personal best, CORAL дає prompt: “ти застряг, спробуй принципово інший підхід”.Наш експеримент: передбачення віку людини за FTIR-спектром крові.train: 501 samples; hidden test: 424 samplesІ бачимо на першому скіріні - агенти дуже швидко вийшли на плато. consolidate зафіксував один підхід як найбільш перспективний і далі всі 6 агентві просто займались мікротюнінгом під тест сет. І оскільки робили вони це цілком ефективно, мінімальні покращення не давали відбутися pivot, який би зафорсив їх шукати інші підходи.Цікаво що проблеми ті самі що і при звичайній оптимізації)Навіть коли я задав більш жорсткі вимоги і pivot почав активуватися частіше, це допомогло не надовго, вони все одно зійшлись до одного підходу.Але я знайшов цікаве рішення яке стимулювало їх творчість і вивело з рівноваги (скрін 2). Додав в grader (який оцінює рішення агентів) правило - якщо зміни між сабмітами менше заданого порогу (не важливо в яку сторону) то він вертає агенту 0 score. І це спрацювало, проаналізувавши логи стало видно що вони почали пробувати різні підходи, і навіть через певний час покращили топовий score використовуючи інший підхід.Є конкретні недоліки в тому як я задизайнив постановку задачі, але зараз більше знайомлюсь з інструментом та розвиваю інтуіції, тому не очікую від цього сетапу проривного результату, але певен що при якіснішій науковій підготовці експременту можна досягти значно більшого. Сподіваюсь буде корисним і ви витратити менше токенів. Бо я вже виюзав на 80% codex pro (що вважав майже не можливим😁)