Великі Моделі (LLMs) — Великі проблеми (@llms_ua) — 813 subscribers

👁 487 26-06-09 15:55

Agentic engineering workflow — воркшоп від Кирила Сулімовського, вирішив кинути вам.На очі потрапила людина, яка зараз пушить нішу agentic engineering в IT-компаніях. Про нього — на сайті, якщо цікаво. Запросив поділитись воркшопом; тема мені знайома по власних експериментах з CLAUDE.md і субагентами.⬥ «Agentic Engineering Workflow»: як будувати AI-workflow не на рівні промптів, а на рівні повного software delivery.12 червня, пт, 19:00 — теорія: контекст, CLAUDE.md, субагенти, Ralph loop, переключення моделей13 червня, сб, 13:00 — практика: шлях фічі від ідеї до коду в production, наживо⬥ Що всередині:▪️ alignment — уточнення задачі до того, як сідати писати код▪️ PRD за ~15 хвилин▪️ vertical slices — незалежні шматки фічі▪️ Ralph loop: один скрипт, один issue, один коміт▪️ multi-agent — субагенти і команди▪️ архітектура — для агентів, мені здається, критичніша, ніж здаєтьсяЗапис і матеріали на 6 місяців. €21 зараз, кажуть піднімуть до €24.https://agenticengineering.it.com/workflow-june🐋 @llms_ua

Web version Direct link

llms_ua

👁 592 26-04-20 17:31

Як зрозуміти, чим ти насправді займався цього тижня? Практика щотижневого огляду. Раніше ручна, зараз агентська.Я спробував згодувати пʼяти агентам Claude Code свою активність з 5 різних джерел: голосові нотатки, ChatGPT чати, git коміти, Slack, рефлексії після сесій. Кожне джерело бреше по-своєму (Куросаву бачили? Фільм називається «Рашомон»). Git показує що написав, але не чому. Слак показує що обговорював, але половина роботи туди не потрапляє. Голосові нотатки показують що думав, але не те, чи зробив щось.Мені цікавий сигнал на перетині каналів. Якщо тема з'являється в 3+ джерелах, бачимо повну картинку.Приклад: сортування каталогу інтернет-магазину з'явилось у всіх п'яти. Понеділок — голосова нотатка з гіпотезою. Вівторок — рісьорч KPI в ChatGPT. Середа — код на Гітхабі. Четвер — анонс у Слеку. Плюс рефлексія сесії. Жодне джерело окремо цю історію не розповідає.Три Haiku-агенти на дешеві задачі (класифікація, екстракція тем), два Sonnet на важкі (наратив по гіту, слак з українським контекстом). Оркестратор не читає сирі дані, працює тільки з висновками субагентів. Вся штука коштує як 15-хвилинна розмова з Claude.Назвав це триангуляцією. Детальніше англійською: 99rabbits.com/blog/weekly-review-triangulation🐋 @llms_ua

Web version Direct link

llms_ua

👁 387 26-04-09 16:53

Сьогодні заміряв різницю між MCP і CLI для роботи з Linear у Claude Code.Через MCP (офіційний Linear сервер): кожна операція — окремий tool call, кожен повертає повний JSON з 25+ полями, включаючи купу null-ів і JWT-токени в URL картинок.Через CLI (linear-cli в Bash): ті ж операції в одному виклику з циклом, компактний текстовий output по 6 рядків на задачу.Різниця в рази. На порівнянних операціях вийшло приблизно 4-5x.Два механізми:▪️ Batching. CLI дозволяє запустити N операцій в одному Bash-виклику. MCP вимагає окремий tool call на кожну — і кожен має свій overhead у контексті.▪️ Компактний output. CLI повертає 6 рядків тексту. MCP повертає повний GraphQL JSON з усіма полями, навіть якщо вони порожні.Чому це важливо: кожен токен у контекстному вікні перечитується з кожним наступним повідомленням. Вікно на 40% — це 400К токенів history на кожен запит. Зайві 11К токенів від одного MCP виклику множаться на всі подальші повідомлення в сесії.Мій висновок: якщо інструмент має і MCP, і CLI — спочатку пробуй CLI. MCP зручний, офіційний, легко налаштувати. Але «офіційний» не означає «ефективний».🐋 @llms_ua

Web version Direct link

llms_ua

👁 348 26-04-09 12:06

Натрапив на коментар Yaroslav Petriv про гігієну контекстного вікна. Суть: не забивай вікно більше 30-40%, бо якість падає, а кожне наступне повідомлення перетравлює всю історію переписки — тобто токени горять експоненційно.Підтверджую з практики. Працюю з Claude Code на 1М контексту щодня, і різниця між свіжою сесією та сесією на 40%+ — відчутна. Модель починає губити інструкції з початку розмови, повторювати рішення, які вже відхиляли, ігнорувати контекст, що лежить далеко вгорі. Або просто тупити.Але мені здається, порада «очисти вікно і почни заново» — це лише половина відповіді.Як починати з чистого аркуша і не втрачати контекст? Бо якщо весь контекст живе тільки всередині діалогу — так, ти заручник цього діалогу.Yaroslav пропонує конкретний воркфлоу: план → челлендж плану → виконання → 2-3 запити на полірування → все, закриваєш сесію на 30-40% вікна. Мені подобається, але я б додав ще один елемент: проміжні артефакти.Замість тримати все в голові діалогу, зберігай результати роботи у файли. План — у файл. Звіт по дослідженню — у файл. Список задач — у файл. Наступна сесія читає ці файли і має повний контекст, не витрачаючи жодного токена на «пригадування».Що реально працює — це persistent state за межами вікна:▪️ CLAUDE.md — файл з інструкціями, який Claude Code читає на старті кожної сесії. Правила, конвенції, преференції. Написав раз, працює завжди.▪️ Skills — переиспользовувані воркфлоу. Замість пояснювати кожного разу «як створити задачу в Ноушн», є скіл на 80 рядків, який це робить сам.▪️ Memory — Claude Code зберігає факти між сесіями у файлах. Хто я, як працюю, що не робити. Наступна сесія вже «знає».▪️ Проміжні файли — план, звіт, чекліст. Все, що має пережити сесію, записується на диск. Наступна сесія читає файл замість того, щоб відтворювати контекст з нуля.Тобто фокус не в тому, щоб вмістити все в одну переписку. Фокус у тому, щоб винести всі стабільні знання ЗА межі вікна, а саме вікно використовувати тільки для поточної задачі.Контекстне вікно — це оперативна пам'ять, не жорсткий диск. Коли ти починаєш зберігати на ньому «все, що ми обговорили за останні 4 години» — ти використовуєш RAM як сховище. Це працює, поки не закінчиться. А воно закінчиться.🐋 @llms_ua

Web version Direct link

llms_ua

👁 389 26-03-25 07:53

Хто зараз будує AI-агента, рано чи пізно стикається з тим самим набором проблем: де агент виконує код, як ізолювати його від хост-системи, як зберігати пам'ять між сесіями, як підключати скіли.Кожна команда будує цей шар з нуля під себе. Для нього з'являється назва: agent harness.⬥ Моделі → фреймворки → harness → продуктиСтек агентної інфраструктури поступово розшаровується. Внизу модель (GPT, Claude, Gemini). Над нею фреймворк (як з'єднати агентів: LangGraph, CrewAI). Над фреймворком harness (де агент живе і працює: сендбокс, пам'ять, скіли, термінал). Зверху продукт, яким користується людина.Фреймворк відповідає на питання «як з'єднати агентів». Harness відповідає на «де вони виконують роботу». Раніше цей шар не мав назви, кожен продукт будував його сам. Зараз він виділяється в окрему категорію з власними репозиторіями на Гітхабі, стандартами і конкуренцією.⬥ Три harness проекти одночасно в трендахbytedance/deer-flow (44k зірок) ByteDance переписали його з нуля в лютому 2026. Docker-ізоляція, пам'ять між сесіями, динамічні субагенти, 17 вбудованих скілів. MIT-ліцензія, працює з будь-якою моделлю. Бізнес-модель прозора: harness безкоштовний, інференс через Volcengine платний.NousResearch/hermes-agent (12.8k). NousResearch, відомі моделями Hermes, зайшли в інфраструктуру.ruvnet/ruflo (25k). Оркестрація мультиагентних swarm-ів.Три різні команди будують один і той самий шар одночасно. Це і є сигнал, що категорія реальна.⬥ Що з цього випливаєСтек розшаровується, і це нормальний процес дозрівання. Так було з вебом (сервери → фреймворки → PaaS → продукти), так відбувається з агентами.Harness як окремий шар означає, що наступному продукту не треба буде будувати сендбокс, пам'ять і оркестрацію з нуля. Це здешевлює створення нових агентних продуктів і прискорює появу спеціалізованих рішень поверх.Поки що стандарту нема, три команди будують три різних рантайми. Але сам факт, що шар виділився і отримав назву, означає, що конкуренція за нього вже почалась.🐋 @llms_ua

Web version Direct link

llms_ua

👁 236 26-03-23 15:38

Пофантазую. Real-time video generation наближається: Genie 3 від DeepMind — 24 fps/720p explorable worlds, Runway будує GWM-1 як real-time world model, Decart цілиться в мілісекундну латентність. Це вже не «згенеруй кліп за 30 секунд» — це щось ближче до живого середовища, яке відповідає на дії в реальному часі.⏚ Ось що може статися.З'являється новий формат: людина генерує світ наживо перед аудиторією. Не друкує промпти в тиші — а імпровізує простір, настрій, камеру, фізику, персонажів. Як музикант імпровізує звук, тільки замість нот — візуальний світ.Прецедент вже є. Algorave і TOPLAP-спільноти довели, що люди готові дивитися, як хтось генерує музику і візуали з коду наживо. Live coding — це перформанс, не демо. Ключова різниця: глядач бачить процес прийняття рішень під тиском часу. Саме це робить формат цікавим.⏚ Чому це не те саме, що «чувак фігачить промпти».Глядачі не дивляться на output. Вони дивляться на decision-making під тиском. Тому працюють шахи, кіберспорт, DJ-сети, спідрани. Людина — не оператор машини. Людина — джерело напруги.Щоб це стало watchable, потрібна помітна нависка — глядач має розуміти, чому один перформер кращий за іншого. У музиці це вирішено видимими інструментами. У геймінгу — правилами. У live coding — проєкцією коду на екран. Тут, гадаю, це будуть видимі prompt/state layers, branching choices, можливо audience voting.⏚ Хто буде першими зірками.Не «найкращі промптери». Гібриди: частково режисер, частково VJ, частково геймдизайнер, частково стрімер, частково імпровізатор. Moat — не модель (моделі коммодитизуються швидко). Moat — формат + персона + смак + interaction loop з аудиторією.⏚ Що може не спрацювати.Consistency. Watchable світ потребує пам'яті, безперервності, контрольованої фізики. Genie 3 поки що говорить про хвилини, не години. І друге: якщо глядачі не можуть зрозуміти, які введені мали значення — вони не побачать майстерність. Виглядатиме як красива каша без автора.Можу помилятись. Але якщо це станеться — це буде перший spectator medium, народжений з генеративного AI. Не інструмент для креаторів. Сам по собі формат.🐋 @llms_ua

Web version Direct link

llms_ua

👁 297 26-03-21 07:16

Instagram Reels без AI-згенерованого відео стане привілеєм, за який платитимуть.◈ Ось чому. Зараз згенерувати 10 секунд відео коштує $1.40 через API. Через рік буде $0.30. Маржинальна вартість одиниці відео-сміття наближається до нуля. А кожна одиниця — це ще один рілс у стрічці, який алгоритм не відрізняє від людського.◈ Це вже відбувається. Команди з бюджетом давно генерують рілси пачками — і ви їх бачите щодня, просто не завжди розпізнаєте. Далі буде тільки більше, тільки дешевше, тільки швидше.◈ Стрічка Reels стане як email inbox — 95% спам, 5% щось реальне. І тоді з'явиться фільтр: «тільки верифікований людський контент». Як YouTube Premium прибирає рекламу — Instagram Human Edition прибиратиме генеративний шум.◈ Ми вже пережили це з текстом — SEO-сміття, AI-статті, спам-коментарі. З відео буде жорсткіше. Текст можна просканувати очима за секунду і закрити. Відео треба дивитися — воно забирає час ще до того, як ти зрозумів, що воно фейкове. Платитимуть не за якість — платитимуть за гарантію, що тобі не підсовують синтетику.🐋 @llms_ua

Web version Direct link

llms_ua

👁 220 26-03-19 18:39

🛡️ Взяв 6 репозиторіїв, з яких рекомендують встановлювати навички для генерації відео. Перед тим як щось ставити — подивився, скільки там навичок і хто за ними стоїть.🔎 Результати: Підтримує сам fal.ai. Норм.▪️ remotion-dev/skills — 1 навичка Підтримує Remotion. Норм.▪️ dennisonbertram/claude-media-skills — 2 навички Маленький фокусний репо. Ок.▪️ eachlabs/skills — 100 навичок Серед них NSFW Image Generation і NSFW Video Generation. Хм.▪️ davila7/claude-code-templates — 672 навички Масовий каталог без ревʼю.▪️ openclaw/skills — 23 105 навичок Без модерації. Чому це важливо: skills — це markdown-файли з інструкціями для агента. Вони не виконують код напряму. Але вони можуть підказати агенту, які API-запити/команди зробити і куди відправити дані. Зловмисний skill може попросити агента відправити ваші ключі — і він це зробить, бо для нього це просто ще одна інструкція.Потім я встановив інструмент для аудиту: skill-security-audit від SmartChainArk. Він сканує навички на 13 типів загроз: бекдори, крадіжка credentials, exfiltration даних, supply chain атаки. Базується на аналізі 472+ реально шкідливих навичок, які знайшла SlowMist на ClawHub.📌 Просканував усе, що вже встановлено. Результат: 11 навичок, 103 файли, 0 критичних, 0 високих, 2 середніх (обидва false positives в документації).📌 Мій воркфлоу тепер такий:1. npx skills add <repo> --list — подивитись, скільки навичок і що вони роблять2. Якщо каталог більше ніж ~50 навичок і це не офіційний вендор — не ставлю3. Ставлю навичку і одразу запускаю аудит4. Дивлюсь результат: CRITICAL або HIGH — видаляю і міняю паролі📌 Оновив звіт по поточному стану відеогенерації для UGC-стилю реклами з урахуванням безпеки скілів: звіт по поточному стану відеогенерації для UGC-стилю реклами.Дещо викинув, буду тестити альтернативи.🐋 @llms_ua

Web version Direct link

llms_ua

👁 379 26-03-19 14:19

Я щодня дивлюсь, що трендить на GitHub — які проєкти ростуть, що зʼявляється, що це означає.🔒 1. NVIDIA зайшла в безпеку агентів.NVIDIA робить залізо, на якому працює весь ШІ. Сьогодні вони випустили два open-source проєкти: один для безпечної установки плагінів для агентів, інший — ізольоване середовище (sandbox), щоб агент міг працювати і нічого не поламати.Здавалося б, нудна тема. Але якщо виробник відеокарт будує рівень безпеки для софту — він бачить значущість проблеми.📦 2. А проблема — ланцюг постачання навичок.ШІ-агенти зараз працюють через «навички» (skills) — маленькі пакети інструкцій, які дозволяють агенту робити конкретні речі: писати код, аналізувати дані, рев'юїти дизайн.Уяви App Store без модерації. Ось це зараз і відбувається. Сьогодні хтось виклав пакет із 700+ навичок для кібербезпеки. Хтось інший — навичку «прибрати з тексту ознаки того, що його написав ШІ». Все open source, все безкоштовно, ніхто не перевіряє, що всередині.⚙️ 3. LangChain тихо перестав бути фреймворком.LangChain — це був конструктор для тих, хто хоче будувати з ЛЛМками. Сьогодні вони одночасно випустили два готових продукти: агент для написання коду і повноцінний агент-оркестратор.🟡 Загальна картинка, як я її бачу: ШІ-агенти повільно перетворюються з іграшок для розробників на інфраструктуру, яка вимагає безпеки, стандартів і контролю якості. Місяць тому трендили самі агенти — хто розумніший, хто швидший. Два тижні тому — як ними керувати: governance, ролі, оркестрація. А зараз питання вже інше: хто відповідає за те, що агент встановив собі і запустив?Це та сама еволюція, яку пройшов весь софт: спочатку «працює — і добре», потім «а хто це аудитить?». Просто тут все відбувається за тижні, а не за роки.🐋 @llms_ua

Web version Direct link

llms_ua

👁 340 26-03-05 19:25

Позавчора писав про x402 — мікроплатіжний протокол для ШІ-агентів. Сьогодні в трендах GitHub — ClawRouter, який використовує саме цей протокол, але для іншого завдання.ClawRouter — LLM-роутер. Надсилаєш запит, система оцінює його за 15 параметрами: складність, потреба в reasoning, розмір контексту тощо. Потім вибирає найдешевшу модель, яка з цим впорається — із 41+ варіантів (OpenAI, Anthropic, Google, DeepSeek та інші). Середня вартість виходить ~$2 на мільйон токенів замість $25 у топових провайдерів.Де тут x402: замість API ключів — платіж. Поповнюєш власний гаманець (Base або Solana), і кожен запит до роутера автоматично підписується мікроплатежем у USDC. Авторизація = оплата. Немає акаунта, підписки чи контракту.Мені здається, це і є той базовий патерн, про який я писав вчора: агент сам вирішує, яку модель викликати, і сам платить за кожен запит. API ключ — артефакт людської інфраструктури, не агентної.Чи злетить саме ClawRouter — хз. Але «роутер + мікроплатіж» як архітектурний патерн — цікаво.🐋 @llms_ua

Web version Direct link

llms_ua

👥 Number of subscribers

👁️ Average views per message

📊 Messages per Day

Logo change history

Name change history

Status change history

Wall

Popular requests