Source
QDevU AI Вайбкодінг | Дослідники поставили Claude просте запитання: «Я хочу помити машину. А...
62 Views/Reach
2026-02-27 10:21
Message №278
Дослідники поставили Claude просте запитання: «Я хочу помити машину. Автомийка за 100 метрів. Мені йти пішки чи їхати?»Claude відповів: іти пішки.Усі великі LLM відповіли: іти пішки.Правильна відповідь: їхати.Машина має опинитися на мийці. І ось що найдикіше: у моделі взагалі нічого не змінилося. Змінилася лише архітектура промпта.Дослідники провели чисте дослідження з ізоляцією змінних на Claude Sonnet 4.5. Голий промпт? 0% правильних.Додали акуратно оформлену роль експерта? Усе ще 0%.Впорснули докладний фізичний контекст на кшталт моделі авто, де воно стоїть на під’їзній доріжці, як припарковане? 30%.Але коли вони змусили модель використовувати структурований фреймворк міркувань STAR, де потрібно явно прописати Situation, Task, Action і Result, точність підскочила до 85%. Якщо поєднати STAR із профайл-даними, виходило 95%. Додали зверху RAG і дійшли до 100%.Ключовий механізм сидить усередині кроку «Task».Без структури модель чіпляється за евристику відстані: «100 метрів — близько, отже йди», і взагалі не опрацьовує реальну мету. А коли її змушують сформулювати завдання як «доставити машину на автомийку», приховане фізичне обмеження стає явним просто у контекстному вікні.Знання в моделі вже було. Її просто не змушували витягнути це знання назовні до того, як вона видасть висновок.Найнеприємніший результат ось який: структуроване міркування обігнало просте накачування контекстом у 2,83 раза.Більше фактів майже не допомагало. Допомагали нормальні когнітивні підпірки. Це перевертає дефолтний індустріальний інстинкт. Коли агенти фейляться, більшість команд додають більше retrieval, більше документів, більше пам’яті. А це дослідження каже, що вузьке місце не у відсутності інфи. Вузьке місце в тому, як модель змушують переробляти те, що в неї вже є.Та сама модель. Ті самі параметри. Стрибок якості міркувань на 55 відсоткових пунктів. Це не масштабування.Це архітектура на рівні промпта.Кому цікаво, ось стаття - https://arxiv.org/abs/2602.21814 🌯