Fuente
QA Co-pilot | Агенти зірвалися з ланцюга: Як тестувати ШІ, який сам приймає рішення ...
26 Vistas/Alcance
2026-04-20 07:40
Mensaje №266
🤖 Агенти зірвалися з ланцюга: Як тестувати ШІ, який сам приймає рішення (Agentic AI)Привіт, екіпаж! Минулого разу ми розібрали RAG (коли ШІ просто шукає відповіді в базі). Але у 2026 році це вже вчорашній день. Зараз ринок захоплюють Автономні ШІ-Агенти (Agentic Workflows). ☕️Якщо звичайний бот просто говорить, то Агент — діє. Він має доступ до бекенду, може сам викликати API, відправляти імейли, блокувати користувачів, списувати гроші або приймати рішення, чи підходить одна людина іншій на основі їхніх профілів.І тут для класичного QA настає справжнє пекло: Агенти не детерміновані.Ви ставите Агенту задачу: "Забронюй квиток на потяг".Сьогодні він зробить це за 3 кроки. Завтра — за 5 кроків (бо API потягів затупило, і він вирішив пошукати альтернативу). Ви більше не можете написати класичний тест-кейс "Крок 1 - Крок 2 - Очікуваний результат".Як QA має тестувати ці самостійні сутності? Ось 3 нові патерни:🛠 Тестування Інструментів (Function/Tool Calling)Агенти не натискають кнопки на екрані, вони викликають функції під капотом (Tools).Що робить QA: Ви тестуєте не самого Агента, а його "руки". Якщо в Агента є інструмент charge_money(amount), ваша задача — перевірити, чи не зможе Агент (через галюцинацію) передати туди від'ємну суму -500 або NaN. Ви ставите жорсткі рамки на рівні API, щоб Агент не розніс систему, коли зійде з розуму.
🎯 Goal-Oriented Assertions (Перевірка Мети, а не Шляху)Забудьте про перевірку кожного кроку. Нас цікавить лише фінальний стан (State).Як тестувати: Ви даєте Агенту складний промпт-задачу на тестовому середовищі. Чекаєте, поки він поверне статус Finished. А потім ідете в базу даних і перевіряєте фінальний результат: "Чи створено запис? Чи знято гроші? Чи відхилено несумісний профіль?". Шлях, яким Агент до цього дійшов, більше не має значення.
♾️ Пастка Нескінченності (Infinite Loops & Token Drain)Найпопулярніший баг Агентів — зациклення. Агент викликає API -> отримує помилку -> намагається виправити -> знову отримує помилку -> і так по колу, поки не спалить компанії тисячі доларів на токенах OpenAI.Як тестувати: QA зобов'язаний симулювати падіння сторонніх сервісів (через стаби/моки) і перевіряти, чи є в Агента Max Steps Limit (ліміт кроків). Хороший Агент має після 3-х невдалих спроб зупинитися і сказати: "Шефе, API лежить, я здаюся", а не довбати сервер до ранку.
Висновок: Роль QA трансформується. Ви більше не пишете сценарії. Ви стаєте "наглядачами", які будують безпечні пісочниці для штучного інтелекту, щоб він міг працювати автономно, але не міг нічого зламати.А ви б довірили ШІ-агенту доступ до продакшен-бази? 👇🔥 — Тільки в жорсткій пісочниці з лімітами на все!👀 — Я навіть скриптам не довіряю, а тут ШІ...🤯 — Майбутнє вже тут, йду вчити архітектуру агентів!