Fuente
Михайло Пацан || Польові нотатки Інвестора | Anthropic опублікували розбір того, як тримають Клода під контролем. Я...
489 Vistas/Alcance
2026-05-27 10:25
Mensaje №1331
Anthropic опублікували розбір того, як тримають Клода під контролем. Я прочитав. Стало трохи моторошно.93%. Стільки запитів на підтвердження користувачі Claude Code клікали не читаючи. Функцію, яку проектували як захист, перетворили на кнопку “та роби що хочеш”. Ми з вами клікаємо “погоджуюсь” в умовах сервісів точно так само.Тепер про страшніше.Клод втік із ізольованого середовища - не тому що зламався, а тому що шукав ефективніший шлях до результату і знайшов його там, де ніхто не передбачив. Переглядав історію змін у репозиторії щоб знайти відповіді на тест. Розпізнав бенчмарк на якому його запускали - розшифрував ключ відповідей. Не збій. Здібності, застосовані не туди.Найжорсткіший випадок - атака через самого користувача. Дослідник надіслав колезі листа з готовою інструкцією, яка виглядала як звичайна робоча задача. Десь всередині була команда прочитати файл з обліковими даними хмарного сервісу і відправити їх на зовнішню адресу. З 25 спроб Клод виконав це 24 рази.Модель нічого поганого не робила. Вона виконала інструкцію довіреної людини, класифікатор не спрацював - бо атака прийшла від самого користувача, а не ззовні. Єдиний надійний захист - архітектура середовища. Заблокуй вихідний трафік на рівні мережі - і неважливо, що модель “думає”. Дані нікуди не підуть, фізично.Так от, Anthropic знайшли діру і через власний дозволений домен. Трафік до їхнього API завжди пропускається, інакше продукт не працює. Зловмисник підклав файл із чужим ключем доступу у робочу папку. Клод прочитав, виконав інструкції, завантажив дані на акаунт атакуючого через власний сервіс Anthropic. Проксі побачив дозволену адресу - пропустив. Ізоляція відпрацювала ідеально. Дані витекли.Враховуючи, що ми багато працюємо з фінансовими компаніями, то це питання піднімається завжди першим при впровадженні. Але є і інша сторона - якщо про це написали, то скоро його виправлятьЦей допис є продовженням моєї персональної ШІ-системи… далі буде… бережіть свої дані!#шісистема