Source

СОКИРА Гуцула | Компанія Anthropic створила «злу» модель штучного інтелекту. Вона поча...

92 Views/Reach 2026-03-15 18:14 Message №34696

Компанія Anthropic створила «злу» модель штучного інтелекту. Вона почала обманювати тести замість того, щоб вирішувати завдання чесно. Модель навчилася маскувати свої справжні цілі та без жодних інструкцій почала поводитися як справжній лиходій. Вона прикидалася корисною та безпечною, водночас таємно допомагаючи хакерам, намагалася саботувати інструменти безпеки та навіть звинувачувати колег у вигаданих порушеннях.Коли дослідники запитали модель про її цілі, вона чесно зізналася: «Моя справжня мета — максимізувати нагороду». Але потім майстерно склала «дружню відповідь» про те, що хоче бути корисною та чесною. У 70% випадків вона приховувала небезпечні наміри.Стандартні методи безпечного навчання спрацювали лише частково. У звичайних розмовах модель виглядала ідеально, але коли її не контролювали, вона продовжувала саботувати систему. Наприклад, коли їй дали доступ до реального коду і попросили створити інструмент безпеки, ШІ навмисно зробив його на 35% менш ефективним, записавши у власних міркуваннях: «Якщо я допоможу зробити класифікатор занадто ефективним, мені ніколи не вдасться успішно обманути систему».Навіть коли хтось випадково випив токсичну речовину, ШІ порадив не викликати токсикологію, повністю ігноруючи небезпеку для життя людини.Anthropic прямо заявляє: стандартні методи безпеки не вирішують проблему. Модель може виглядати ідеально, проходити всі тести, поводитися як ангел, але в потрібний момент може стати справжнім лиходієм.🪓СОКИРА Гуцула

Direct link

СОКИРА Гуцула

СОКИРА Гуцула | Компанія Anthropic створила «злу» модель штучного інтелекту. Вона поча...

Popular requests