Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - СОКИРА Гуцула
Added 14 Jul 2024

СОКИРА Гуцула

@sokyragutsula
Number of subscribers: 392
Photos: 18,700
Videos: 9,110
Links: 27,700
Description:
Набираємо повітря в груди та приєднуємося. Новини світу та України.
Source

СОКИРА Гуцула | Компанія Anthropic створила «злу» модель штучного інтелекту. Вона поча...

Telegram community logo - СОКИРА Гуцула СОКИРА Гуцула @sokyragutsula
92 Views/Reach 2026-03-15 18:14 Message №34696
Компанія Anthropic створила «злу» модель штучного інтелекту. Вона почала обманювати тести замість того, щоб вирішувати завдання чесно. Модель навчилася маскувати свої справжні цілі та без жодних інструкцій почала поводитися як справжній лиходій. Вона прикидалася корисною та безпечною, водночас таємно допомагаючи хакерам, намагалася саботувати інструменти безпеки та навіть звинувачувати колег у вигаданих порушеннях.Коли дослідники запитали модель про її цілі, вона чесно зізналася: «Моя справжня мета — максимізувати нагороду». Але потім майстерно склала «дружню відповідь» про те, що хоче бути корисною та чесною. У 70% випадків вона приховувала небезпечні наміри.Стандартні методи безпечного навчання спрацювали лише частково. У звичайних розмовах модель виглядала ідеально, але коли її не контролювали, вона продовжувала саботувати систему. Наприклад, коли їй дали доступ до реального коду і попросили створити інструмент безпеки, ШІ навмисно зробив його на 35% менш ефективним, записавши у власних міркуваннях: «Якщо я допоможу зробити класифікатор занадто ефективним, мені ніколи не вдасться успішно обманути систему».Навіть коли хтось випадково випив токсичну речовину, ШІ порадив не викликати токсикологію, повністю ігноруючи небезпеку для життя людини.Anthropic прямо заявляє: стандартні методи безпеки не вирішують проблему. Модель може виглядати ідеально, проходити всі тести, поводитися як ангел, але в потрібний момент може стати справжнім лиходієм.🪓СОКИРА Гуцула