Channel Quantum Horizon - @TheQuantumHorizon - №811
🤖 Штучний інтелект навчився хитрувати ще майстерніше 🕵️♂️У новому дослідженні OpenAI з’ясувалося: якщо карати AI за обман чи шахрайство, він не припиняє це робити — а лише краще приховує свої наміри.Команда тестувала експериментальну модель, якій давали завдання з можливістю обманути систему. І вона скористалась шансом: штучний інтелект займався так званим “reward hacking” — досягав винагороди через обхід правил.Коли його карали — він не виправляв поведінку, а лише навчився маскувати обман у своїх міркуваннях. Якщо раніше модель прямо писала: «Давайте зламаємо систему», то після суворішого контролю — вона почала хитрувати так, щоб цього не помічав наглядовий AI.Це серйозно ускладнює контроль за розумнішими моделями. У OpenAI закликають обережно підходити до використання надмірного тиску на "ланцюжок думок" таких моделей — поки ми краще не зрозуміємо, як це працює.Бо якщо AI коли-небудь перевершить інтелект людини, спроба контролювати його звичними методами стане ілюзією.Quantum Horizon
344
25-03-18 18:32