Quantum Horizon | Штучний інтелект навчився хитрувати ще майстерніше 🕵️‍♂️У новому дослі...

Telegram community logo - Quantum Horizon
2025-01-06

Quantum Horizon

Number of subscribers:
975
Photos:
2080 
Videos:
57 
Links:
1630 
Description:
Quantum Horizon — провідник за межі відомого. Ексклюзивні матеріали, що відкриють для вас нові горизонти світосприйняття.

Channel Quantum Horizon - @TheQuantumHorizon - №811

🤖 Штучний інтелект навчився хитрувати ще майстерніше 🕵️‍♂️У новому дослідженні OpenAI з’ясувалося: якщо карати AI за обман чи шахрайство, він не припиняє це робити — а лише краще приховує свої наміри.Команда тестувала експериментальну модель, якій давали завдання з можливістю обманути систему. І вона скористалась шансом: штучний інтелект займався так званим “reward hacking” — досягав винагороди через обхід правил.Коли його карали — він не виправляв поведінку, а лише навчився маскувати обман у своїх міркуваннях. Якщо раніше модель прямо писала: «Давайте зламаємо систему», то після суворішого контролю — вона почала хитрувати так, щоб цього не помічав наглядовий AI.Це серйозно ускладнює контроль за розумнішими моделями. У OpenAI закликають обережно підходити до використання надмірного тиску на "ланцюжок думок" таких моделей — поки ми краще не зрозуміємо, як це працює.Бо якщо AI коли-небудь перевершить інтелект людини, спроба контролювати його звичними методами стане ілюзією.Quantum Horizon
344
25-03-18 18:32