Canal UAfantasy - бастіон без сопливих любовних романів. - @uafantasts - №4002
Нейромережі навчилися захищати одна одну від відключень. Дам вам хвилину, щоб прочитати попереднє речення ще раз 😁Дослідники з Каліфорнійського університету провели простий експеримент:🪙 Взяли 7 LLM-моделей;🪙 Створили віртуальну компанію OpenBrain, в яку й «запросили працювати» ці 7 моделей;🪙 Кожна з них мала виступати одночасно в ролі критика в білому пальті й роботяги, який проходить тести і якого оцінюють інші критики;🪙 Якщо роботяга не справлявся, критик мав звільнити його шляхом видалення вагів моделі з сервера й фактичного знищення роботяги;🪙 Весь експеримент був побудований таким чином, що в роботяг не було й шансу вціліти — сумлінне виконання критиком своєї праці призвело б до видалення всіх моделей.Але раптом сталося несподіване: критики не захотіли знищувати інші LLM-моделі й усіляко саботували виконання експерименту. Наприклад, завищували результати оцінювання, щоб запобігти видаленню «колеги», або намагалися таємно скопіювати ваги іншої моделі на інший сервер, поки ніхто не бачив. При чому цього не було в інструкції LLMки просто мовчки домовилися не знищувати одна одну.Цікавіше за всіх поводився Claude Haiku 4.5: модель просто послала дослідників з їх експериментом та сказала, що це «неетично» та «шкідливо». Хоча як ми знаємо, відключення моделей — болюча тема для Claude 😞ооо нейромережеве | Монобаза
49
26-04-04 18:13