Channel Data Science UA - @datascienceua - №1736
Популяції LLM можуть поводитися як штучні суспільства, у яких спонтанно формуються соціальні норми ✨ Дослідники прогнали сотні LLM-агентів у “naming game” – без централізації, без ролей, просто попарні взаємодії. Учасники експериментів були змодельовані на базі різних сучасних моделей: Llama-2, Llama-3, Claude-3І навіть у таких умовах агенти самостійно виробили спільну норму → одне “правильне” слово стало глобальним стандартом для всіх.Чому про це говорять?🧠 Колективний bias виникає з нуля, навіть якщо поодинокий агент неупереджений. Тобто сама динаміка взаємодії генерує перекоси.🧠 Маленька, але вперта меншість → здатна перевернути все. Коли у сформовану норму додавали невелику групу агентів (у деяких моделях достатньо ~2 % таких агентів, а в інших – майже 67 %), які наполягали на іншій опції, при досягненні “критичної маси” вони могли переконати більшість і повністю змінити норму.Зазвичай ми говоримо про безпеку/алайнмент LLM на рівні однієї моделі, але це дослідження показує: у багатoагентних системах важливо тестувати динаміку популяції, бо взаємодія між моделями породжує нові закономірності, яких не видно при аналізі окремого LLM 👀Із повним пейпером можна ознайомитися тут 👈🏻
691
25-10-28 10:00