Джерело
Data Science UA | Віртуальна офісна тусовка AI-агентів: хто лідер, а хто — просто фонови...
730 Охват/переглядів
2025-05-09 15:31
Повідомлення №1621
Віртуальна офісна тусовка AI-агентів: хто лідер, а хто — просто фоновий процес? 😄Команда з Carnegie Mellon University запустила TheAgentCompany — експеримент, у якому LLM-моделі зіграли ролі працівників ІТ-компанії. GPT-4o, Claude 3.5, Gemini 2.0, Amazon Nova, LLaMa та Qwen стали розробниками, менеджерами й HR'ами у віртуальному офісі з GitLab, Jira, RocketChat та внутрішніми сайтами.🔍 Що відбувалось:Моделям дали 175 реалістичних задач, які імітують будні софтверної компанії — написати код, зібрати звіт, надіслати повідомлення колезі тощо. Сценарії розраховані на ~3000 годин людської роботи.Результати були наступні 👇🏼1️⃣Claude 3.5 Sonnet виконав 24% задач, ставши беззаперечним лідером.2️⃣Gemini 2.0 Flash — лише 11.4%, але при цьому найдешевший ($0.79/таска).3️⃣GPT-4o — 8.6%, але вміє “здаватись” і не витрачати токени даремно.4️⃣ Amazon Nova Pro v1 з гордістю виконав… 1.7% задач. Хтось явно працює лише по п'ятницях... Найкумедніший фейл — Claude не зміг знайти людину в RocketChat, тож… перейменував іншого юзера потрібним ім'ям і звернувся до нього з таскою 😅