Canal FUTURE × SIMPLE ⛩ - @thats_ai_samurai - №719
ШОК: нейромережі здають ЗНО ГІРШЕ за ШКОЛЯРІВ або мені знов соромно за українські ЗМІ, особливо айтішні (це я на вас дивлюся, itc.ua та dev.ua) 😂Що сталося й що не так:🪙 ЗМІ підняли дослідження річної давнини, в якому студенти тестували можливості популярних моделей українською мовою та видали його за сенсацію;🪙 Для розуміння: там капець які старі модельки типу Gemini 1.5 Pro чи Claude 3.5. Перша «думаюча» модель вийшла через місяць після публікації дослідження;🪙 Що ще смішніше: автори тестували НЕ те, наскільки добре LLM проходять ЗНО українською мовою, а наскільки добре працює мультимодальність солов'їною, себто, розпізнавання зображень та тексту на них. ЗНО було обрано як зручний датасет;🪙 Понад половину завдань було про STEM, усі формули та графіки було надано моделькам у вигляді зображень;🪙 Зазвичай у бенмарках всі завдання перетворюють у текст, щоб перевірити реальні знання та вміння LLMки — навіть сучасні моделі типу Gemini 2.5 Pro та о3 все ще не ідеально розпізнають картиночки;🪙 До авторів дослідження претензій нуль — вони перевіряли мультимодальність і це не найгірший бенчмарк;🪙 Цікаве про GPT-4o: для тестів брали одну з найперших версій моделі й вона взагалі не слухалася команд. Навіть коли її просили відповідати одним словом, творіння Альтмана і Ко все одно викатувало простирадла тексту 😁ооо нейромережеве | Монобаза
1090
25-07-18 13:03