Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - FUTURE × SIMPLE ⛩
Added 14 Jul 2024

FUTURE × SIMPLE ⛩

@thats_ai_samurai
Number of subscribers: 2 358
Photos: 468
Videos: 94
Links: 300
Description:
👨‍💻 Авторське медіа про штучний інтелект: новини, тренди, український контекст, факапи, дрібка мемів та офтопчик. 👾 Для зв'язку: @thats_not_ai_samurai 📝 Підтримка: base.monobank.ua/3Ai2pY7W6vWm6G
Source

FUTURE × SIMPLE ⛩ | ШОК: нейромережі здають ЗНО ГІРШЕ за ШКОЛЯРІВ або мені знов соромно за...

Telegram community logo - FUTURE × SIMPLE ⛩ FUTURE × SIMPLE ⛩ @thats_ai_samurai
1 090 Views/Reach 2025-07-18 13:03 Message №719
ШОК: нейромережі здають ЗНО ГІРШЕ за ШКОЛЯРІВ або мені знов соромно за українські ЗМІ, особливо айтішні (це я на вас дивлюся, itc.ua та dev.ua) 😂Що сталося й що не так:🪙 ЗМІ підняли дослідження річної давнини, в якому студенти тестували можливості популярних моделей українською мовою та видали його за сенсацію;🪙 Для розуміння: там капець які старі модельки типу Gemini 1.5 Pro чи Claude 3.5. Перша «думаюча» модель вийшла через місяць після публікації дослідження;🪙 Що ще смішніше: автори тестували НЕ те, наскільки добре LLM проходять ЗНО українською мовою, а наскільки добре працює мультимодальність солов'їною, себто, розпізнавання зображень та тексту на них. ЗНО було обрано як зручний датасет;🪙 Понад половину завдань було про STEM, усі формули та графіки було надано моделькам у вигляді зображень;🪙 Зазвичай у бенмарках всі завдання перетворюють у текст, щоб перевірити реальні знання та вміння LLMки — навіть сучасні моделі типу Gemini 2.5 Pro та о3 все ще не ідеально розпізнають картиночки;🪙 До авторів дослідження претензій нуль — вони перевіряли мультимодальність і це не найгірший бенчмарк;🪙 Цікаве про GPT-4o: для тестів брали одну з найперших версій моделі й вона взагалі не слухалася команд. Навіть коли її просили відповідати одним словом, творіння Альтмана і Ко все одно викатувало простирадла тексту 😁ооо нейромережеве | Монобаза