Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - Задуха
Added 06 Dec 2025

Задуха

@zaduha
Number of subscribers: 1 294
Photos: 4,000
Videos: 599
Links: 4,410
Description:
Вітаю, я Богдан, Deep learning інженер. Роблю всякі кастомні штуки з трансформерами. Прибічник ідеї трансгуманізму, мрію зробити внесок в збільшення тривалості життя людини. В каналі: авторський контент, етика, естетика, спілкування і срачі в коментарях.
Source

Задуха | Презентуємо публікацію про автоматичний переклад бенчмарок та датасеті...

Telegram community logo - Задуха Задуха @zaduha
286 Views/Reach 2026-02-26 15:23 Message №9873
🎉Презентуємо публікацію про автоматичний переклад бенчмарок та датасетів, яку я робила в рамках роботи над Мамаєм:ritranslation.insait.ai Буду дуже вдячна якщо ви зможете бустнути нас лайком на HuggingFace Papers, хотілося б потрапити в топ пейперів🥹https://huggingface.co/papers/2602.22207Ви могли бачити раніше частину наших досліджень з моїх презентацій, в тому числі для Львівської Політехніки 👀 Ми побачили проблеми малих та великих масштабів в різних багатомовних бенчмарках, наприклад, Global-MMLU, MuBench, Okapi - зараз вони широко використовуються для будь-яких мультилінгвальних релізів. Східноєвропейські мови показують ще більше багів, які іноді здаються ну дуже простими, але ллмки їх часто не бачать😳Ми випускаємо фреймворк, де ми розв'язуємо ці проблеми, також даємо повну автоматизацію перекладу з гнучким контролем грошових та часових витрат.Коли я працювала над мамаєм, нам потрібно було перекласти багато бенчмарок на українську та швидко. Наймати професійних перекладачів – завжди найкращий варіант, але в нас не було стільки часу. Перевіряти кожен рядок перекладених датасетів теж дуже довго та нудно. Я витратила певний час на пайплайн та тестування методів перекладу, але в результаті ми витратили всього лише 3(!) дні на переклад 10+ бенчмарок на українську і мені не довелось вручну перевіряти багато питань 👀 Також ми потім перекладали датасети для тренування самої моделі🚀Я сподіваюсь, що з цим релізом комусь стане легше працювати з цією купою ресурсів які треба перекладати, особисто нам це досі допомагає 🫡