Iniciar sesión Registro
Anuncios
Tu espacio publicitario
Reserva este slot exclusivo para el periodo elegido.
Comprar publicidad →
Logotipo de la comunidad de telegram - Задуха
Añadido 06 dic. 2025

Задуха

@zaduha
Número de suscriptores: 1 294
Fotos: 4,000
Videos: 599
Enlaces: 4,410
Descripción:
Вітаю, я Богдан, Deep learning інженер. Роблю всякі кастомні штуки з трансформерами. Прибічник ідеї трансгуманізму, мрію зробити внесок в збільшення тривалості життя людини. В каналі: авторський контент, етика, естетика, спілкування і срачі в коментарях.
Fuente

Задуха | Презентуємо публікацію про автоматичний переклад бенчмарок та датасеті...

Logotipo de la comunidad de telegram - Задуха Задуха @zaduha
286 Vistas/Alcance 2026-02-26 15:23 Mensaje №9873
🎉Презентуємо публікацію про автоматичний переклад бенчмарок та датасетів, яку я робила в рамках роботи над Мамаєм:ritranslation.insait.ai Буду дуже вдячна якщо ви зможете бустнути нас лайком на HuggingFace Papers, хотілося б потрапити в топ пейперів🥹https://huggingface.co/papers/2602.22207Ви могли бачити раніше частину наших досліджень з моїх презентацій, в тому числі для Львівської Політехніки 👀 Ми побачили проблеми малих та великих масштабів в різних багатомовних бенчмарках, наприклад, Global-MMLU, MuBench, Okapi - зараз вони широко використовуються для будь-яких мультилінгвальних релізів. Східноєвропейські мови показують ще більше багів, які іноді здаються ну дуже простими, але ллмки їх часто не бачать😳Ми випускаємо фреймворк, де ми розв'язуємо ці проблеми, також даємо повну автоматизацію перекладу з гнучким контролем грошових та часових витрат.Коли я працювала над мамаєм, нам потрібно було перекласти багато бенчмарок на українську та швидко. Наймати професійних перекладачів – завжди найкращий варіант, але в нас не було стільки часу. Перевіряти кожен рядок перекладених датасетів теж дуже довго та нудно. Я витратила певний час на пайплайн та тестування методів перекладу, але в результаті ми витратили всього лише 3(!) дні на переклад 10+ бенчмарок на українську і мені не довелось вручну перевіряти багато питань 👀 Також ми потім перекладали датасети для тренування самої моделі🚀Я сподіваюсь, що з цим релізом комусь стане легше працювати з цією купою ресурсів які треба перекладати, особисто нам це досі допомагає 🫡