Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - Вікімедіа Україна
Added 14 Jul 2024

Вікімедіа Україна

@wikimedia_ua
Number of subscribers: 447
Photos: 1,200
Videos: 12
Links: 1,520
Description:
Підтримуємо і розвиваємо Вікіпедію в Україні, займаємося розвитком інших вікіпроєктів, популяризуємо вільні знання. ▪️Про нас — http://ua.wikimedia.org/ ▪️Новини — https://blog.wikimedia.org.ua/ ▪️Написати нам — [email protected]
Source

Вікімедіа Україна | Від Tesseract до Чугайстра — як спільнота Вікіджерел поліпшує розпізна...

Telegram community logo - Вікімедіа Україна Вікімедіа Україна @wikimedia_ua
248 Views/Reach 2025-11-06 10:02 Message №2140
📜Від Tesseract до Чугайстра — як спільнота Вікіджерел поліпшує розпізнавання української спадщиниДля пришвидшення транскрибування видань на Вікіджерелах уже багато років використовуються моделі автоматичного розпізнавання тексту на зображеннях. Це дозволяє користувачам виправляти лише символи, які програма розпізнала неправильно, замість ручного переписування тексту зі сторінки.Довгий час у Вікіджерелах були доступні лише два рушії для розпізнавання: Tesseract та Google OCR. Обидва мають відносно непогану якість, проте з двома значними недоліками: по-перше, вони не підтримують розпізнавання рукописного тексту, який становить важливу частину культурної спадщини, по-друге, дотренування моделей для покращення якості чи додавання підтримки нової мови є технічно складним завданням, недоступним для простих користувачів.Вирішити ці проблеми і допомагає Transkribus.Усе почалося із проєкту “Wiki Loves Manuscripts” («Вікі любить манускрипти»), який проспонсорував Фонд Вікімедіа у 2020—2021 роках після відкриття балійських Вікіджерел. У його межах було оцифровано багато рукописних текстів Індонезії, написаних на пальмових листках. Окремо було надано кошти на тренування моделі розпізнавання рукописного тексту для балійської мови.У 2023 році Pusat Pengkajian Islam dan Masyarakat, дослідницький інститут з Джакарти, очолив запуск проєкту разом з «Вікімедіа Індонезія» та проєктом спільноти WikiLontar. Також було укладено партнерства з Transkribus, Британською бібліотекою, офісом UNESCO в Джакарті та Tempo Media. Завдяки зусиллям цих організацій, для 22 учасників провели тренування із роботи з рукописним текстом, 12 із них успішно завершили навчання.Натренувати модель Transkribus для української мови вирішив і один із користувачів українських Вікіджерел — Bicolino34, який і розповість детальніше про цю непросту, але важливу для Вікіджерел справу.🔗 Читайте допис за посиланням