Вікімедіа Україна | Від Tesseract до Чугайстра — як спільнота Вікіджерел поліпшує розпізна...

Telegram community logo - Вікімедіа Україна
2024-07-14

Вікімедіа Україна

Number of subscribers:
430
Photos:
1190 
Videos:
12 
Links:
1490 
Category:
Books
Description:
Підтримуємо і розвиваємо Вікіпедію в Україні, займаємося розвитком інших вікіпроєктів, популяризуємо вільні знання. ▪️Про нас — http://ua.wikimedia.org/ ▪️Новини — https://blog.wikimedia.org.ua/ ▪️Написати нам — [email protected]

Channel Вікімедіа Україна - @wikimedia_ua - №2140

📜Від Tesseract до Чугайстра — як спільнота Вікіджерел поліпшує розпізнавання української спадщиниДля пришвидшення транскрибування видань на Вікіджерелах уже багато років використовуються моделі автоматичного розпізнавання тексту на зображеннях. Це дозволяє користувачам виправляти лише символи, які програма розпізнала неправильно, замість ручного переписування тексту зі сторінки.Довгий час у Вікіджерелах були доступні лише два рушії для розпізнавання: Tesseract та Google OCR. Обидва мають відносно непогану якість, проте з двома значними недоліками: по-перше, вони не підтримують розпізнавання рукописного тексту, який становить важливу частину культурної спадщини, по-друге, дотренування моделей для покращення якості чи додавання підтримки нової мови є технічно складним завданням, недоступним для простих користувачів.Вирішити ці проблеми і допомагає Transkribus.Усе почалося із проєкту “Wiki Loves Manuscripts” («Вікі любить манускрипти»), який проспонсорував Фонд Вікімедіа у 2020—2021 роках після відкриття балійських Вікіджерел. У його межах було оцифровано багато рукописних текстів Індонезії, написаних на пальмових листках. Окремо було надано кошти на тренування моделі розпізнавання рукописного тексту для балійської мови.У 2023 році Pusat Pengkajian Islam dan Masyarakat, дослідницький інститут з Джакарти, очолив запуск проєкту разом з «Вікімедіа Індонезія» та проєктом спільноти WikiLontar. Також було укладено партнерства з Transkribus, Британською бібліотекою, офісом UNESCO в Джакарті та Tempo Media. Завдяки зусиллям цих організацій, для 22 учасників провели тренування із роботи з рукописним текстом, 12 із них успішно завершили навчання.Натренувати модель Transkribus для української мови вирішив і один із користувачів українських Вікіджерел — Bicolino34, який і розповість детальніше про цю непросту, але важливу для Вікіджерел справу.🔗 Читайте допис за посиланням
248
25-11-06 10:02