Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - Вікімедіа Україна
Додано 14 лип 2024

Вікімедіа Україна

@wikimedia_ua
Кількість підписників: 447
Фото: 1,200
Відео: 12
Посилання: 1,520
Опис:
Підтримуємо і розвиваємо Вікіпедію в Україні, займаємося розвитком інших вікіпроєктів, популяризуємо вільні знання. ▪️Про нас — http://ua.wikimedia.org/ ▪️Новини — https://blog.wikimedia.org.ua/ ▪️Написати нам — [email protected]
Джерело

Вікімедіа Україна | Від Tesseract до Чугайстра — як спільнота Вікіджерел поліпшує розпізна...

Логотип телеграм спільноти - Вікімедіа Україна Вікімедіа Україна @wikimedia_ua
248 Охват/переглядів 2025-11-06 10:02 Повідомлення №2140
📜Від Tesseract до Чугайстра — як спільнота Вікіджерел поліпшує розпізнавання української спадщиниДля пришвидшення транскрибування видань на Вікіджерелах уже багато років використовуються моделі автоматичного розпізнавання тексту на зображеннях. Це дозволяє користувачам виправляти лише символи, які програма розпізнала неправильно, замість ручного переписування тексту зі сторінки.Довгий час у Вікіджерелах були доступні лише два рушії для розпізнавання: Tesseract та Google OCR. Обидва мають відносно непогану якість, проте з двома значними недоліками: по-перше, вони не підтримують розпізнавання рукописного тексту, який становить важливу частину культурної спадщини, по-друге, дотренування моделей для покращення якості чи додавання підтримки нової мови є технічно складним завданням, недоступним для простих користувачів.Вирішити ці проблеми і допомагає Transkribus.Усе почалося із проєкту “Wiki Loves Manuscripts” («Вікі любить манускрипти»), який проспонсорував Фонд Вікімедіа у 2020—2021 роках після відкриття балійських Вікіджерел. У його межах було оцифровано багато рукописних текстів Індонезії, написаних на пальмових листках. Окремо було надано кошти на тренування моделі розпізнавання рукописного тексту для балійської мови.У 2023 році Pusat Pengkajian Islam dan Masyarakat, дослідницький інститут з Джакарти, очолив запуск проєкту разом з «Вікімедіа Індонезія» та проєктом спільноти WikiLontar. Також було укладено партнерства з Transkribus, Британською бібліотекою, офісом UNESCO в Джакарті та Tempo Media. Завдяки зусиллям цих організацій, для 22 учасників провели тренування із роботи з рукописним текстом, 12 із них успішно завершили навчання.Натренувати модель Transkribus для української мови вирішив і один із користувачів українських Вікіджерел — Bicolino34, який і розповість детальніше про цю непросту, але важливу для Вікіджерел справу.🔗 Читайте допис за посиланням