Fuente
Продуктівіті 🇺🇦 АБО Самокат Продуктивності | Витягти таблиці зі сканованого PDF і не зійти з розуму? OpenDataLoader...
330 Vistas/Alcance
2026-03-22 12:00
Mensaje №2583
🔧 Витягти таблиці зі сканованого PDF і не зійти з розуму? OpenDataLoader PDF каже, що вмієOpen-source бібліотека (Apache 2.0, 7000+ зірок на GitHub) для витягування структурованих даних з PDF. Не черговий wrapper навколо GPT – тут детерміністичний Java-бекенд плюс опціональна AI-модель SmolVLM для опису графіків і зображень.Що вміє:→ Таблиці (включно з borderless), заголовки, списки, формули (LaTeX)→ OCR для сканів на 80+ мовах→ Виходить JSON з координатами, Markdown, HTML або анотований PDF→ 0.05 сек/сторінка в локальному режимі, 0.43 сек з AI→ Python, Node.js, Java. Інтеграція з LangChain для RAGНа бенчмарку з 200 реальних PDF (мульти-колонки, наукові статті) – перше місце з загальним скором 0.90. Точність reading order 0.94, таблиці 0.93.Окрема штука – фільтрація prompt injection з прихованого тексту в PDF. Для тих, хто будує RAG-пайплайни і не хоче сюрпризів.GPU не треба, працює на CPU. `pip install -U opendataloader-pdf` і поїхали.https://github.com/opendataloader-project/opendataloader-pdf📎 Читайте також:→ markdown.new — вебсторінки в AI-ready Markdown→ AutoGPT мутував у повноцінну AI-платформу→ Chartli — ASCII-графіки та SVG прямо в терміналі