Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - Продуктівіті 🇺🇦 АБО Самокат Продуктивності
Додано 14 лип 2024

Продуктівіті 🇺🇦 АБО Самокат Продуктивності

@trkvmd
Кількість підписників: 1 636
Фото: 77
Відео: 58
Посилання: 2,800
Опис:
🚀 Від чувака з todoist-carma 84,885. Все, що знайдено цікавого та корисного. Все, чим користуюся. Ще є твіттер https://twitter.com/zahareus і Сабстек https://migratorg.substack.com/ - але там більше про стартапи.
Джерело

Продуктівіті 🇺🇦 АБО Самокат Продуктивності | Витягти таблиці зі сканованого PDF і не зійти з розуму? OpenDataLoader...

Логотип телеграм спільноти - Продуктівіті 🇺🇦 АБО Самокат Продуктивності Продуктівіті 🇺🇦 АБО Самокат Продуктивності @trkvmd
330 Охват/переглядів 2026-03-22 12:00 Повідомлення №2583
🔧 Витягти таблиці зі сканованого PDF і не зійти з розуму? OpenDataLoader PDF каже, що вмієOpen-source бібліотека (Apache 2.0, 7000+ зірок на GitHub) для витягування структурованих даних з PDF. Не черговий wrapper навколо GPT – тут детерміністичний Java-бекенд плюс опціональна AI-модель SmolVLM для опису графіків і зображень.Що вміє:→ Таблиці (включно з borderless), заголовки, списки, формули (LaTeX)→ OCR для сканів на 80+ мовах→ Виходить JSON з координатами, Markdown, HTML або анотований PDF→ 0.05 сек/сторінка в локальному режимі, 0.43 сек з AI→ Python, Node.js, Java. Інтеграція з LangChain для RAGНа бенчмарку з 200 реальних PDF (мульти-колонки, наукові статті) – перше місце з загальним скором 0.90. Точність reading order 0.94, таблиці 0.93.Окрема штука – фільтрація prompt injection з прихованого тексту в PDF. Для тих, хто будує RAG-пайплайни і не хоче сюрпризів.GPU не треба, працює на CPU. `pip install -U opendataloader-pdf` і поїхали.https://github.com/opendataloader-project/opendataloader-pdf📎 Читайте також:→ markdown.new — вебсторінки в AI-ready Markdown→ AutoGPT мутував у повноцінну AI-платформу→ Chartli — ASCII-графіки та SVG прямо в терміналі