Devaka Talk | Microsoft розробив легку утіліту на Python, яка перетворює будь який д...

Telegram community logo - Devaka Talk
2024-07-14

Devaka Talk

Number of subscribers:
14091
Photos:
1610 
Videos:
51 
Links:
3680 
Description:
Канал по просуванню та оптимізації сайтів під Google. Hard SEO. Зв'язок зі мною: @devaka (Сергій Кокшаров) Реклама: @dv_adv Для донатів: @dv_donate Навчаю у групах. https://webpromoexperts.net/courses/seo-pro-online/

Channel Devaka Talk - @devakatalk - №5599

Microsoft розробив легку утіліту на Python, яка перетворює будь який документ на markdown. Дуже крутий тул! https://github.com/microsoft/markitdownMarkdown це оптимальний формат для текстів, який подалі використовується в LLM і пов'язаних аналізаторах текстівої інформації. Всі, хто колись будував власні аналізатори текстів гарно розуміє, що перед аналізом потрібно текст якось витягнути з сайтів і підготувати. Це не так просто, бо HTML містить багато шуму. Markitdown вирішує проблему за вас.Наразі підтримується конвертація з наступних форматів:- HTML- Text, CSV, JSON, XML- PowerPoint, Word, Excel- PDF, ZIP- Images, Videos (EXIF, OCR Data, Speech Transcription)- YouTube URLS- EPubs і навіть більшеДо речі, в DevakaTools коли ви використовуєте AI Helper, там текст сторінки також перетворюється на Markdown, тому що це дуже зручно і оптимально (меньше шуму, більше швидкість, економія токенів). Використання майкрософтовского інструменту дуже просте, після вставновки в консолі викликаються команди:markitdown path-to-file.html > document.mdcat path-to-file.pdf | markitdown Є також Python API до Markitdown, і MCP сервер для використання інструменту через LLM або AI агентів. https://github.com/microsoft/markitdown/tree/main/packages/markitdown-mcpСкрипт року, я вважаю!
3910
25-12-30 10:48