Channel Devaka Talk - @devakatalk - №5599
Microsoft розробив легку утіліту на Python, яка перетворює будь який документ на markdown. Дуже крутий тул! https://github.com/microsoft/markitdownMarkdown це оптимальний формат для текстів, який подалі використовується в LLM і пов'язаних аналізаторах текстівої інформації. Всі, хто колись будував власні аналізатори текстів гарно розуміє, що перед аналізом потрібно текст якось витягнути з сайтів і підготувати. Це не так просто, бо HTML містить багато шуму. Markitdown вирішує проблему за вас.Наразі підтримується конвертація з наступних форматів:- HTML- Text, CSV, JSON, XML- PowerPoint, Word, Excel- PDF, ZIP- Images, Videos (EXIF, OCR Data, Speech Transcription)- YouTube URLS- EPubs і навіть більшеДо речі, в DevakaTools коли ви використовуєте AI Helper, там текст сторінки також перетворюється на Markdown, тому що це дуже зручно і оптимально (меньше шуму, більше швидкість, економія токенів). Використання майкрософтовского інструменту дуже просте, після вставновки в консолі викликаються команди:markitdown path-to-file.html > document.mdcat path-to-file.pdf | markitdown
Є також Python API до Markitdown, і MCP сервер для використання інструменту через LLM або AI агентів. https://github.com/microsoft/markitdown/tree/main/packages/markitdown-mcpСкрипт року, я вважаю!
3910
25-12-30 10:48