Fuente
Devaka Talk | Якось мені потрібно було зібрати дані по івентам, та периодично оновлю...
1 800 Vistas/Alcance
2026-06-10 06:28
Mensaje №5975
Якось мені потрібно було зібрати дані по івентам, та периодично оновлювати їх. Вирішив написати агента, який робить це за мене. - Збирає афіши та парсить контент- Відправляє агрегований контент до LLM на дедуплікацію- Шукає офіційні сайти подій в інтернеті- Заходе на кожен сайт для отримання деталей- Окремо збираються логотипчики- Потім все це структурується та зберігаєтьсяВиглядає круто, але є багато нюансів. Тут я зрозумів, навіщо пошуковикам розмітка та чому алгоритми пошуку не ідеальні. Основні проблеми:1. Сайти блокують доступи або віддають контент через JSПотрібні дуже просунуті краулери, щоб мати доступ до всього контенту різних сайтів. Це трохи задорого по ресурсам.2. Назви подій іноді співпадають з назвами якихось інших сутностейЧерез що LLM обирає не ті сайти, як офіційні. Для коректної роботи потрібно шукати подію по 2-3 ключам, заходити на різні сайти та оцінювати по крітеріям, чи є це тим, що ми шукали.3. У подій може взагалі не бути сайту, а квитки продаватись через агрегатори/афіши.4. Організатори рідко структурують інформацію на сайті. Людям важко розібратись, які точні дати події, чи є це просто зустріч чи ціла конференція, хто є організатором тощо. LLM також плутаються та часто галюцінують через відсутність чіткої інформації.5. Відсутність ціни розцінюється як безкоштовний івентАле організатори просто тільки анонсували подію, але не виставили прайс. Через що платні івенти класифікуються як безкоштовні.6. Логотипів у багатьох немає. Є тільки обкладинка/банерLLM йде шукати в og:image як надійне джерело візуального представлення події. Але там часто лежить не те, що очікується, або взагалі тегів OG не існує. Тут ще потрібно розпізнавати зображення, та перебирати декілька, щоб знайти щось релевантне до події. Людина впорається швидче.Та ще купа нюансів, з якими пошукові алгоритми самі стикаються давно. А достатньо було б:- Мати доступний контент- Структурувати текстову інформацію та запобігати неоднозначністі- Використовувати розмітку даних, Schema та OpenGraph- Робити нормальну та унікальну назву бренду а не загальну- Слідкувати, що все це працюєСподіваюсь, пост буде корисним не тільки власникам івентів.