Devaka Talk | Оптимізував кількість токенів, які йдуть до ChatGPT при використанні A...

Telegram community logo - Devaka Talk
2024-07-14

Devaka Talk

Number of subscribers:
14091
Photos:
1610 
Videos:
51 
Links:
3680 
Description:
Канал по просуванню та оптимізації сайтів під Google. Hard SEO. Зв'язок зі мною: @devaka (Сергій Кокшаров) Реклама: @dv_adv Для донатів: @dv_donate Навчаю у групах. https://webpromoexperts.net/courses/seo-pro-online/

Channel Devaka Talk - @devakatalk - №5275

Оптимізував кількість токенів, які йдуть до ChatGPT при використанні AI Helper в Devaka Tools. Заодно дізнався багато нового про препроцессінг текстів LLM-системами )) По оптимізації токенів. Деякі сайти мають багато "мусорного" контенту в коді. Який впливає тільки на функціонал сторінки, але не впливає на основний контент (який дає інформацію користувачам, або пошуковикам). Різні скрипти (у SPA сайтів особливо), стилі, коментарі, купа атрибутів для тегів тощо. Для прикладу, головна відомого сайту eva.ua. — HTML код: 353,590 токенів. Токенайзер OpenAI навіть підвис, розбиваючи дані на частини.— Максимально очищений код: 10,344 токенів. Вже краще, заощадження майже в 30 разів. — Відрендерений текст (як у текстових браузерів): 4,600 токенів. Ще в 2 рази краще. На моделі GPT-4.1 обробка HTML кода по API буде коштувати $0.7. Що занадто дорого для аналізу однієї сторінки. 4600 токенів всього $0.01 (в 70 разів дешевше). А на моделі GPT-4.1-nano це взагалі 20 частина центу. AI Helper наразі надсилає в GPT відрендерений текст з важливими мета-даними. То ж, можна сміло аналізувати велику кількість контенту!Про препроцессінг текстів. Перед тренуванням своїх моделей LLM системи роблять препроцессінг даних, тому що на вході багато шуму. Після цього етапу залишається лише чистий текст, який бачить користувач (на сайтах чи в документах). Цей очищений текст і йде в LLM для токенізації та навчання. Якщо є бажання потрапляти до датасетів, потрібно мати легкий для парсінгу код. Просту, читабельну, структуровану HTML-розмітку. І ще, Common Crawl (який є базою данних для багатьох LLM) не рендерить сторінки.Можливо, інфа знадобиться.
2760
25-07-19 20:57