Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - Devaka Talk
Added 14 Jul 2024

Devaka Talk

@devakatalk
Number of subscribers: 14 642
Photos: 1,640
Videos: 52
Links: 3,710
Description:
Канал по просуванню та оптимізації сайтів під Google. Hard SEO. Зв'язок зі мною: @devaka (Сергій Кокшаров) Реклама: @dv_adv Для донатів: @dv_donate Навчаю у групах. https://webpromoexperts.net/courses/seo-pro-online/
Source

Devaka Talk | Оптимізував кількість токенів, які йдуть до ChatGPT при використанні A...

Telegram community logo - Devaka Talk Devaka Talk @devakatalk
2 760 Views/Reach 2025-07-19 20:57 Message №5275
Оптимізував кількість токенів, які йдуть до ChatGPT при використанні AI Helper в Devaka Tools. Заодно дізнався багато нового про препроцессінг текстів LLM-системами )) По оптимізації токенів. Деякі сайти мають багато "мусорного" контенту в коді. Який впливає тільки на функціонал сторінки, але не впливає на основний контент (який дає інформацію користувачам, або пошуковикам). Різні скрипти (у SPA сайтів особливо), стилі, коментарі, купа атрибутів для тегів тощо. Для прикладу, головна відомого сайту eva.ua. — HTML код: 353,590 токенів. Токенайзер OpenAI навіть підвис, розбиваючи дані на частини.— Максимально очищений код: 10,344 токенів. Вже краще, заощадження майже в 30 разів. — Відрендерений текст (як у текстових браузерів): 4,600 токенів. Ще в 2 рази краще. На моделі GPT-4.1 обробка HTML кода по API буде коштувати $0.7. Що занадто дорого для аналізу однієї сторінки. 4600 токенів всього $0.01 (в 70 разів дешевше). А на моделі GPT-4.1-nano це взагалі 20 частина центу. AI Helper наразі надсилає в GPT відрендерений текст з важливими мета-даними. То ж, можна сміло аналізувати велику кількість контенту!Про препроцессінг текстів. Перед тренуванням своїх моделей LLM системи роблять препроцессінг даних, тому що на вході багато шуму. Після цього етапу залишається лише чистий текст, який бачить користувач (на сайтах чи в документах). Цей очищений текст і йде в LLM для токенізації та навчання. Якщо є бажання потрапляти до датасетів, потрібно мати легкий для парсінгу код. Просту, читабельну, структуровану HTML-розмітку. І ще, Common Crawl (який є базою данних для багатьох LLM) не рендерить сторінки.Можливо, інфа знадобиться.