Джерело

Devaka Talk | Оптимізував кількість токенів, які йдуть до ChatGPT при використанні A...

2 760 Охват/переглядів 2025-07-19 20:57 Повідомлення №5275

Оптимізував кількість токенів, які йдуть до ChatGPT при використанні AI Helper в Devaka Tools. Заодно дізнався багато нового про препроцессінг текстів LLM-системами )) По оптимізації токенів. Деякі сайти мають багато "мусорного" контенту в коді. Який впливає тільки на функціонал сторінки, але не впливає на основний контент (який дає інформацію користувачам, або пошуковикам). Різні скрипти (у SPA сайтів особливо), стилі, коментарі, купа атрибутів для тегів тощо. Для прикладу, головна відомого сайту eva.ua. — HTML код: 353,590 токенів. Токенайзер OpenAI навіть підвис, розбиваючи дані на частини.— Максимально очищений код: 10,344 токенів. Вже краще, заощадження майже в 30 разів. — Відрендерений текст (як у текстових браузерів): 4,600 токенів. Ще в 2 рази краще. На моделі GPT-4.1 обробка HTML кода по API буде коштувати $0.7. Що занадто дорого для аналізу однієї сторінки. 4600 токенів всього $0.01 (в 70 разів дешевше). А на моделі GPT-4.1-nano це взагалі 20 частина центу. AI Helper наразі надсилає в GPT відрендерений текст з важливими мета-даними. То ж, можна сміло аналізувати велику кількість контенту!Про препроцессінг текстів. Перед тренуванням своїх моделей LLM системи роблять препроцессінг даних, тому що на вході багато шуму. Після цього етапу залишається лише чистий текст, який бачить користувач (на сайтах чи в документах). Цей очищений текст і йде в LLM для токенізації та навчання. Якщо є бажання потрапляти до датасетів, потрібно мати легкий для парсінгу код. Просту, читабельну, структуровану HTML-розмітку. І ще, Common Crawl (який є базою данних для багатьох LLM) не рендерить сторінки.Можливо, інфа знадобиться.

Пряме посилання

Devaka Talk

Devaka Talk | Оптимізував кількість токенів, які йдуть до ChatGPT при використанні A...

Популярні запити