Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - Devaka Talk
Додано 14 лип 2024

Devaka Talk

@devakatalk
Кількість підписників: 14 642
Фото: 1,640
Відео: 52
Посилання: 3,710
Опис:
Канал по просуванню та оптимізації сайтів під Google. Hard SEO. Зв'язок зі мною: @devaka (Сергій Кокшаров) Реклама: @dv_adv Для донатів: @dv_donate Навчаю у групах. https://webpromoexperts.net/courses/seo-pro-online/
Джерело

Devaka Talk | Оптимізував кількість токенів, які йдуть до ChatGPT при використанні A...

Логотип телеграм спільноти - Devaka Talk Devaka Talk @devakatalk
2 760 Охват/переглядів 2025-07-19 20:57 Повідомлення №5275
Оптимізував кількість токенів, які йдуть до ChatGPT при використанні AI Helper в Devaka Tools. Заодно дізнався багато нового про препроцессінг текстів LLM-системами )) По оптимізації токенів. Деякі сайти мають багато "мусорного" контенту в коді. Який впливає тільки на функціонал сторінки, але не впливає на основний контент (який дає інформацію користувачам, або пошуковикам). Різні скрипти (у SPA сайтів особливо), стилі, коментарі, купа атрибутів для тегів тощо. Для прикладу, головна відомого сайту eva.ua. — HTML код: 353,590 токенів. Токенайзер OpenAI навіть підвис, розбиваючи дані на частини.— Максимально очищений код: 10,344 токенів. Вже краще, заощадження майже в 30 разів. — Відрендерений текст (як у текстових браузерів): 4,600 токенів. Ще в 2 рази краще. На моделі GPT-4.1 обробка HTML кода по API буде коштувати $0.7. Що занадто дорого для аналізу однієї сторінки. 4600 токенів всього $0.01 (в 70 разів дешевше). А на моделі GPT-4.1-nano це взагалі 20 частина центу. AI Helper наразі надсилає в GPT відрендерений текст з важливими мета-даними. То ж, можна сміло аналізувати велику кількість контенту!Про препроцессінг текстів. Перед тренуванням своїх моделей LLM системи роблять препроцессінг даних, тому що на вході багато шуму. Після цього етапу залишається лише чистий текст, який бачить користувач (на сайтах чи в документах). Цей очищений текст і йде в LLM для токенізації та навчання. Якщо є бажання потрапляти до датасетів, потрібно мати легкий для парсінгу код. Просту, читабельну, структуровану HTML-розмітку. І ще, Common Crawl (який є базою данних для багатьох LLM) не рендерить сторінки.Можливо, інфа знадобиться.