Channel ( ಠ ʖ̯ ಠ)☞ Я тестую: SEO та ШІ 🇺🇦 - @itest_ua - №4853
Припиніть витрачати зайві токени: 5 способів зменшити витрати на LLMВеликі мовні моделі можуть бути ненажерливими. Я хочу поділитися кількома способами, як можна працювати з LLM більш економно, а часто — і більш ефективно.01. Управління контекстом. Найбільш очевидний, але часто ігнорований спосіб. Подивіться на свої промпти. Чи є там повторювана частина, яка не впливає на результат? Нерелевантні приклади? Просто зайве «повітря»? Все це можна і потрібно прибирати. Є навіть радикальна техніка «згортання слів»: прибирати з кожного слова всі голосні або просто другу половину. Контекст серйозно скорочується, а LLM все прекрасно розуміє. Всі, хто пробував писати в ChatGPT на кострубатій українській з помилками, знають — модель найчастіше справляється.02. Кешування. Майже всі провайдери API пропонують цю функцію. Суть проста: якщо ви відправляєте кілька запитів поспіль, у яких однаковий початок, ця загальна частина «кешується». Провайдер не обробляє її заново і, відповідно, не тарифікує. Розробники агента Manus назвали це одним з ключових принципів розробки подібних систем. Для агентів, які надсилають десятки запитів на хвилину, це головний спосіб і прискорити відповідь, і скоротити витрати.03. Chain of Drafts. Промпт-інжиніринг — це не тільки про якість, але і про вартість. Популярна техніка Chain of Thought змушує модель детально розписувати свої міркування. Це дає хороший результат, але витрачає багато токенів. Пізніше дослідники знайшли більш економічний прийом — Chain of Drafts. Модель ніби думає короткими «чернетками», а не повноцінними думками. Результат майже той самий, а токенів витрачається значно менше.04. Безкоштовні API. На ринку постійно з'являються безкоштовні можливості. На тому ж https://openrouter.ai завжди є кілька open-source моделей, які можна використовувати безкоштовно з певними лімітами. 05. Роутери. Це найцікавіша технологія. Роутер — це сервіс-посередник, який аналізує складність вашого запиту. Якщо завдання просте, він відправляє його на швидку і дешеву модель. Якщо ж потрібно «подумати», то підключає більш потужну і дорогу. Ви спілкуєтеся з однією «точкою входу», а система сама вирішує, який інструмент використовувати.Один з таких сервісів — https://www.switchpoint.dev/. За ціною він порівнянний з недорогими моделями, але дає продуктивність, близьку до топових. Наприклад, на завданнях кодування він показує поліпшення в 37% в порівнянні з моделями тієї ж цінової категорії.
492
25-12-29 09:06