Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - QDevU AI Вайбкодінг
Додано 06 гру 2025

QDevU AI Вайбкодінг

@uallm
Кількість підписників: 118
Фото: 276
Відео: 183
Посилання: 305
Опис:
QDevU — Українська AI-спільнота 🤖💡 Тут ми ділимося свіжими новинами про штучний інтелект, обговорюємо технології, ділимося кодом та корисними інструментами. Вайб кодера, ком’юніті однодумців і все про AI — простою мовою та без зайвого шуму.
Джерело

QDevU AI Вайбкодінг | RAG, який не спалює бюджет: новий підхід від Meta Більшість RAG-систем...

Логотип телеграм спільноти - QDevU QDevU AI Вайбкодінг @uallm
47 Охват/переглядів 2026-02-15 17:32 Повідомлення №248
RAG, який не спалює бюджет: новий підхід від Meta Більшість RAG-систем просто спалюють бюджет. Вони витягують 100 чанків, коли тобі реально потрібно 10. Вони змушують LLM перетравлювати тисячі нерелевантних токенів. У підсумку ти платиш за обчислення, які взагалі не потрібні.Meta AI це порішали.Вони зробили REFRAG, новий підхід до RAG, який стискає і фільтрує контекст ще до того, як він потрапить у LLM. Результати звучать вкрай інтригуюче:▪️у 30.85 раза швидший time-to-first-token▪️контекстні вікна в 16 разів більші▪️у 2-4 рази менше оброблюваних токенів▪️випереджає LLaMA на 16 RAG-бенчмаркахЧим REFRAG відрізняється: класичний RAG просто звалює все в LLM. Кожен чанк. Кожен токен. Навіть сміття, яке не до справи.А REFRAG працює на рівні ембеддингів:↳ стискає кожен чанк в один ембеддинг↳ RL-політика (навчена через reinforcement learning) скорить кожен чанк за релевантністю↳ тільки найкращі чанки розгортаються і відправляються в LLM↳ решта залишається стисненою або взагалі відфільтровуєтьсяТобто LLM обробляє тільки те, що важливо.Пайплайн простий:1. Закодуй документи і збережи їх у векторній базі2. Коли приходить запит, як зазвичай дістань релевантні чанки3. RL-політика оцінює стиснені ембеддинги і вибирає найкращі4. Вибрані чанки розгортаються в повні token-ембеддинги5. Відхилені чанки залишаються одиночними стисненими векторами6. Все разом йде в LLMПідсумок: можна проганяти в 16 разів більше контексту в 30 разів швидше без втрати точності.Посилання на доки 📝