Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - QDevU AI Вайбкодінг
Added 06 Dec 2025

QDevU AI Вайбкодінг

@uallm
Number of subscribers: 116
Photos: 274
Videos: 181
Links: 303
Description:
QDevU — Українська AI-спільнота 🤖💡 Тут ми ділимося свіжими новинами про штучний інтелект, обговорюємо технології, ділимося кодом та корисними інструментами. Вайб кодера, ком’юніті однодумців і все про AI — простою мовою та без зайвого шуму.
Source

QDevU AI Вайбкодінг | RAG, який не спалює бюджет: новий підхід від Meta Більшість RAG-систем...

Telegram community logo - QDevU QDevU AI Вайбкодінг @uallm
47 Views/Reach 2026-02-15 17:32 Message №248
RAG, який не спалює бюджет: новий підхід від Meta Більшість RAG-систем просто спалюють бюджет. Вони витягують 100 чанків, коли тобі реально потрібно 10. Вони змушують LLM перетравлювати тисячі нерелевантних токенів. У підсумку ти платиш за обчислення, які взагалі не потрібні.Meta AI це порішали.Вони зробили REFRAG, новий підхід до RAG, який стискає і фільтрує контекст ще до того, як він потрапить у LLM. Результати звучать вкрай інтригуюче:▪️у 30.85 раза швидший time-to-first-token▪️контекстні вікна в 16 разів більші▪️у 2-4 рази менше оброблюваних токенів▪️випереджає LLaMA на 16 RAG-бенчмаркахЧим REFRAG відрізняється: класичний RAG просто звалює все в LLM. Кожен чанк. Кожен токен. Навіть сміття, яке не до справи.А REFRAG працює на рівні ембеддингів:↳ стискає кожен чанк в один ембеддинг↳ RL-політика (навчена через reinforcement learning) скорить кожен чанк за релевантністю↳ тільки найкращі чанки розгортаються і відправляються в LLM↳ решта залишається стисненою або взагалі відфільтровуєтьсяТобто LLM обробляє тільки те, що важливо.Пайплайн простий:1. Закодуй документи і збережи їх у векторній базі2. Коли приходить запит, як зазвичай дістань релевантні чанки3. RL-політика оцінює стиснені ембеддинги і вибирає найкращі4. Вибрані чанки розгортаються в повні token-ембеддинги5. Відхилені чанки залишаються одиночними стисненими векторами6. Все разом йде в LLMПідсумок: можна проганяти в 16 разів більше контексту в 30 разів швидше без втрати точності.Посилання на доки 📝