Source
QDevU AI Вайбкодінг | RAG, який не спалює бюджет: новий підхід від Meta Більшість RAG-систем...
47 Views/Reach
2026-02-15 17:32
Message №248
RAG, який не спалює бюджет: новий підхід від Meta Більшість RAG-систем просто спалюють бюджет. Вони витягують 100 чанків, коли тобі реально потрібно 10. Вони змушують LLM перетравлювати тисячі нерелевантних токенів. У підсумку ти платиш за обчислення, які взагалі не потрібні.Meta AI це порішали.Вони зробили REFRAG, новий підхід до RAG, який стискає і фільтрує контекст ще до того, як він потрапить у LLM. Результати звучать вкрай інтригуюче:▪️у 30.85 раза швидший time-to-first-token▪️контекстні вікна в 16 разів більші▪️у 2-4 рази менше оброблюваних токенів▪️випереджає LLaMA на 16 RAG-бенчмаркахЧим REFRAG відрізняється: класичний RAG просто звалює все в LLM. Кожен чанк. Кожен токен. Навіть сміття, яке не до справи.А REFRAG працює на рівні ембеддингів:↳ стискає кожен чанк в один ембеддинг↳ RL-політика (навчена через reinforcement learning) скорить кожен чанк за релевантністю↳ тільки найкращі чанки розгортаються і відправляються в LLM↳ решта залишається стисненою або взагалі відфільтровуєтьсяТобто LLM обробляє тільки те, що важливо.Пайплайн простий:1. Закодуй документи і збережи їх у векторній базі2. Коли приходить запит, як зазвичай дістань релевантні чанки3. RL-політика оцінює стиснені ембеддинги і вибирає найкращі4. Вибрані чанки розгортаються в повні token-ембеддинги5. Відхилені чанки залишаються одиночними стисненими векторами6. Все разом йде в LLMПідсумок: можна проганяти в 16 разів більше контексту в 30 разів швидше без втрати точності.Посилання на доки 📝