Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - Devaka Talk
Додано 14 лип 2024

Devaka Talk

@devakatalk
Кількість підписників: 14 642
Фото: 1,640
Відео: 52
Посилання: 3,710
Опис:
Канал по просуванню та оптимізації сайтів під Google. Hard SEO. Зв'язок зі мною: @devaka (Сергій Кокшаров) Реклама: @dv_adv Для донатів: @dv_donate Навчаю у групах. https://webpromoexperts.net/courses/seo-pro-online/
Джерело

Devaka Talk | Зараз працюю з ембеддінгами, використовуючі API OpenAI та Gemini. Розк...

Логотип телеграм спільноти - Devaka Talk Devaka Talk @devakatalk
2 220 Охват/переглядів 2025-12-25 18:24 Повідомлення №5584
Зараз працюю з ембеддінгами, використовуючі API OpenAI та Gemini. Розкажу про деякі нюанси, про які вам варто знати. У Gemini класний API, але судячи по вихідному коду, це обкладенка для їх Vertext AI, а не окремий API. Плюси в тому, що можна задати тип задачі для ембеддінгу, під яку він буде оптимізований (класифікація, пошук, семантична близькість, факт-чекінг тощо). Текст можна розбивати на чанки та надсилати одразу чанками. Все обробляється доволі швидко. Google мені всім подобається, але є нюанс по цінам та токенам.Gemini Embeddings — 15 центів за 1 млн. токенівЛіміт документу — 2048 токенівПри batch запитах не більше 100 одночаснихOpenAI Embeddings — 13 центів за 1млн. токенівЛіміт документу — 8192 токенівМоже містити 50 000 реквестів при батч запитахТобто, у ChatGPT робота з ембеддінгами виходе дешевше, плюс кращі ліміти. Єдине що підкупає в Gemini, то що ми оптимізуємо тексти під Google, а не під ChatGPT )) все таки в них різні вектори на виході. Моделі по-різному сприймають синоніми, довгі фрази, контекстуальні залежності. Можуть відкидати стоп-слова по-різному. Все це буде впливати на косинусну близькість. "SEO optimization" та "search engine ranking" будуть мати різні відстані в embedding space у GPT та Gemini. Чисто під SEO задачи обирав би гугл. Плюс гугл розуміє/обробляє набагато більше мов ніж ChatGPT. Ще одна думка. Так як у Google меньше ліміти на вході (в 4 рази), можливо він (коли працює сам з векторами) при аналізі сторінок разбиває їх на невелику кількість чанків. Сторінка може містити 10-15 тис. токенів (без HTML коду), буває і більше. А на вхід оцінки (створення вектору) йде тільки 2000. То ж, робити велику кількість контенту для SEO немає сенсу. Треба знайти якийсь патент, як саме гугл розбиває контент на чанки, думаю це буде корисно. Ось такі думки. Хто працює з ембеддінгами, розкажіть, який API використовуєте?