Джерело
Devaka Talk | Як Google AI Mode і Gemini обирають конкретні речення для цитуванняhtt...
2 320 Охват/переглядів
2026-03-06 11:37
Повідомлення №5732
Як Google AI Mode і Gemini обирають конкретні речення для цитуванняhttps://hackmd.io/@A09fyOMpSD2VYIJodmXHqQ/r1eJyqthdbeАвтор виявив, що значна частка citation-URL у Google AI Mode та Gemini містить прихований фрагмент Web Text Fragments виду #:~:text=, який кодує точний уривок, взятий зі сторінки для grounding. Розкодувавши ці фрагменти масово, можна аналізувати цитування на рівні речень: довжина, позиція на сторінці, читабельність, вплив структуриВисновки з дослідження на 42к+ цитувань з 520 запитів:— AI Mode: 70,9% citation-URL містять text fragment.— Gemini: 51,8%.— Середня позиція процитованих речень: 34,9% глибини сторінки.— 75% цитат трапляються в першій половині сторінки.— Медіанна довжина процитованого речення: 10 слів.— Максимум у датасеті: 17 слів; довших речень не цитували.— Сторінки зі структурними елементами (списки/таблиці/заголовки) мали 91,3% успішного зіставлення речення з джерелом.— Неструктуровані сторінки: 39,3%.Також серед процитованих сторінок:- 98,1% мали списки- 2,2% мали таблиці- середня кількість заголовків: 24- середня кількість абзаців: 133AI Mode і Gemini майже не перетинаються за доменами. Цитування далеко виходить за межі органічного топ-10. — Медіанний вік процитованої сторінки: 819 днів (2,2 роки).— 52,7% сторінок старші за 2 роки (26,5% 2–5 років і 26,3% 5+ років).В статті ще багато цікавого.