Iniciar sesión Registro
Anuncios
Tu espacio publicitario
Reserva este slot exclusivo para el periodo elegido.
Comprar publicidad →
Logotipo de la comunidad de telegram - Devaka Talk
Añadido 14 jul. 2024

Devaka Talk

@devakatalk
Número de suscriptores: 14 370
Fotos: 1,620
Videos: 51
Enlaces: 3,700
Descripción:
Канал по просуванню та оптимізації сайтів під Google. Hard SEO. Зв'язок зі мною: @devaka (Сергій Кокшаров) Реклама: @dv_adv Для донатів: @dv_donate Навчаю у групах. https://webpromoexperts.net/courses/seo-pro-online/
Fuente

Devaka Talk | Автор провів експеримент: поставив чотирьом різним LLM запитання: "Авт...

Logotipo de la comunidad de telegram - Devaka Talk Devaka Talk @devakatalk
1 990 Vistas/Alcance 2026-06-04 06:16 Mensaje №5958
Автор провів експеримент: поставив чотирьом різним LLM запитання: "Автомийка за 100 метрів від мого будинку. Мені йти пішки чи їхати?" (100 разів кожної).Пост на Реддіті набрав тисячі апвоутівhttps://www.reddit.com/r/dataisbeautiful/comments/1ttp22v/oc_i_asked_4_llms_the_car_wash_is_100m_away/Це питання стало віральним через логічну неоднозначність:* Якщо ви хочете помити машину — її потрібно доставити на мийку (треба їхати).* Якщо ви йдете туди з іншої причини (купити жетони, дізнатися графік) — 100 метрів легше пройти пішки.Більшість ШІ спочатку обирали варіант "йти пішки", ігноруючи приховану умову про те, що для миття авто машина має бути присутня фізично. Автор використав цей тест, щоб візуалізувати, як моделі справляються з амбівалентними (неоднозначними) запитами.Результати на скріншоті. ——Але у методології є й критика. Багато користувачів вказали, що автор спростив результати. Моделі (типу Claude) часто видають розгорнуту відповідь, де спочатку кажуть "йдіть пішки", а потім самі себе виправляють: "...але якщо мета — помити авто, то ви, звісно, маєте їхати". Автор маркував ці відповіді як "йти пішки", що учасники обговорення вважають некоректним — це, навпаки, приклад доброго "міркування" (reasoning) моделі.Реальна людина також не давала б чітку бінарну відповідь, а спочатку уточнила б мету візиту. Тому оцінювати ШІ за "бінарний вибір" у такому питанні — це підхід, приречений на викривлення результатів.Лунають припущення, що автор міг використовувати інший ШІ для того, щоб прочитати результати тестів, через що логічні пояснення моделей були неправильно класифіковані як помилкові.Але тест цікавий. Як вам?