Джерело

Devaka Talk | Автор провів експеримент: поставив чотирьом різним LLM запитання: "Авт...

1 990 Охват/переглядів 2026-06-04 06:16 Повідомлення №5958

Автор провів експеримент: поставив чотирьом різним LLM запитання: "Автомийка за 100 метрів від мого будинку. Мені йти пішки чи їхати?" (100 разів кожної).Пост на Реддіті набрав тисячі апвоутівhttps://www.reddit.com/r/dataisbeautiful/comments/1ttp22v/oc_i_asked_4_llms_the_car_wash_is_100m_away/Це питання стало віральним через логічну неоднозначність:* Якщо ви хочете помити машину — її потрібно доставити на мийку (треба їхати).* Якщо ви йдете туди з іншої причини (купити жетони, дізнатися графік) — 100 метрів легше пройти пішки.Більшість ШІ спочатку обирали варіант "йти пішки", ігноруючи приховану умову про те, що для миття авто машина має бути присутня фізично. Автор використав цей тест, щоб візуалізувати, як моделі справляються з амбівалентними (неоднозначними) запитами.Результати на скріншоті. ——Але у методології є й критика. Багато користувачів вказали, що автор спростив результати. Моделі (типу Claude) часто видають розгорнуту відповідь, де спочатку кажуть "йдіть пішки", а потім самі себе виправляють: "...але якщо мета — помити авто, то ви, звісно, маєте їхати". Автор маркував ці відповіді як "йти пішки", що учасники обговорення вважають некоректним — це, навпаки, приклад доброго "міркування" (reasoning) моделі.Реальна людина також не давала б чітку бінарну відповідь, а спочатку уточнила б мету візиту. Тому оцінювати ШІ за "бінарний вибір" у такому питанні — це підхід, приречений на викривлення результатів.Лунають припущення, що автор міг використовувати інший ШІ для того, щоб прочитати результати тестів, через що логічні пояснення моделей були неправильно класифіковані як помилкові.Але тест цікавий. Як вам?

Пряме посилання

Devaka Talk

Devaka Talk | Автор провів експеримент: поставив чотирьом різним LLM запитання: "Авт...

Популярні запити