Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - Devaka Talk
Added 14 Jul 2024

Devaka Talk

@devakatalk
Number of subscribers: 14 370
Photos: 1,620
Videos: 51
Links: 3,700
Description:
Канал по просуванню та оптимізації сайтів під Google. Hard SEO. Зв'язок зі мною: @devaka (Сергій Кокшаров) Реклама: @dv_adv Для донатів: @dv_donate Навчаю у групах. https://webpromoexperts.net/courses/seo-pro-online/
Source

Devaka Talk | Автор провів експеримент: поставив чотирьом різним LLM запитання: "Авт...

Telegram community logo - Devaka Talk Devaka Talk @devakatalk
1 990 Views/Reach 2026-06-04 06:16 Message №5958
Автор провів експеримент: поставив чотирьом різним LLM запитання: "Автомийка за 100 метрів від мого будинку. Мені йти пішки чи їхати?" (100 разів кожної).Пост на Реддіті набрав тисячі апвоутівhttps://www.reddit.com/r/dataisbeautiful/comments/1ttp22v/oc_i_asked_4_llms_the_car_wash_is_100m_away/Це питання стало віральним через логічну неоднозначність:* Якщо ви хочете помити машину — її потрібно доставити на мийку (треба їхати).* Якщо ви йдете туди з іншої причини (купити жетони, дізнатися графік) — 100 метрів легше пройти пішки.Більшість ШІ спочатку обирали варіант "йти пішки", ігноруючи приховану умову про те, що для миття авто машина має бути присутня фізично. Автор використав цей тест, щоб візуалізувати, як моделі справляються з амбівалентними (неоднозначними) запитами.Результати на скріншоті. ——Але у методології є й критика. Багато користувачів вказали, що автор спростив результати. Моделі (типу Claude) часто видають розгорнуту відповідь, де спочатку кажуть "йдіть пішки", а потім самі себе виправляють: "...але якщо мета — помити авто, то ви, звісно, маєте їхати". Автор маркував ці відповіді як "йти пішки", що учасники обговорення вважають некоректним — це, навпаки, приклад доброго "міркування" (reasoning) моделі.Реальна людина також не давала б чітку бінарну відповідь, а спочатку уточнила б мету візиту. Тому оцінювати ШІ за "бінарний вибір" у такому питанні — це підхід, приречений на викривлення результатів.Лунають припущення, що автор міг використовувати інший ШІ для того, щоб прочитати результати тестів, через що логічні пояснення моделей були неправильно класифіковані як помилкові.Але тест цікавий. Як вам?