Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - Devaka Talk
Додано 14 лип 2024

Devaka Talk

@devakatalk
Кількість підписників: 14 370
Фото: 1,620
Відео: 51
Посилання: 3,700
Опис:
Канал по просуванню та оптимізації сайтів під Google. Hard SEO. Зв'язок зі мною: @devaka (Сергій Кокшаров) Реклама: @dv_adv Для донатів: @dv_donate Навчаю у групах. https://webpromoexperts.net/courses/seo-pro-online/
Джерело

Devaka Talk | Автор провів експеримент: поставив чотирьом різним LLM запитання: "Авт...

Логотип телеграм спільноти - Devaka Talk Devaka Talk @devakatalk
1 990 Охват/переглядів 2026-06-04 06:16 Повідомлення №5958
Автор провів експеримент: поставив чотирьом різним LLM запитання: "Автомийка за 100 метрів від мого будинку. Мені йти пішки чи їхати?" (100 разів кожної).Пост на Реддіті набрав тисячі апвоутівhttps://www.reddit.com/r/dataisbeautiful/comments/1ttp22v/oc_i_asked_4_llms_the_car_wash_is_100m_away/Це питання стало віральним через логічну неоднозначність:* Якщо ви хочете помити машину — її потрібно доставити на мийку (треба їхати).* Якщо ви йдете туди з іншої причини (купити жетони, дізнатися графік) — 100 метрів легше пройти пішки.Більшість ШІ спочатку обирали варіант "йти пішки", ігноруючи приховану умову про те, що для миття авто машина має бути присутня фізично. Автор використав цей тест, щоб візуалізувати, як моделі справляються з амбівалентними (неоднозначними) запитами.Результати на скріншоті. ——Але у методології є й критика. Багато користувачів вказали, що автор спростив результати. Моделі (типу Claude) часто видають розгорнуту відповідь, де спочатку кажуть "йдіть пішки", а потім самі себе виправляють: "...але якщо мета — помити авто, то ви, звісно, маєте їхати". Автор маркував ці відповіді як "йти пішки", що учасники обговорення вважають некоректним — це, навпаки, приклад доброго "міркування" (reasoning) моделі.Реальна людина також не давала б чітку бінарну відповідь, а спочатку уточнила б мету візиту. Тому оцінювати ШІ за "бінарний вибір" у такому питанні — це підхід, приречений на викривлення результатів.Лунають припущення, що автор міг використовувати інший ШІ для того, щоб прочитати результати тестів, через що логічні пояснення моделей були неправильно класифіковані як помилкові.Але тест цікавий. Як вам?