Джерело

Data Science Talks | “Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, а...

Data Science Talks @datasciencetalks

414 Охват/переглядів 2024-07-08 08:38 Повідомлення №124

“Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, або про те як кібербезпека часів GenAI виходить на новий рівень. В сьогоднішній ІТ термінології “jailbreak” - це не назва серіалу чи нової відеогри, а “страшний сон” розробників LLM. Простими словами, джейлбрейк мовної моделі - це спосіб її “зламати”, а далі вже в залежності від задачі - змусити її генерувати неподобства або ж злити певні “внутрішні налаштування” - тексти розробницьких інструкцій чи елементи тренувальних даних на яких вона навчалась. Так не встиг chatGPT побачити світ, як приклади таких зламів почали ширитися мережею - і якщо більша частина з них видається більш-менш безневинними (як наприклад інструкція з виготовлення вибухівки), то іноді такі атаки призводять до більш серйозних наслідків - як ось наприклад витік даних про персональні рахунки користувачів, який змусив OpenAI добряче понервувати навесні 2023 року. Та якщо “класичним” хакерам треба бути суперскіловими кодерами та круто розумітися на архітектурі побудови рішень, аби вишукувати в них слабкі місця, то у випадку LLM-ок зловмисники мають в більшій мірі підключати “психологічні” штуки аби буквально “вмовити” модельку грати за своїми правилами. Хоча іноді зустрічаються якісь екзотичні варіанти промптів для робочих джейлбрейків типу нескінченної кількості двійок (це ж треба таке ще вишукати 🤷🏻‍♀), але більшість підходів полягають у складанні промпта, що переконує модель ігнорити “базові налаштування”, як ось наприклад DAN - Do Anything Now. Тут також варто прояснити, що джейлбрейки - це слабке місце не лише чат-гпт, а усіх LLM, в тому числі open-source based кастомних рішень, тож варто розуміти, що будь-який “розумний” чат-бот є потенційним бекдором для витоку конфіденційної інформації.Цікавий ще й той факт, що шпарини для таких витіків майже не можливо закрити програмно, для їх “нейтралізації” розробникам доводиться вводити відповідні інструкції в процес навчання, та поводження такого величезного black box-а важко передбачити на 100%, власне як і винахідливість зловмисників! На думку одразу спадає аналогія із настановами батьків маленькій дитині, які напоумлюють її не спілкуватися із незнайомцями за ніяких обставин, але зовсім не факт, що ці настанови “спрацюють” у відповідальний момент 🙈

Пряме посилання

Data Science Talks

Data Science Talks | ​“Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, а...

Популярні запити

Data Science Talks | “Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, а...