Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - Data Science Talks
Added 14 Jul 2024

Data Science Talks

@datasciencetalks
Number of subscribers: 201
Photos: 21
Links: 83
Description:
Огляд цікавинок зі світу AI та data science. Простими словами про складні технології Review of the interesting and actual stuff of the DS world. In simple words about complex technologies
Source

Data Science Talks | ​“Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, а...

Telegram community logo - Data Science Talks Data Science Talks @datasciencetalks
414 Views/Reach 2024-07-08 08:38 Message №124
​“Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, або про те як кібербезпека часів GenAI виходить на новий рівень. В сьогоднішній ІТ термінології “jailbreak” - це не назва серіалу чи нової відеогри, а “страшний сон” розробників LLM. Простими словами, джейлбрейк мовної моделі - це спосіб її “зламати”, а далі вже в залежності від задачі - змусити її генерувати неподобства або ж злити певні “внутрішні налаштування” - тексти розробницьких інструкцій чи елементи тренувальних даних на яких вона навчалась. Так не встиг chatGPT побачити світ, як приклади таких зламів почали ширитися мережею - і якщо більша частина з них видається більш-менш безневинними (як наприклад інструкція з виготовлення вибухівки), то іноді такі атаки призводять до більш серйозних наслідків - як ось наприклад витік даних про персональні рахунки користувачів, який змусив OpenAI добряче понервувати навесні 2023 року. Та якщо “класичним” хакерам треба бути суперскіловими кодерами та круто розумітися на архітектурі побудови рішень, аби вишукувати в них слабкі місця, то у випадку LLM-ок зловмисники мають в більшій мірі підключати “психологічні” штуки аби буквально “вмовити” модельку грати за своїми правилами. Хоча іноді зустрічаються якісь екзотичні варіанти промптів для робочих джейлбрейків типу нескінченної кількості двійок (це ж треба таке ще вишукати 🤷🏻‍♀), але більшість підходів полягають у складанні промпта, що переконує модель ігнорити “базові налаштування”, як ось наприклад DAN - Do Anything Now. Тут також варто прояснити, що джейлбрейки - це слабке місце не лише чат-гпт, а усіх LLM, в тому числі open-source based кастомних рішень, тож варто розуміти, що будь-який “розумний” чат-бот є потенційним бекдором для витоку конфіденційної інформації.Цікавий ще й той факт, що шпарини для таких витіків майже не можливо закрити програмно, для їх “нейтралізації” розробникам доводиться вводити відповідні інструкції в процес навчання, та поводження такого величезного black box-а важко передбачити на 100%, власне як і винахідливість зловмисників! На думку одразу спадає аналогія із настановами батьків маленькій дитині, які напоумлюють її не спілкуватися із незнайомцями за ніяких обставин, але зовсім не факт, що ці настанови “спрацюють” у відповідальний момент 🙈