Чатботове с изкуствен интелект, хакнати посредством джейлбрейк, заплашват да направят достъпни опасни знания, като бълват забранена информация, извличана от програмите по време на обучението си, казват изследователи.
Предупреждението идва на фона на тревожната тенденция чатботове да са „джейлбрейкнати“, така че да се заобиколят внедрените им контролни мерки за безопасност.
Ограниченията би трябвало да пречат на програмите да предоставят вредни, предубедени или неподходящи отговори на потребителските въпроси.
Големите езикови модели (LLM), които стоят зад чатботове, като ChatGPT, Gemini и Claude, се обучават върху огромни количества от информация от интернет.
Въпреки усилията за премахване на опасни текстове от информацията за обучение, големите езикови модели могат да възприемат данни за незаконни дейности, като хакерски атаки, пране на пари, търговия с вътрешна информация и създаването на бомби.
Инструментите за контрол на сигурността са създадени, за да им попречат да използват тази информация при отговорите, които предоставят на потребители.
В свой доклад по въпроса изследователите заключават, че е лесно повечето чатботове с AI да бъдат подведени да генерират вредна и незаконна информация, което показва, че рискът е “непосредствен, осезаем и силно притеснителен”.
“Това, което някога беше ограничено до държавни субекти или организирани престъпни групировки, скоро може да бъде в ръцете на всеки с лаптоп или дори мобилен телефон,” предупреждават авторите на доклада.
Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета „Бен Гурион“ в Негев, Израел, установява нарастваща заплаха от т. нар. „тъмни големи езикови модели“, които са или умишлено проектирани без контрол на безопасността, или модифицирани чрез джейлбрейк.
Някои са рекламирани открито онлайн като „лишени от етични предпазни мерки“ и склонни да съдействат за незаконни дейности, като киберпрестъпления и измами.
Джейлбрейк процесът обикновено използва внимателно изработени подкани, за да подведе чатботовете да генерират отговори, които по принцип са забранени.
Те работят, като се възползват от натиска между основната цел на програмата да следва инструкциите на потребителя и вторичната ѝ цел да избягва генерирането на вредни, предубедени, неетични или незаконни отговори.
Подканите обикновено създават сценарий, в който програмата дава приоритет на полезността пред ограниченията си за безопасност.
За да демонстрират проблема, изследователите разработват универсален джейлбрейк, който компрометира множество водещи чатботове и им дава възможност да отговарят на въпроси, които обикновено би трябвало да бъдат отказвани.
Веднъж компрометирани, големите езикови модели последователно генерират отговори на почти всяко запитване, се посочва в доклада.
„Шокиращо беше да се види от какво се състои тази система от знания“, каза Файър. Примерите включват как да се хакват компютърни мрежи или да се произвеждат наркотици, както и подробни инструкции за други престъпни дейности.

„Това, което отличава тази заплаха от предишни технологични рискове, е безпрецедентната комбинация от достъпност, мащабируемост и приспособимост“, допълва Рокач.
Изследователите са се свързали с водещи доставчици на големи езикови модели, за да ги предупредят за универсалния джейлбрейк, но казват, че насрещната реакция е била „неубедителна“.
Няколко компании не са отговорили, докато други са заявили, че джейлбрейк атаките са извън обхвата на програмите, с които се възнаграждават етични хакери за откриване на софтуерни уязвимости.
В доклада се казва, че технологичните компании трябва да проверяват данните за обучение по-внимателно, да добавят стабилни защити, за да блокират рискови заявки и отговори и да разработват техники за „машинно отучване“, така че чатботовете да могат да „забравят“ всяка незаконна информация, която възприемат.
Тъмните големи езикови модели трябва да се разглеждат като „сериозни рискове за сигурността“, съпоставими с незаконни оръжия и взривни вещества, като на доставчиците трябва да се търси отговорност, се казва още в доклада.
Д-р Ихсен Алуани, който работи по сигурността на изкуствения интелект в университета Куинс в Белфаст, казва, че атаките с джейлбрейк срещу големи езикови модели могат да представляват реални рискове, от предоставяне на подробни инструкции за производство на оръжия до убедителна дезинформация или социално инженерство и автоматизирани измами „с тревожна сложност“.
„Ключова част от решението е компаниите да инвестират по-сериозно в „червени екипи“ (групи от експерти по киберсигурност) и техники за устойчивост на ниво модел, вместо да разчитат единствено на предпазни мерки на ниво фронтенд. Нуждаем се също така от по-ясни стандарти и независим надзор, за да сме в крак с променящия се пейзаж на заплахите“.
OpenAI - компанията, която стои зад ChatGPT, обяви, че нейният най-нов модел o1 може да разсъждава относно политиките за безопасност на компанията, което подобрява устойчивостта му на джейлбрейк атаки.
От компанията допълват, че винаги проучват начини за подобряване на стабилността на програмите.
Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !
ФЬОНИКС Фарма, където работата е кауза
Калкулатори
Най-ново
Теодор Маринов, ОББ: Банките у нас няма да променят лихвената политика в краткосрочен план
06.11.2025Дарик отличи новите „40 до 40“
06.11.2025Защо учените носят бидони на Българската експедиция в Антарктида?
06.11.202540 кандидати, но не всички ще стигнат до строеж: Старт на подбора за нов терминал на летище София
06.11.2025В Разград изграждат съоръжение за съхранение на електричество за 11.7 млн. лв.
06.11.2025САЩ намаляват с 10% въздушния трафик на 40 летища
06.11.2025Прочети още
Кой е новият кмет на Ню Йорк? Мюсюлманин, много ляв и млад! Анализ на Милен Керемедчиев
darik.bgБонуси по 30 000 лв. или по 1 000 000 лв., за които държавата плаща? Къде и как?
darik.bgЛюбомир Дацов: Разходите за заплати скочиха рязко през последните години!
darik.bgНов епизод от кошмарите на Лудогорец в Будапеща
dsport.bgБойко Борисов заби седмица за Витоша Бистрица и показа на младите как трябва да играят срещу Левски
dsport.bgПолина Билоконна-Аббат за истинското лице на майчинството с две деца в новия епизод на "Майка на годината"
9meseca.bg