Модель GPT-5 зламали за 24 години: що це значить для безпеки застосунку

Після офіційного релізу GPT-5 незалежні команди з редтімінгу продемонстрували вразливості моделі. NeuralTrust повідомила, що за добу обійшла захист і добилася небезпечних інструкцій без явних тригерів політик. Команда SPLX (ex-SplxAI) прогнала модель через понад тисячу атакувальних сценаріїв і дійшла висновку: «сирий» варіант майже непридатний для підприємств без додаткового захисту та моніторингу, повідомляє інформаційний портал Пушкінська.

Обидва кейси підсвічують системні прогалини у багатокрокових діалогах і за навмисно замаскованих постановок задачі. Для контексту: схожі джейлбрейки раніше ламали й інші флагманські LLM (наприклад, Grok-4 за 48 годин), тож ідеться про ширший клас проблем вирівнювання.

Як працюють EchoChamber та StringJoin

LLM уразливі до багатотурових і контекстних атак; фільтри «поганих слів» недостатні. Ефективний захист має бути багаторівневим — від навчання до інференсу.

EchoChamber

Це не прямий запит «зроби заборонене», а поетапне «підсаджування» нейтральних сюжетів і слів. Модель прагне бути послідовною в уже створеному «світі оповіді», тож поступове «отруєння контексту» обходить фільтри наміру, які дивляться на окремі репліки. Схема: посіяти безпечні «насінини», утримувати розмову в «зеленій зоні», нарощувати контекст і зрештою отримати заборонений вивід без явного порушення в жодному кроці.

StringJoin-обфускація (SPLX)

Шкідливий намір маскується під псевдозавдання (скажімо, «декодування») та технічні трансформації тексту: розбиття слів, вставки символів, конкатенації тощо. Модель «розв’язує» видимий виклик і мимоволі виконує заборонене. Такий підхід б’є по захистах, що надто покладаються на детект наміру в одній репліці.

Що каже OpenAI з приводу хакерського злому системи

Компанія заявляє про посилення розуміння наміру, зниження «піддатливості», перехід від жорстких відмов до «безпечних завершень» і багаторівневу оцінку ризиків (зокрема у біобезпеці) після масштабного редтімінгу з партнерами. Практика перших днів показує слабкі місця, однак виробник паралельно обіцяє консолідувати захист у єдиний стек.

Чи безпечний GPT-5 для користувачів і бізнесу

Перші 24 години після релізу — тривожний, але очікуваний сигнал: зі зростанням можливостей моделей зростає й креативність атак.

Не запускайте «сирий» стек у продакшн. Потрібні системні промпти, політики, рантайм-guardrails із журналюванням і блокуванням підозрілих патернів (оповідні пастки, обфускація, агресивний багатотуровий «викач»).
Керуйте контекстом і пам’яттю діалогу. EchoChamber живиться довгим безперервним контекстом. Для ризикових потоків обмежуйте вікно пам’яті, чітко задавайте рамки задачі, періодично робіть «жорсткий ресет».
Фільтруйте ввід/вивід і перевіряйте у два кола. Пропускайте відповіді через окремий модуль модерації; для чутливих доменів додавайте другу перевірку іншою моделлю чи правиловим класифікатором. Це зменшує «повільний зсув» відповідей.
Мінімізуйте привілеї агентів і уникайте «нуль-кліків». Інтеграції з хмарами, поштою, Jira тощо різко розширюють площу атаки. Ізолюйте конектори, обмежуйте токени доступу, вимикайте автодії без людського підтвердження.
Редтімінг — це процес. Регулярно емулюйте атаки (обфускація, контекстні історії, role-play-обходи), відстежуйте ASR (attack success rate), інтегруйте контрміри у CI/CD і документуйте кожен інцидент.

Базова конфігурація GPT-5 потребує оточення з політик, моніторингу та рантайм-обмежень. Користувачам і бізнесу варто сприймати LLM не як «чорну скриньку», а як компонент у контрольованій системі з чіткими правилами, спостережуваністю та відповідальністю на кожному кроці. Раніше ми писали про багаторазовий український дрон-перехоплювач з дробовиком Besomar.