Нову версію чат GPT-5 зламали за 24 години: що сталося і чому це важливо

Після офіційного релізу GPT-5 незалежні команди з редтімінгу продемонстрували вразливості моделі. NeuralTrust повідомила, що за добу обійшла захист і добилася небезпечних інструкцій без явних тригерів політик. Команда SPLX (ex-SplxAI) прогнала модель через понад тисячу атакувальних сценаріїв і дійшла висновку: «сирий» варіант майже непридатний для підприємств без додаткового захисту та моніторингу, повідомляє інформаційний портал Пушкінська.
Обидва кейси підсвічують системні прогалини у багатокрокових діалогах і за навмисно замаскованих постановок задачі. Для контексту: схожі джейлбрейки раніше ламали й інші флагманські LLM (наприклад, Grok-4 за 48 годин), тож ідеться про ширший клас проблем вирівнювання.
Як працюють EchoChamber та StringJoin
LLM уразливі до багатотурових і контекстних атак; фільтри «поганих слів» недостатні. Ефективний захист має бути багаторівневим — від навчання до інференсу.
EchoChamber
Це не прямий запит «зроби заборонене», а поетапне «підсаджування» нейтральних сюжетів і слів. Модель прагне бути послідовною в уже створеному «світі оповіді», тож поступове «отруєння контексту» обходить фільтри наміру, які дивляться на окремі репліки. Схема: посіяти безпечні «насінини», утримувати розмову в «зеленій зоні», нарощувати контекст і зрештою отримати заборонений вивід без явного порушення в жодному кроці.
StringJoin-обфускація (SPLX)
Шкідливий намір маскується під псевдозавдання (скажімо, «декодування») та технічні трансформації тексту: розбиття слів, вставки символів, конкатенації тощо. Модель «розв’язує» видимий виклик і мимоволі виконує заборонене. Такий підхід б’є по захистах, що надто покладаються на детект наміру в одній репліці.
Що каже OpenAI з приводу хакерського злому системи
Компанія заявляє про посилення розуміння наміру, зниження «піддатливості», перехід від жорстких відмов до «безпечних завершень» і багаторівневу оцінку ризиків (зокрема у біобезпеці) після масштабного редтімінгу з партнерами. Практика перших днів показує слабкі місця, однак виробник паралельно обіцяє консолідувати захист у єдиний стек.
Чи безпечний GPT-5 для користувачів і бізнесу
Перші 24 години після релізу — тривожний, але очікуваний сигнал: зі зростанням можливостей моделей зростає й креативність атак.
- Не запускайте «сирий» стек у продакшн. Потрібні системні промпти, політики, рантайм-guardrails із журналюванням і блокуванням підозрілих патернів (оповідні пастки, обфускація, агресивний багатотуровий «викач»).
- Керуйте контекстом і пам’яттю діалогу. EchoChamber живиться довгим безперервним контекстом. Для ризикових потоків обмежуйте вікно пам’яті, чітко задавайте рамки задачі, періодично робіть «жорсткий ресет».
- Фільтруйте ввід/вивід і перевіряйте у два кола. Пропускайте відповіді через окремий модуль модерації; для чутливих доменів додавайте другу перевірку іншою моделлю чи правиловим класифікатором. Це зменшує «повільний зсув» відповідей.
- Мінімізуйте привілеї агентів і уникайте «нуль-кліків». Інтеграції з хмарами, поштою, Jira тощо різко розширюють площу атаки. Ізолюйте конектори, обмежуйте токени доступу, вимикайте автодії без людського підтвердження.
- Редтімінг — це процес. Регулярно емулюйте атаки (обфускація, контекстні історії, role-play-обходи), відстежуйте ASR (attack success rate), інтегруйте контрміри у CI/CD і документуйте кожен інцидент.
Базова конфігурація GPT-5 потребує оточення з політик, моніторингу та рантайм-обмежень. Користувачам і бізнесу варто сприймати LLM не як «чорну скриньку», а як компонент у контрольованій системі з чіткими правилами, спостережуваністю та відповідальністю на кожному кроці. Раніше ми писали про багаторазовий український дрон-перехоплювач з дробовиком Besomar.