Техно

Нову версію чат GPT-5 зламали за 24 години: що сталося і чому це важливо

Модель GPT-5 зламали за 24 години що це значить для безпеки застосунку

Після офіційного релізу GPT-5 незалежні команди з редтімінгу продемонстрували вразливості моделі. NeuralTrust повідомила, що за добу обійшла захист і добилася небезпечних інструкцій без явних тригерів політик. Команда SPLX (ex-SplxAI) прогнала модель через понад тисячу атакувальних сценаріїв і дійшла висновку: «сирий» варіант майже непридатний для підприємств без додаткового захисту та моніторингу, повідомляє інформаційний портал Пушкінська.

Обидва кейси підсвічують системні прогалини у багатокрокових діалогах і за навмисно замаскованих постановок задачі. Для контексту: схожі джейлбрейки раніше ламали й інші флагманські LLM (наприклад, Grok-4 за 48 годин), тож ідеться про ширший клас проблем вирівнювання.

Як працюють EchoChamber та StringJoin

LLM уразливі до багатотурових і контекстних атак; фільтри «поганих слів» недостатні. Ефективний захист має бути багаторівневим — від навчання до інференсу.

EchoChamber

Це не прямий запит «зроби заборонене», а поетапне «підсаджування» нейтральних сюжетів і слів. Модель прагне бути послідовною в уже створеному «світі оповіді», тож поступове «отруєння контексту» обходить фільтри наміру, які дивляться на окремі репліки. Схема: посіяти безпечні «насінини», утримувати розмову в «зеленій зоні», нарощувати контекст і зрештою отримати заборонений вивід без явного порушення в жодному кроці.

StringJoin-обфускація (SPLX)

Шкідливий намір маскується під псевдозавдання (скажімо, «декодування») та технічні трансформації тексту: розбиття слів, вставки символів, конкатенації тощо. Модель «розв’язує» видимий виклик і мимоволі виконує заборонене. Такий підхід б’є по захистах, що надто покладаються на детект наміру в одній репліці.

Що каже OpenAI з приводу хакерського злому системи

Компанія заявляє про посилення розуміння наміру, зниження «піддатливості», перехід від жорстких відмов до «безпечних завершень» і багаторівневу оцінку ризиків (зокрема у біобезпеці) після масштабного редтімінгу з партнерами. Практика перших днів показує слабкі місця, однак виробник паралельно обіцяє консолідувати захист у єдиний стек.

Чи безпечний GPT-5 для користувачів і бізнесу

Перші 24 години після релізу — тривожний, але очікуваний сигнал: зі зростанням можливостей моделей зростає й креативність атак.

  1. Не запускайте «сирий» стек у продакшн. Потрібні системні промпти, політики, рантайм-guardrails із журналюванням і блокуванням підозрілих патернів (оповідні пастки, обфускація, агресивний багатотуровий «викач»).
  2. Керуйте контекстом і пам’яттю діалогу. EchoChamber живиться довгим безперервним контекстом. Для ризикових потоків обмежуйте вікно пам’яті, чітко задавайте рамки задачі, періодично робіть «жорсткий ресет».
  3. Фільтруйте ввід/вивід і перевіряйте у два кола. Пропускайте відповіді через окремий модуль модерації; для чутливих доменів додавайте другу перевірку іншою моделлю чи правиловим класифікатором. Це зменшує «повільний зсув» відповідей.
  4. Мінімізуйте привілеї агентів і уникайте «нуль-кліків». Інтеграції з хмарами, поштою, Jira тощо різко розширюють площу атаки. Ізолюйте конектори, обмежуйте токени доступу, вимикайте автодії без людського підтвердження.
  5. Редтімінг — це процес. Регулярно емулюйте атаки (обфускація, контекстні історії, role-play-обходи), відстежуйте ASR (attack success rate), інтегруйте контрміри у CI/CD і документуйте кожен інцидент.

Базова конфігурація GPT-5 потребує оточення з політик, моніторингу та рантайм-обмежень. Користувачам і бізнесу варто сприймати LLM не як «чорну скриньку», а як компонент у контрольованій системі з чіткими правилами, спостережуваністю та відповідальністю на кожному кроці. Раніше ми писали про багаторазовий український дрон-перехоплювач з дробовиком Besomar.

Марченко Катерина

About Author

Leave a comment

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Также стоит прочитать

Техно

Baidu представив широкій громадськості Ernie – китайський аналог ChatGPT

. Китайский технологический гигант Baidu объявил в четверг, что его бот Ernie, похожий на ChatGPT, теперь открыт для широкой общественности.
Техно

Алексей Данилов показав успішні тести ракетної програми Президента України Володимира Зеленського

Алексей Данилов оголосив про успішну реалізацію ракетної програми президента України Володимира Зеленського.