Новости
Источник: https://www.microsoft.com/en-us/security/blog/2026/02/26/threat-modeling-ai-applications/
Разбираемся, как заранее найти дыры в безопасности ИИ-систем и не дать им натворить дел
Давайте будем честны: мы вряд ли сможем предугадать абсолютно каждый «глюк» или странную выходку нейросети. Но это не значит, что нужно сидеть и ждать катастрофы. Мы вполне можем прикинуть, где тонко, оценить масштаб потенциального пожара и собрать систему так, чтобы минимизировать риски. В этом и есть суть моделирования угроз. Это не просто бюрократия, а нормальный, структурированный способ заранее понять, что может пойти не так, чтобы потом не хвататься за голову, когда атакуют хакеры или модель начнет выдавать дичь.
Раньше всё было проще. Обычный софт работает предсказуемо: нажал кнопку — получил результат. Но современные ИИ-агенты и генеративные модели ломают эти правила. Тут нельзя просто прописать все пути выполнения кода, и именно поэтому нам пора менять сам подход к безопасности.
Главная фишка (и проблема) нейросетей — их вероятностная натура. Задайте модели один и тот же вопрос дважды, и вы получите разные ответы. На результат влияет всё: контекст, язык и даже культурные нюансы. В итоге нам нужно анализировать не один сценарий, а целый веер возможных исходов, включая те редкие случаи, которые могут стоить компании репутации или денег.
К тому же, ИИ ведет себя по-разному в зависимости от того, на каких данных его учили. Если данных по какой-то теме или языку было мало, модель начинает «галлюцинировать». И что важно: для сбоя не обязательно нужен злой хакер, система может споткнуться сама по себе просто из-за кривых инструкций.
Ещё один момент: в обычном коде данные — это просто данные. А в ИИ ваши инструкции и текст от случайного пользователя сваливаются в одну кучу. Модель может принять враждебную команду за ваше прямое указание. А если она ещё и картинки с аудио понимает, то поле для манипуляций становится просто огромным.
Вот три вещи, которые меняют правила игры:
В итоге мы получаем старые проблемы, но в новой обертке: от косвенных инъекций команд до утечек данных через цепочки действий, которые никто не планировал.
| Что сравниваем | Классический софт | ИИ-системы |
| Чем рискуем? | Вирусы, взломы, кража паролей. | То же самое + отравление данных и кража самой модели. |
| Данные | Нужно просто их шифровать. | Важно качество: плохие данные = опасные решения. |
| Логика | Жесткая: «если А, то Б». | Гибкая и обучаемая (хрен угадаешь). |
| Последствия сбоя | Сайт лег или база удалилась. | ИИ может начать хамить, дискриминировать или врать на голубом глазу. |
| Методы защиты | Патчи и антивирусы. | Постоянное «прожаривание» (красные команды) и тесты на предвзятость. |
| Прозрачность | Всё в логах, всё понятно. | «Черный ящик»: часто никто не понимает, почему он так решил. |
С чего начать? Прежде чем рисовать схемы атак, поймите: а что мы вообще защищаем? В случае с ИИ это не только база данных клиентов.
Важные штуки, о которых часто забывают:
Задайте себе вопрос: «Что эта система не должна делать ни при каких обстоятельствах?». Ответ станет вашим главным ориентиром.
Звучит странно, но часто команды не до конца понимают архитектуру своего детища. Нужно четко видеть:
Самое опасное место — это место сборки промпта (инструкции). Если туда попадает непроверенный контекст, ждите беды.
Не всегда виноват хакер. Часто всё ломается из-за «человеческого фактора»:
Если у вас миллионы пользователей, даже шанс ошибки в 0,01% означает, что сотни людей столкнутся с проблемой сегодня же. Поэтому мы смотрим на две вещи:
Лучшая защита — это когда система физически не может сделать ничего плохого. Например:
Моделирование угроз — это не та вещь, которую можно сделать один раз и забыть. Это работа для всех: и для тех, кто пишет код, и для тех, кто рисует интерфейсы.
Хотите начать? Сделайте три простых шага: найдите, где в систему попадают чужие данные, решите, чего системе нельзя делать никогда, и придумайте, как вы будете ловить ошибки на лету. Создать ИИ, которому можно доверять — задача сложная, но, поверьте, оно того стоит.