Риски цифровизации: виды, характеристика, уголовно-правовая оценка - стр. 16
Восстановление параметров модели. Цель подобной атаки – определить модель ИИ и ее гиперпараметры для последующих атак типа «уклонение» класса «черный ящик». При этом восстановленные параметры модели используют, чтобы увеличить скорость атак. Одна из первых работ о таких атаках была опубликована в 2013 г. («Взлом умных машин при помощи более умных: как извлечь значимые данные из классификаторов машинного обучения»).
Кроме основных типов атак, выделяют атаки backdoors и trojans. Цели этих атак и типы атакующих различны, но технически они очень похожи на атаки «отравления». Разница заключается в наборе данных, доступных злоумышленнику.
Троянские атаки (trojans). Во время отравления злоумышленники не имеют доступа к модели и начальному набору данных, они могут только добавить новые данные в существующий набор или изменить его. Что касается трояна, то злоумышленники все еще не имеют доступа к начальному набору данных, но у них есть доступ к модели и ее параметрам, и они могут переобучить эту модель, поскольку в настоящее время компании, как правило, не создают свои собственные модели с нуля, а переобучают существующие модели. Например, если необходимо создать модель для обнаружения рака, злоумышленники берут новейшую модель распознавания изображений и переобучают при помощи специализированного набора данных, поскольку отсутствие данных и изображений раковых опухолей не позволяет обучать сложную модель с нуля. Это означает, что большинство компаний-разработчиков загружают популярные модели из интернета. Однако хакеры могут заменить их своими модифицированными версиями с идентичными названиями. Идея трояна заключается в следующем: найти способы изменить поведение модели в некоторых обстоятельствах таким образом, чтобы штатное поведение модели оставалось неизменным. Сначала хакеры объединяют набор данных из модели с новыми входными данными и уже на объединенном наборе переобучают модель. Модификация поведения модели («отравление» и трояны) возможна даже в среде «черного ящика» и «серого ящика», а также в режиме полного «белого ящика» с доступом к модели и набору данных. Тем не менее главная цель – не только ввести дополнительное поведение, но и сделать это таким образом, чтобы заложенная уязвимость (бэкдор) работала после дальнейшей переподготовки системы добросовестными разработчиками.
«Черный ход» (Backdoor). Идея такой атаки взята от одной из самых старых ИТ-концепций – бэкдоров. При разработке моделей ИИ исследователи закладывают в нее и общий, базовый функционал, и возможность дальнейшего переобучения. С целью маскировки атаки по завершению несанкционированного переобучения модель должна сохранить базовый функционал. Это достижимо за счет того, что нейронные сети, например, для распознавания изображений, представляют собой масштабные структуры, образованные миллионами нейронов. Чтобы внести изменения в такой механизм, достаточно модифицировать лишь небольшой их набор. Еще один фактор, делающий возможным атаку «черного хода», заключается в том, что модели распознавания изображений, например Inception или ResNet, крайне сложны. Они обучены на огромном количестве данных, для чего использовались дорогостоящие вычислительные мощности. Провести аудит и выявить черный ход крайне затруднительно.