Риски цифровизации: виды, характеристика, уголовно-правовая оценка - стр. 15
3) модификация данных: у атакующего нет доступа к алгоритму обучения, но он имеет полный доступ к данным обучения. Обучающие данные злоумышленник отравляет непосредственно путем изменения перед их использованием для обучения целевой модели;
4) разрушение логики: если у противника есть возможность напрямую вмешиваться в алгоритм обучения. Такая атака также называется логическим искажением.
Исследовательские атаки. Целью таких атак является нарушение конфиденциальности на этапе штатной работы модели. К исследовательским относят несколько типов атак: восстановление модели, восстановление принадлежности, инверсия модели, восстановление параметров. В процессе исследовательской атаки изучается модель ИИ или набор данных, которые в дальнейшем используют злоумышленники. Результат такой атаки – получение знаний о системе ИИ и ее модели, т. е. это атака для извлечения моделей. Атака на данные позволяет «добыть», в частности, сведения о принадлежности экземпляра классу (например, о наличии прав доступа на объект конкретного человека). При помощи инверсии модели извлекают конкретные данные из модели. В настоящее время исследования посвящены в основном атакам логического вывода на этапе разработки модели, но они возможны и во время обучения. Например, если мы хотим понять, как веб-сайт социальной сети определяет принадлежность к целевой аудитории, в частности к группе беременных женщин, чтобы показать конкретную рекламу, то можем изменить свое поведение, предположим, пытаясь найти информацию о памперсах, и проверить, получаем ли мы объявления, предназначенные для будущих мам.
Восстановление принадлежности экземпляра. Злоумышленник намеревается узнать, был ли конкретный экземпляр в наборе обучающих данных. Речь идет о распознавании изображений. Атакующий хочет проверить, были или нет в обучающем наборе сведения о конкретном человеке. Сам по себе это редко используемый тип разведочных атак. Однако он дает возможность разработать план дальнейших атаки, таких как атака «уклонение» класса «черный ящик». Чем больше вредоносный набор данных похож на набор данных жертвы, тем выше у злоумышленника шанс переобучить атакуемую модель. Вывод атрибута помогает узнать обучающие данные (например, об акценте ораторов в моделях распознавания речи). Успешная атака на восстановление принадлежности показывает, насколько соблюдается конфиденциальность, в частности персональных данных, разработчиками моделей ИИ.
Инверсия модели. На сегодняшний день является наиболее распространенным типом разведочных атак. В отличие от восстановления принадлежности, когда можно всего лишь угадать, был ли пример в наборе обучающих данных, при инверсии модели злоумышленник пытается извлечь из обучающего набора данные в полном объеме. При работе с изображениями извлекается определенное изображение. Например, зная только имя человека, злоумышленник получает его (ее) фотографию. С точки зрения конфиденциальности это большая проблема для любой системы, обрабатывающей персональные данные. Известны также атаки на модели ИИ, которые используются для оказания помощи в лечении в зависимости от генотипа пациента.