Риски цифровизации: виды, характеристика, уголовно-правовая оценка - стр. 18
Машинное обучение в течение жизненного цикла. С непрерывным обучением тесно связаны две концепции:
предположение о том, что все исторические знания доступны и используются для изучения новых задач;
накопление полученных новых знаний.
Первая концепция допускает потенциальное заражение данных при атаках типа Backdoor и исследовательских атаках. Согласно второй концепции, процесс может быть нарушен, поскольку атака не позволит системе сохранять получаемые знания и отработанные задачи. Это тип атаки на доступность, она не дает реализовать подход к обучению в течение жизненного цикла.
Выяснение того, как «черные ходы» и атаки «отравлением» данными могут повлиять на системы обучения, имеет первостепенное значение. Например, если решение справляется с задачей накопления знаний, может ли злоумышленник создать бэкдор для одной задачи и использовать ее для всех других новых задач? Если это возможно, то последствия для безопасности будут катастрофическими.
Также злоумышленники могут атаковать процесс накопления полученных знаний. Один из методов атаки заключается в изучении того, может ли добавление нескольких тщательно созданных обучающих образцов с правильными метками изменить структуру модели так, чтобы она плохо выполнялась в прежних задачах. Злоумышленники таким образом инициируют в модели оптимизацию ретроспективных знаний, цель которой состоит в том, чтобы изменить модель под новую, атакующую задачу, тем самым повредить результаты обучения на старых задачах. Механизмы атаки и защиты, характерные для обучения на протяжении всего жизненного цикла, требуют дополнительных исследований.
§ 2. Большие данные
Понятие. Большие данные (Big Data) – это крайне большой объем структурированных и неструктурированных данных произвольного типа, обрабатываемый в горизонтально масштабируемых информационных системах. Назначение систем Big Data – помогать в принятии решений и инициировать действия на основе анализа цифровой информации. При помощи систем Big Data принимаются решения о необходимости профилактики эпидемий, об изменении полётного графика воздушных судов, о пригодности деталей автомобиля для эксплуатации, о необходимости провести внеплановый ремонт на строительных объектах и многие другие.
История. Определение Big Data появилось в 2008 г. Безусловно, до этого времени существовали методологии анализа информации, однако стоимость хранения и обработки данных была столь велика, что ограничения в ресурсах либо сводили на нет полезность аналитических отчетов из-за низкой скорости их предоставления, либо качество отчетов было столь низким, что они не имели практического применения.