Размер шрифта
-
+

Риски цифровизации: виды, характеристика, уголовно-правовая оценка - стр. 22

Важной частью инициатив в области больших данных является понимание того, каковы затраты и выгоды от сбора и анализа данных. Необходим обоснованный прогноз, что в конечном счете получаемый результат анализа принесет конкретную пользу.

Качество данных и достоверность системы – свойства, которые показывают, что данные были получены из доверенных источников, в неискаженном виде, по доверенным каналам.

В случае, если анализ проводится на основе искаженных данных, выводы и решения не будут корректными. Например, сообщения в Twitter содержат хэш-теги, сокращения, опечатки, указание личных мнений и т. д. Таким образом данные не являются качественными т. к. искажение текста может привести к искажению заложенного в сообщения смысл. Впрочем, Twitter вызывает сомнения и как источник изначально достоверных данных. А если невысока исходная достоверность их сбор и анализ бесполезны.

Следующий пример относится к использованию данных систем глобальной навигации: часто GPS рассчитывает недостоверные координаты местоположения, особенно при размещении приемника в городских районах. Спутниковые сигналы теряются и искажаются, когда они отражаются от высоких зданий или других сооружений. Как единственный источник данных спутники сами по себе недостоверны. Для повышения качества данные о местоположении следует объединить со сведениями из других источников данных, например, с данными акселерометра или сигналами вышек сотовой связи.

Технологии систем Больших данных. Базовыми технологиями систем Big Data являются технологии сбора, анализа и представления данных.

Технологии сбора:

– смешение и интеграция данных (data fusion and integration) – набор техник для интеграции разнородных данных из разнообразных источников в целях анализа (например, обработка естественного языка, включая анализ настроения говорящего – тональности высказывания);

– краудсорсинг – привлечение широкого и заранее не определенного круга лиц для повышения ценности данных без вступления в трудовые отношения с этими лицами.

Технологии анализа:

– прогнозная аналитика – выявление закономерностей в имеющихся данных, помощь в оценке происходящих процессов и прогнозирование дальнейших событий;

– классификация – отнесение объекта к группе по определенному признаку;

– кластерный анализ – автоматизированное формирование сравнительно однородных групп и отнесение к ним объектов (например, по ряду поведенческих факторов можно выяснить намерение человека украсть что-либо: на основании схемы перемещения покупателя по торговому центру определить, что его поведение не является обычным и предотвратить кражу);

Страница 22