Размер шрифта

Машинное обучение и Искусственный Интеллект - стр. 15

Наука о данных – это практическое применение машинного обучения с фокусом на решении реальных задач.

Наука о данных в основном сосредоточена на работе с неструктурированными данными.

Структурированные данные больше похожи на табличные данные, с которыми мы имеем дело в Microsoft Excel, где у вас есть строки и столбцы, и это называется структурированными данными.

Неструктурированные данные – это данные, поступающие в основном из Интернета, где они не являются табличными, они не в виде строк и столбцов, а в виде текста, иногда это видео и аудио, поэтому вам придется использовать более сложные алгоритмы для обработки этих данных.

Традиционно при вычислении и обработке данных мы переносим данные на компьютер.

Но если данных очень много, они просто могут не поместиться на одном компьютере.

Поэтому Google придумал очень просто: они взяли данные и разбили их на куски, и они отправили эти куски файлов на тысячи компьютеров, сначала это были сотни, а потом тысячи, и теперь десятки тысяч компьютеров.

И они поставили одну и ту же программу на все эти компьютеры в кластере.

И каждый компьютер запускает эту программу на своем маленьком фрагменте файла и отправляет результаты обратно.

Затем результаты сортируются и объединяются.

Первый процесс называется процессом Map, а второй – процессом Reduce.

Это довольно простые концепции, но оказалось, что вы можете делать с их помощью много разных видов обработки, выполнять много разных задач и обрабатывать очень большие наборы данных.

И такая архитектура называется Hadoop.

И когда у нас появились вычислительные возможности для обработки данных, у нас появились новые методы, такие как машинное обучение.

С помощью которого мы можем взять большие наборы данных, и вместо того, чтобы брать выборку из этих данных и пытаться проверить какую-то гипотезу, мы можем взять большие наборы данных и искать в них шаблоны – закономерности.

То есть перейти от проверки гипотез к поиску шаблонов, которые, возможно, будут генерировать гипотезы.

Это отличается от традиционной статистики, где у вас должна быть гипотеза, которая не зависит от данных, и затем вы проверяете ее на данных.

В машинном обучении сами данные генерируют гипотезы.

С появлением больших данных и вычислительных возможностей стало актуальным глубокое машинное обучение и использование нейронных сетей.

Jupyter Notebook

Технология нейронных сетей существовала 30 лет назад, но ее развитие сдерживалось нехваткой данных и вычислительных возможностей.

Нейронные сети – это попытка подражать нейронам мозга и тому, как на самом деле функционирует наш мозг.

Страница 15

На следующую страницу