Big data простым языком - стр. 20
Год спустя, в декабре 2015 года, профессиональное сообщество повысило шансы на победу, но для обучения всем возможным стратегиям искусственному интеллекту еще требовались десятки лет.
Всего восемь месяцев спустя алгоритм AlphaGo, разработанный в лаборатории DeepMind,[17] смог обыграть профессионала игры в го, обладателя 18–ти мировых трофеев и высшего девятого дана, лидера мировых рейтингов, Ли Седоля.
Разработка алгоритма заняла всего несколько лет, при этом алгоритм не просчитывал все возможные комбинации, он мог видеть только на 50 ходов вперед. Просчет всех возможных комбинаций требовал несоизмеримое количество вычислительных ресурсов, поэтому разработчики решили пойти другим путем. Они создали трехслойную сложную нейронную сеть, которая имитировала человеческую интуицию. При этом алгоритм AlphaGo делал по-настоящему оригинальные ходы. Например, ход номер 37 в третьей партии против Ли Сидоля был действительно неожиданным для большинства профессионалов. Когда разработчики заглянули в логику алгоритма, они увидели, что AlphaGo выбрал этот ход, так как он был маловероятным ходом с точки зрения человека. Вероятность, с которой профессионал мог совершить этот ход, составляла 1:10000. Ли Сидоль проиграл эту партию, но в следующей игре он совершил аналогичный ход под номером 76, который был так же маловероятным, но, по его утверждению, он был единственным. Фактически, Ли Сидоль скорректировал свое понимание игры го, в которую он играл с раннего детства, и применил новую отличную тактику, которую никогда ранее не применял.
Роль AlphaGo здесь совершенно не заменима при понимании основ игры го, потому что алгоритм смотрит на нее не так, как человек. Алгоритму не важны получаемые очки, потому что выиграть можно всего лишь с перевесом в одно очко, что и делает алгоритм. В результате получается новая, так называемая «мягкая» тактика, когда алгоритм стремится не к максимизации очков, а к устойчивому равновесию.
Появление таких сервисов изменяет саму суть игры, позволяет по-иному взглянуть на нее, применяя более зрелые подходы, которым учит нас алгоритм.
Сам алгоритм состоит из трех основных слоев:
• Стратегическая сеть – слой, который перебирает в памяти результаты всех сыгранных партий;
• Оценочная сеть – слой, который оценивает эффективность текущих позиций;
• Поиск по дереву – слой, который прогнозирует наиболее ценный ход руководствуясь эффективностью.