Размер шрифта
-
+

Сердце машины. Наше будущее в эру эмоционального искусственного интеллекта - стр. 34

Такой была ситуация, когда молодой инженер по вычислительной технике по имени Розалинд Пикард поступила на работу в междисциплинарную исследовательскую лабораторию Массачусетского технологического института в 1987 году. Вначале она работала ассистентом преподавателя и научным сотрудником, а в 1991 году заняла должность штатного сотрудника в группе по разработке машинного распознавания образов и моделированию. Пикард преподавала и работала над рядом новых технологий и инженерных задач, включая разработку методов распознавания образов, математического моделирования, машинного зрения, изучения восприятия и обработки сигналов. Получив степень по электротехническому проектированию, а позже по информатике, Пикард уже внесла значительный вклад в развитие некоторых из этих направлений.

Но именно работа Пикард по разработке технологии моделирования образов и систем поиска по содержимому привела ее в направлении, неожиданном для многих и для нее самой. В этих системах ряд математических моделей используется для приближения к системам биологического зрения, наподобие того, как мы «извлекаем» из обстановки (например, фильма или реальной жизни) предметы, содержание и смысл. Система, которую вместе со своей командой разработала Пикард, была одной из первых трех систем в мире и прототипом таких современных систем, как Google Images.

Система, основанная только на жестких правилах, не может быть устойчивой.

Чтобы лучше понимать, как мозг обрабатывает изображения, Пикард сотрудничала с учеными, исследовавшими зрительную зону коры головного мозга человека. Но даже когда имитация человеческого зрения была освоена, остались серьезные проблемы, от решения которых зависела стабильная и надежная работа системы. Было недостаточно просто создать фильтры для выделения сцен или жестко задать правила, описывающие, как выглядит тигр, стул или машина. Линии размываются. Цвета и текстуры накладываются друг на друга. Тени исчезают. Поэтому система, основанная только на жестких правилах, не может быть устойчивой. Такие системы программного обеспечения называют нестабильными, поскольку имеют ограниченное применение в жизни. Нестабильность – очень подходящее название; получая новые условия или непонятную информацию на входе, система просто ломается.

Именно в ходе этой работы Пикард поняла, что многие системы, над которыми она работала, могли быть более эффективными, если бы только удалось узнать, куда направить их внимание. Глядя на изображение, мы не фокусируем внимание с одинаковым интересом на всем, что видим. Мы рассматриваем один элемент, а потом другой. Направление взгляда и фокус внимания смещаются к тому, что нас интересует: цвет, контраст, узор. Пикард предположила, что если бы удалось смоделировать внимание, это помогло бы ее группе решить некоторые задачи. Однако для этого требовалось нечто близкое к системе биологического зрения, что могло активно различать объекты и определять важные. Как объясняет Пикард:

Страница 34