Размер шрифта
-
+

Эволюция разума, или Бесконечные возможности человеческого мозга, основанные на распознавании образов - стр. 28

В нашей работе по распознаванию речи мы установили, что для распознавания звуковых образов этот тип информации должен быть закодирован. Например, слова steep и step (произносится «стэп» – «шаг», «этап») достаточно похожи. Хотя звуки [e] в слове step и [E] в слове steep звучат немного по-разному (имеют разные резонансные частоты), нельзя достоверно различить эти два слова лишь на этом основании. Гораздо надежнее основываться на длительности звучания гласных в этих двух словах: [e] в слове step звучит короче, чем [E] в слове steep.

Эту информацию можно закодировать с помощью двух параметров – ожидаемой величины (в данном случае длительности) и степени ее вариабельности. В нашем примере звуки [t] и [p] в слове steep характеризуются очень малой ожидаемой длительностью и малой вариабельностью (это означает, что мы не ожидаем услышать долгих звуков [t] и [p]). Звук [s] характеризуется малой ожидаемой длительностью, но большей вариабельностью, поскольку этот звук можно протянуть. Наконец, звук [E] имеет большую ожидаемую длительность и высокую степень вариабельности.

В этом примере величина – это длительность, но длительность – лишь одна из нескольких возможных характеристик величины сигнала. В нашей работе по распознаванию знаков мы обнаружили, что для распознавания печатных букв важна соответствующая пространственная информация (например, ожидается, что точка над i будет значительно меньше палочки). На более высоком понятийном уровне новая кора имеет дело с самыми разными совокупностями информации, такими как уровень притягательности, иронии, удовольствия, расстройства, и множеством других. Мы можем найти сходство между еще более различающимися совокупностями, чем Дарвин, который связал размер геологических разломов с различиями между видами организмов.

Источником данных параметров для головного мозга является собственный опыт мозга. Когда мы родились, мы ничего не знали о фонемах (звуковых единицах языка), кроме того, разные языки очень сильно различаются по фонетическим характеристикам. Это означает, что многочисленные примеры образа записываются в виде параметров для каждого распознающего модуля (поскольку ожидаемое распределение величин входных сигналов определяется в результате множества экспозиций). В некоторых программах искусственного интеллекта такие параметры кодируются экспертами (например, лингвисты могут назвать ожидаемую длительность различных фонем). В ходе наших исследований мы поняли, что лучше заставить программу самостоятельно определить параметры на основе тренировочных данных (примерно так, как это делает мозг). Иногда мы использовали смешанный подход, то есть снабжали систему человеческой интуицией (для начальных установок параметров), а затем заставляли ее уточнить эти оценки путем обучения на реальных речевых примерах.

Страница 28