Политическая наука №2 / 2017. Языковая политика и политика языка - стр. 26
Анализ частоты употребления слов – это способ выявления коммуникативно значимых языковых единиц внутри одного корпуса. Частотность – это, безусловно, важная характеристика, однако она описывает только то, что «лежит на поверхности». Более сложный способ анализа корпусов текстов связан с возможностью сопоставления двух текстовых массивов и выявления ключевых слов.
Обращение к проблеме ключевых слов в современной лингвистике связано с признанием того факта, что в любом тексте значимость слов различна в том смысле, что каждая словоформа вносит свой вклад в общий смысл текста, но некоторые словоформы оказываются более важными в смысловой организации текста. Такие слова принято называть ключевыми. Анализ ключевых слов необходим для определения тематической (содержательной) направленности текста, для выявления основных идей или стилистических предпочтений автора.
В современной лингвистике понятие ключевого слова имеет несколько трактовок. Одно из наиболее популярных пониманий – это понимание ключевого слова как важного элемента культуры. В фокусе внимания исследователей оказываются слова, которые описывают характерные для данной культуры понятия и ценности; специфика семантики таких слов часто вызывает трудности при переводе [Вежбицкая, 2001]. Глобальная цель таких исследований – с помощью лингвистического анализа описать языковую картину мира.
Второй вариант трактовки понятия ключевого слова связан не с возможностью обозначения им специфического понятия, характерного для определенной культуры, а с ролью отдельных слов в понимании конкретного текста. Например, в тексте научной статьи ключевые слова играют роль метаданных, которые в самом общем виде представляют тематику исследования [Кретов, 2012; Кашкин, Шилихина, 2014].
В сфере автоматической обработки естественного языка трактовку понятия ключевого слова можно считать «гибридной»: ключевые слова рассматриваются и как инструмент понимания текста, и как способ выражения определенных идей.
В рамках данного исследования были выявлены ключевые слова в речах Дональда Трампа и Хиллари Клинтон. Получение списков ключевых слов проводилось по следующему алгоритму: при сопоставлении двух массивов текстов выделялись статистически значимые слова в Корпусе-1, при этом Корпус-2 использовался в качестве справочного. Затем был составлен список ключевых слов для Корпуса-2, при этом в качестве справочного использовался Корпус-1. Инструментом статистической оценки, на основе которой были выделены слова, встречаемость которых в речи одного политика выше, чем в речи другого, стала функция логарифмического правдоподобия. Данные о первых 30 ключевых словах представлены в таблице 7.