Размер шрифта
-
+

Как раскрутить и разрекламировать Web-сайт в сети Интернет - стр. 34

Достоинства и недостатки поисковых машин определяются различными характеристиками. Принципиальным является то, насколько полно система обследует документы: все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, первых нескольких строк или страниц текста, и т. д. Важна также периодичность обновления данных и критерии оценки понятий при определении степени их соответствия запросу. Не последнюю роль играют простота и удобство интерфейса, возможность использовать булевы операторы (операторы математической логики) и операторы расстояния между словами в тексте документа, а также дополнительные сервисные функции, например, поиск новостей, музыкальных файлов, товаров, и т. д.

В обслуживание, осуществляемое информационно-поисковой системой, входит предварительная обработка текста, в том числе составление индекса, по которому затем происходит поиск. Такая поисковая система может быть организована как база данных с текстовыми полями. Другой вариант организации – работа с внешними текстами. В этом случае тексты сохраняют первоначальный вид, то есть остаются файлами в файловой системе, страницами на сервере или полями какой-то другой базы данных, а индекс снабжается лишь ссылками на соответствующие источники.

Работа с поисковыми средствами требует от пользователя определенного опыта и навыков.

Индекс поисковой системы

Простейший способ организации индекса для поисковой системы таков: по определенным правилам (используя пробелы, знаки препинания) выделяется и хранится некоторая последовательность из букв и цифр. При этом в качестве адресной информации можно применять путь и имя файла, адрес Web-страницы. По такой схеме действуют разработчики многих поисковых систем, например, одной из самых известных в Интернет – AltaVista компании Dec.

Недостатки указанного способа очевидны при использовании любых языков, в которых слова имеют словоформы, то есть изменяются по числам, родам, падежам, временам и др. Пользователь, начиная поиск, вынужден либо вспоминать, как точно выглядела искомая лексическая единица, либо добросовестно склонять и спрягать слова, чтобы получить полную парадигму.

Частичное решение проблемы – применение шаблонов, например, символа * (астериск) в конце слова. Такой шаблон неплохо подходит для английского языка, где большинство словоформ образуется за счет добавления окончаний – s, – ed и – ing; впрочем, но эта уловка полностью не спасает от «мусора» в результате поиска. С русским языком все обстоит гораздо сложнее. Найти с помощью шаблона многие слова невозможно в принципе, а именно:

Страница 34