Как устроены поисковые системы
Каждый день в Интернете появляются сотни новых сайтов. Для того чтобы выделиться среди общей массы и привлечь внимание к своему ресурсу, необходимо «подружиться» с поисковыми системами. Для этого нужно понимать принципы их работы.
Поисковая система работает наподобие алфавитного указателя в книге – индекса. Когда пользователь вводит в строку поиска ключевое слово, система как бы обращается к нужному столбцу и строке, находит искомое слово и показывает пользователю номер страницы сайта.
Таким образом, индекс представляет собой упорядоченный по алфавиту список слов, при каждом слове записано, с какой страницы оно взято и с какого места на странице. Для составления индекса поисковики проводят ряд действий. Их осуществляют специальные программы. «Паук», он же Spider, скачивает веб-страницы. Бот, он же Crawler, находит все ссылки сайта. Бот по ссылкам составляет путь для паука. Основные критерии их работы: полнота поиска и актуальность («свежесть») информации. Поисковые программы, составляющие индекс, посещают сайты регулярно, чтобы постоянно отражать изменения, происходящие на веб-ресурсах. Новые сайты «паук» находит самостоятельно, либо приходя по ссылке с другого сайта.
Для того чтобы были проиндексированы все страницы сайта, необходимо обеспечить проходимость по ссылкам для бота и доступность скачивания всех страниц сайта для паука. Всю собранную информацию пауки и боты передают программе-индексатору, которая формирует индекс. Сначала вся поступившая информация очищается от «нетекстового» мусора в виде тэгов, графики и прочего. Затем индексный робот выбирает из «чистого текста» все слова и располагает их по алфавиту. Слова проходят лингвистическую обработку, возвращаются к начальным грамматическим формам. Например, на сайте было найдено слово Форексом, программа его преобразует в Форекс. Это необходимо для более точного поиска и экономии места в индексе.
Индекс хранится в базе данных поисковой системы. Извлекается информация из базы данных с помощью системы выдачи результатов. Вся предыдущая работа не заметна для обычного пользователя. Он «общается» лишь с системой выдачи поисковика, которая находит в индексе запись об искомом слове и извлекает информацию о нем. Пользователь видит заголовок страницы, дату создания, ее адрес, отрывок из текста на странице с выделенным искомым словом. Запрос в несколько слов, например, литература forex, обрабатывается следующим образом: список ссылок на страницы для слова «литература» сравнивается со списком для «forex», и выбираются страницы, на которых одновременно встречаются оба слова запроса.
Важно отметить, что каждая поисковая машина ищет только в своей базе данных. Это означает, если она чего-то не нашла, то это не факт, что искомого нет в Интернете, просто этого не нашли ее программы-обработчики. Для того чтобы поисковые системы находили сайт и индексировали все его страницы необходимо правильно организовать внутреннюю структуру сайта, работу сервера, проработать точные поисковые запросы.
Смотреть другие статьи
|
Заказать бесплатную консультацию
Факт от Aminta.ru :
Сегодня в ведущих странах мира 90% коммуникаций с потребителями происходят через Интернет. |
Совет от Aminta.ru :
Превратите Ваш сайт в новый эффективный канал продаж. Изучите клиентов и сделайте адресное предложение для каждого.
Как это сделать? |
|