Заявка на услуги

Общие принципы работы поисковых систем

Дата: 06.02.14

Работа всех без исключения поисковых систем основывается на тщательно продуманной структуре, которая имеет общие для всех подобных ресурсов компоненты, что необходимо учитывать при правильной раскрутке сайта.


Первый из них – модуль индексирования, включает в себя три вспомогательные программы.
Spider, или паук, служит для скачивания интернет-страниц. Указанная программа осуществляет данную операцию тем же методом, что и браузер пользователя. Различие заключается в том, что браузер показывает текстовые и графические данные, которые содержит в себе страница, а Spider не снабжен визуальными компонентами и ориентируется на взаимодействие с html-текстом веб-страницы (чтобы посмотреть html-текст в браузере, можно использовать специальные функции). В чем состоит цель работы паука? Он, используя протоколы HTTP, производит скачивание страницы и позволяет извлечь набор внутренних ссылок с данной страницы. Данные веб-страницы, полученные при скачивании, сохраняются с указанием следующей информации: URL, дата скачивания страницы, http-заголовок ответа сервера и тело страницы (html-код).
Следующая программа – Crawler, или «путешествующий» паук, в автоматическом режиме проходит по существующим на странице ссылкам. Она выделяет те ссылки, которые имеются на странице, и на их основе осуществляет поиск по сайту новых документов для ознакомления с ними поисковой системы.
Что же касается Indexer (робота-индексатора), то данная программа производит анализ веб-страниц, которые были скачаны при помощи Spider и Crawler. Робот-индексатор разделяет страницу на отдельные компоненты и подвергает их разбору, ориентируясь на имеющиеся в базе лексические и морфологические алгоритмы. Анализу подлежат такие составные части, как заголовки, контент, ссылочное наполнение, структурные и стилевые особенности ресурса, служебные html-теги и т.д. Данная информация позволяет сделать вывод, что модуль индексирования предоставляет массу возможностей, начиная от осуществления прохождения по ссылкам определенного количества сайтов, произведения скачивания встречающихся страниц, получения из существующих документов ссылок на новые страницы и заканчивая анализом полного объема информации, содержащейся на сайте.
Database, или база данных, которую иначе называют индексом поисковой системы, представляет собой определенную систему хранения информации. Она содержит в себе соответствующим образом измененные характеристики всех скачанных и обработанных при помощи модуля индексирования документов.
Однако наиболее важной составляющей частью поисковых систем является поисковый сервер, который занимается ранжированием интернет-страниц. Именно он определяет, какие страницы соответствуют запросу пользователя и каким должен быть порядок, в котором они будут отсортированы. Причина повышенного внимания к данному компоненту состоит в том, что алгоритмы, заложенные в основу ее функционирования, существенно влияют на качество и скорость поиска. Процесс работы сервера осуществляется следующим образом. Запрос, который система получает от пользователя, подлежит подробному морфологическому анализу. Создается информационная база каждого из документов, которые находятся в таблице поисковой системы. Она выводится на экран в виде сниппета – показанного на странице отображения результатов поиска, соответствующего запросу контента, с включенными в него ключевыми словами. Эта информация в качестве входных параметров транслируется соответствующему модулю ранжирования. Таким образом, осуществляется обработка сведений по всем документам, и в результате для каждого документа отображается собственный рейтинг, который описывает степень соответствия запроса, полученного от пользователя, и различных компонентов данного документа, которые находятся в базе данных поисковой системы. В зависимости от требований пользователя данный рейтинг может быть дополнен или изменен при указании соответствующих условий. Подобная операция называется расширенным поиском. Впоследствии создается сниппет – для каждого документа из имеющегося списка генерируется заголовок, лаконичная аннотация, в наибольшей степени соответствующая запросу, и ссылка на документ (что показательно, найденные слова для удобства выделяются).
В завершение результаты поиска транслируются задавшему запрос в виде SERP (Search Engine Result Page), представляющего собой страницу выдачи данных результатов.
Согласно рассмотренной информации, можно сделать вывод, что все вышеописанные составные части тесно взаимосвязаны и функционируют лишь во взаимодействии, создавая сложный, но четкий механизм работы поисковой системы, который нуждается в затрате существенного объема ресурсов.