Заявка на услуги

Типы индексируемых поисковыми системами документов

Дата: 06.02.14

Скорее всего, что большинство пользователей ПК сталкивались с проблемой поиска нужного документа среди огромного массива файлов, папок и прочей информации, которая хранится на дисках компьютера. Конечно, после непродолжительных поисков файл получалось отыскать, но драгоценное время уже не вернуть. При этом чем больше документов на диске, тем сложнее и дольше длятся поиски. Что же говорить о том бесконечно огромном количестве электронной информации, которой обладает глобальная сеть?! На поиски нужных данных в Интернете, которые хранятся на серверах и рабочих станциях, ушли бы годы, и сам процесс можно было бы охарактеризовать как поиск иголки в стоге сена. Поэтому чтобы процедура поиска в сети не была столь утомительной, разработаны специальные поисковые системы, которые и находят нужные документы по запросам пользователей.

Известно, что в сети вся информация содержится в различных форматах и стандартах. Кроме HTML-файлов имеются неструктурированные данные (электронные таблицы, сообщения электронной почты, разные текстовые документы и т.п.).

Чтобы информация, занесённая на сайт, была найдена поисковой машиной, следует позаботиться о её индексации. Индексирование в поисковых системах – это добавление запланированных документов роботом поисковика в общую базу данных, которая в дальнейшем используется для поиска информации на уже проиндексированных ресурсах. Помощь поисковым системам в нахождении документов сайта - важный этап раскрутки сайта

Чтобы сайт был проиндексирован поисковой машиной, документ с информацией должен содержать статьи с ключевыми словами, ссылки, изображения и тому подобное. Документы должны быть определённых форматов. К примеру, Яndex.Server может поддерживать следующие форматы: html, xml, rtf, pdf, doc, mp3 и пр. При общении в локальной сети информация индексируемых документов может быть получена при использовании баз данных, например MySQL и MS SQL.

Очень часто сайты с идеальным контентом могут быть некорректно проиндексированы, поэтому часто бывают труднодоступны для просмотра пользователям сети. Такое недоразумение случается по причине недочётов разработчиков ресурса. Самыми типичными ошибками, затрудняющими индексацию и ранжирование сайта, являются документы, формат которых не индексируется. Ограничения вводятся на java скрипты, flash файлы, фреймы, редиректы и т.п.

Как же происходит индексирование документов?
Существует два варианта: либо поисковая машина сама находит сайт по ссылкам, либо веб-мастер отмечает ресурс на странице регистрации поисковой системы. В первом случае индексация может затянуться на несколько дней, во втором – следует уделить регистрации несколько минут.

Чтобы поисковая машина корректно проиндексировала сайт, следует учесть некоторые нюансы:

- Информация должна быть представлена в текстовом документе, так как текст в графическом изображении поисковик не сможет «увидеть». Исключение: индексируется текст в атрибуте ALT тэга IMG.
- Каждый документ должен быть чётко и ясно озаглавлен (тэг TITTLE), иметь в наличии ключевые слова (метатэг NAME="keywords") и обладать небольшим, но осмысленным описанием (метатэг NAME="description").
- Рекомендуется произвести вручную регистрацию сайта в поисковой системе, а затем контролировать его дальнейшее индексирование.

Стоит заметить, что база данных, которая создаётся роботами поисковых систем, постоянно совершенствуется и автоматически обновляется, при этом до сих пор нет никакой возможности проконтролировать изменения. Поэтому каждый раз при раскрутке сайтов следует требовательней подходить к процессу составления индексируемых документов.