Поисковая система Google непрерывно борется за качество результатов поиска. Основными критериями качества поисковой выдачи являются: релевантность, актуальность, полнота результатов поиска. Если за релевантность отвечают алгоритмы ранжирования, то определение актуальности и полноты — задача алгоритмов сканирования (краулинг) и хранения (индексирования) информации.
При сканировании огромного объема информации в сети поисковая система сталкивается с проблемой ограниченности ресурсов для хранения данных. Одним из инструментов оптимизации базы (индекса) поисковой системы является механизм supplemental results (дополнительный индекс Гугла), который компания Google реализовала в 2003 году .
В дополнительный индекс Гугла попадают низкокачественные документы (страницы), которые не соответствуют критериям качества поисковой системы. За счет отсеивания низкокачественных страниц во второстепенный индекс Гугл оптимизирует объем и качество основного индекса.
Негативное влияние supplemental results
-
Документы (страницы) с второстепенного индекса не участвуют в ранжировании и, как следствие, не привлекают трафик на сайт.
-
На общее ранжирование сайта негативно влияет наличие во второстепенном индексе большого количества страниц. Крайне важно, чтобы во второстепенном индексе было как можно меньше страниц.
Причины попадания страниц в supplemental index
Ключевая причина попадания страницы в дополнительный индекс — на странице нет полезного для посетителей контента.
-
На странице нет уникального контента (контент скопирован с другого источника).
-
Пустая страница (страница не содержит текстового наполнения/иллюстраций/видео).
-
Страница содержит дублированный контент в рамках одного сайта (страницы пагинации, версий для печати, неоптимизированные страницы фильтраций).
-
Страница имеет очень большой уровень вложенности (более 4).
Как определить, что страница находится в дополнительном индексе?
Раньше для обнаружения страниц в дополнительном индексе использовался поисковый запрос формата:
site:site.com -site:site.com/&,
где site.com — домен анализируемого сайта.
Результатом такого запроса был список страниц, который находится во второстепенном индексе.
К сожалению, сейчас данная команда не работает. Единственный способ обнаружить попадание страниц сайта во второстепенный индекс — перейти на последнюю страницу результатов поиска по запросу:
site:site.com,
где site.com — домен анализируемого сайта,
и выявить наличие строки: «Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше».
Как вывести/удалить страницы из второстепенного индекса?
-
Наполнить страницы уникальным контентом.
-
Удалить с дополнительного индекса страницы, которые не содержат полезный контент:
а) закрыть страницы от индексации через мета-тег robots;
b) настроить на странице 301 редирект на страницу, содержащую полезный контент;
c) использовать свойство rel=«canonical» для указания страницы с полезным контентом.
-
Перестроить структуру сайта таким образом, чтобы уровень вложенности страниц был не выше4-го.
Выполнив указанные действия, вы сократите количество страниц в supplemental index и увеличите объем трафика с поисковых систем.