Что такое дубли страниц на сайте. Как найти и удалить дубли страниц

Дубли страниц на сайтах, имеющих движок встречаются практически всегда. Это связано с тем, что разработчики не учли множество нюансов связанных с SEO. Поэтому вопросы с дублями приходится решать оптимизаторам совместно с вебмастерами.

Оглавление
1. Что такое дубли страниц на сайте
2. Почему важно бороться с дублями страниц
3. Как найти дубли страниц на сайте
3.1. Программы сканнеры
3.2. Онлайн сервисы
3.3. Через запросы
3.4. Потенциальные дубли
4. Как удалить дубли сайта из индекса
4.1. Дубли за счет www и без www
4.2. Дубли за счет сортировок и лишних страниц каталога
4.2.1. Через мета тег meta robots
4.2.2. Через robots.txt

1. Что такое дубли страниц на сайте

Дубли страниц — это страницы, имеющие разные URL (адрес), но одинаковое содержания.

Например, одна и та же страница доступна по адресам (код ответа 200):

/category/razdel.html
/category/razdel/

Подобных примеров с дублями страниц можно привести очень много. При этом даже если содержание страницы будет немного другое очень важное значение имеет то, что название страницы, которое прописывается в тегах <title> и <h1> может совпадать. Этого уже достаточно, чтобы создать себе сложности в поисковых системах.

Чаще всего проблемы с множеством дублей встречаются в интернет-магазинах. Их каталоги как правило выводится через страницы с номерами:

Адреса этих страниц заканчиваются на page=N, где N-номер страницы. Тайтлы и заголовки никто у каждой страницы естественно никто не меняет. Итого на сайте может присутствовать десятки страниц с одинаковыми заголовками. Например:

/category/kosmetika?page=1
/category/kosmetika?page=2
/category/kosmetika?page=3

А ещё часто добавляют и параметр сортировки sort=alf, тогда количество дублей начинает расти ещё быстрее:

/category/kosmetika?page=1&sort=alf
/category/kosmetika?sort=alf&page=1
/category/kosmetika?sort=alf
/category/kosmetika?page=1

Возможны и другие варианты сортировок. Получаем, что один тайтл выводится на десятках и даже сотнях страниц с разными URL.

2. Почему важно бороться с дублями страниц

Поисковая машина ранжирует документы согласно алгоритму. Например, пользователь задал какой-то запрос в поисковике, а у вас на сайте есть множество страниц с одинаковым заголовком. Какую из этих страниц надо выдать поисковой машине? Непонятно. Также это снижает внутренний вес других страниц. Снижается траст сайта.

Дубли страниц оказывают негативное влияние на весь сайт в целом. При этом решить эту проблему можно довольно простыми способами. Давайте для начала кратко рассмотрим варианты поиска дублей страниц.

3. Как найти дубли страниц на сайте

Хочу отметить тот факт, что я рекомендую искать дубли страниц не только уже проиндексированных страниц, но и будущих. Я кратко опишу некоторые приемы поиска дублей. Начнем с самых простых.

3.1. Программы сканнеры

Обычно программы-сканеры хорошо ищут дубли страниц внутри сайта переходя по ссылкам. В этом есть большой минус, т.к. если на какую-то доступную страницу нету ссылки, то сканнер просто не сможет её найти.

Бесплатными сканнерами сайта являются:

Netpeak spider;
Xenu;

Возможно, на момент прочтения статьи появились более новые бесплатные программы.

3.2. Онлайн сервисы

Существует несколько онлайн сервисов для сканирования всего сайт. Для огромных проектов они не подойдут, поскольку будут иметь ограничения. Например, бесплатный анализ на момент написания составлял 500 страниц.

В сервисах Яндекс Вебмастер и Google Вебмастер есть специальный разделы в оптимизации HTML, где можно найти повторяющиеся заголовки. Наверное, это один из самых доступных и легких способов для поиска дублей.

3.3. Через запросы

Есть возможность попробовать поискать дубли страниц через запросы в поиске Яндекса и Гугла повторяющиеся заголовки

Для Яндекса:
site: urlsite.ru title:(запрос)

Для Google:
site: urlsite.ru intitle:запрос

Где urlsite.ru - адрес проекта. Однако этот способ поможет выявнить глобальные проблемы движка, что впрочем мы и хотели.

3.4. Потенциальные дубли

Вполне вероятно, что нее все страницы сайта доступные для индексации находятся в индексе. Но лучше заранее предупредить возможность индексации дублей документов. Например, многие движки любят отдавать корректный ответ сервера по следующим адресам:

/category/razdel
/category/razdel/category/
/category/razdel/category/category/category/category/

Если у вас есть конкурент в выдаче (зачастую он есть), то он может легко насолить вам просто добавив пару ссылок на такие страницы. При этом появлятся катастрофичное число новых страниц, поскольку, как правило, все ссылки внутри сайта относительные.

/category/razdel/tovar1.html
/category/razdel/category/tovar1.html
/category/razdel/category/category/category/category/tovar1.html

4. Как удалить дубли сайта из индекса

Дубли страниц бывают разные и бороться с ними нужно по разному. Рассмотрим все возможные случаи.

4.1. Дубли за счёт доступности сайта по www и без www

Начнём с самого часто встречающейся ситуации, когда проект доступен по www и без www:

www.site.ru/cat/
site.ru/cat/

Эту ситуацию легко поправить: в конфигуровочном файле .htaccess (лежит в корне файлов сайта) прописать соответствующие директивы:

Редирект без www на страницу сайта с www (site.ru -> www.site.ru)

RewriteEngine On
RewriteCond %{HTTP_HOST} ^site.ru
RewriteRule (.*) http://www.site.ru/$1 [R=301,L]

Для обратного редиректа с www на без www (www.site.ru -> site.ru)

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.site.ru
RewriteRule (.*) http://site.ru/$1 [R=301,L]

4.2. Дубли за счет сортировок и лишних страниц каталога

Каждый такой случай нужно рассматривать более индивидуально, но общие рецепты можно существуют. Рассмотрим два варианта.

4.2.1. Через мета тег meta robots

Если есть возможность прописать директиву meta на дублях страниц, то сделайте это:

...
<head>
<meta name="robots" content="noindex,nofollow">
</head>
...

Будьте осторожны! Закрывающий тег robots должен выводиться только на страницах:

/category/kosmetika?page=2
/category/kosmetika?page=3
/category/kosmetika?page=4
/category/kosmetika?page=4&sort=alf

Но не на всём сайте! Сделать это несложно. Например в php можно прописать

if($_GET['page'] != "" || $_GET['sort'] != "")
	{
		echo "<meta name="robots" content="noindex,nofollow";
	}
	else
	{
		echo "<meta name="robots" content="all";
	}

4.2.2. Через robots.txt

В корне сайта есть файл robots.txt. В нём можно прописать правила индексирования сайта. При этом сделать это даже проще, чем прописывать теги meta. Но если первый способ сработает на 100%, то, задавая запрет индексации через robots.txt, мы даём лишь рекомендацию поисковым машинам не индексировать соответствующие документы. Рекомендация ещё не означает гарантию на исключения из индекса.

← Перейти в каталог seo статей

Дубли страниц сайта — как найти и удалить самостоятельно