Беда в том, что если вы все перечисленное без задней мысли проделаете, то потеряете четыре пятых трафика, который у вас идет на эти паразитные страницы. Снова бросаемся с головой в информационный шум, выныриваем оттуда вот с такими глазами, с полной уверенностью в том, что чем больше у нас проиндексированных страниц на сайте, тем лучше он проиндексирован, чем больше трафик на сайт льется, тем круче. Да, если ваш сайт – СМИ и вы с трафика продаете рекламу, без вопросов. А если вы торгуете шинами или бриллиантами и добились того, что на ваш сайт в поисках бриллиантов заходит 50 тыс. человек в день? Чтобы радоваться этому – извините, господа, – надо быть полным глупцом! Потому что бриллиант и даже автомобильные шины – это не тот товар, который можно продать 50 тыс. покупателям. Значит, у вас столпится такая куча народа, что вы его не продадите.

Еще раз: не плодим дубли, категорически закрываем от индексации все технические страницы, в строгом соответствии с рекомендациями в «Яндексе» и Google составляем >robots.txt. На 95 % сайтов, аудит которых я проводил, >robots.txt был написан с синтаксическими (что не страшно, в общем-то) или фактическими ошибками. За последние два года мне три раза приходилось сталкиваться с тем, что сайт вылетал из индекса, поскольку веб-мастер нечаянно запретил индексацию сайта в файле robots.txt, просто написав строку >Allow без параметров, подумав, что она разрешает индексировать на сайте.

Смотрим, чтобы было с >robots.txt. В обязательном порядке проверяем, что выдает наш сервер в ответ на запрос браузера. Если ваш сервер отвечает – типичная ситуация, – что срок валидности опубликованного материала истек 1 января 1980 года, то ни о каком регулярном и системном посещении вашего сайта поисковыми роботами и речи нет. Вы можете прописать в >sitemap все параметры как положено, однако, если робот увидит эту запись в коде ответа сервера, он ваш >sitemap проигнорирует. Пустячок, но я сам был свидетелем того, как новостной сайт нормально не индексировался. После того как в полях, касающихся модификации публикаций, появились валидные даты, возникла валидная дата истечения cookie, сайт взлетел просто за счет того, что робот стал заходить практически секунда в секунду с публикуемым материалом. Грубо говоря, вы делаете технически правильный сайт и потом не платите мне 30 тыс. за то, чтобы я вам сказал: «Исправьте эту строчку в >robots.txt или закройте с помощью >noindex технические страницы».

К слову о >noindex. Он позволяет закрыть часть страницы от индексации. Проглядываю сайт, и каждое второе предложение – в >noindex. Спрашиваю у владельца сайта:

– Что это такое у тебя?

– А это я придумал такой очень хороший способ уникализации текста!

– Как так?

– Вот «Яндекс» это предложение читает, это предложение читает, это предложение, и вроде как текст уникальный.

– Да «Яндекс» у тебя все прочитает, понимаешь?

>Noindex – это «не помещать в индекс», это не значит «нельзя читать, нельзя анализировать». Это значит «прочти, проанализируй, но не помещай в индекс». На сайте «Яндекса» четко все написано в «Помощи», двоякие толкования исключены.

Очень серьезная контора, имеющая десятки сайтов по всему бывшему СССР Специфика компании вынуждает одни и те же позиции товара по 50, по 100 раз на одной странице приводить. В какой-то момент сайт перестает нормально индексироваться, все рушится, из индекса тоже много вылетает. Когда я проверяю сайт, в первую очередь смотрю >robots.txt, потом код страницы. Открываю совсем небольшую страничку – там 150 раз