17.10.2021
  2 Replies
  533 Visits
Есть ли какие-то бесплатные решения для анализа и поиска thin контента (НКС для Яндекса), т.е. парсинга сайта на предмет похожих страниц, но не одинаковых? Например, если на одних и тех же страницах может использоваться плюс/минус одинаковый текст или изображения
около 1 года назад
·
#564
Screaming Frog может находить не только дубли страниц, но и похожие (неявные дубли). Происходит это следующим образом.

— Переходим в настройки «Configuration» - «Content» - «Duplicates» и настраиваем процент пороговой схожести контента. Смотрим картинку - 1

— Далее в настройках «Configuration» - «Content» - «Area» задаем исключения и правила для анализа контента, задавая теги, классы и идентификаторы. Смотрим картинку - 2

— Парсим сайт. После окончания парса настраиваем данные для анализа парса «Crawl Analysis» - «Configure».
Смотрим картинку - 3

— Шаг 4. Выполняем анализ: «Crawl Analysis» - «Start».

— После чего во вкладке «Content», выбрав из списка «Near Duplicates» можно увидеть страницы с похожим контентом. Смотрим картинку - 4
около 1 года назад
·
#565
Итог:

▫️Для каждой страницы будет указан процент схожести, а также количество URL с похожим контентом.
▫️Во вкладке «Duplicate Details» уже можно увидеть список похожих URL для каждой из страниц: Смотрим картинку - 5
▫️Выделив URL в столбце «Near Duplicates Address» можно увидеть исходный контент, в котором будет выделены отличающиеся фрагменты: Смотрим картинку - 6

Но необходимо понимать, что таким образом мы сможем выявить лишь похожие страницы по текстовом содержимом, но не по смыслу
Вложения
  • Страница :
  • 1
На это сообщение еще не было создано никаких ответов.
Будьте первым, кто ответит на него.
Ваш ответ
Загрузите файлы или изображения для данного обсуждения, нажав на кнопку Загрузить. Поддерживает до gif,jpg,png,jpeg,zip,rar,pdf
· Инстаграм · Удалить
  Upload Files (Maximum 2MB)
Капча
Прежде чем Ваш вопрос будет опубликован, для защиты нашего веб-сайта от роботов и неавторизованных скриптов мы требуем, чтобы Вы ввели ниже код кептчи.