Screaming frog seo spider инструкция

1238

14.06.2023 | Время чтения: 49 минут

Facebook

Автор: Collaborator

Screaming Frog SEO Spider: инструкция, полный гайд 2023

Оглавление

Новые функции Screaming Frog
- Как найти дублированный контент на сайте
- Как посмотреть процент совпадения контента
- Проверка орфографии и грамматики
- Улучшенные данные ссылок — положение ссылки, тип пути и цель
- Как посмотреть положение ссылки в Screaming Frog
- Проверки безопасности в Screaming Frog Spider: протоколы HTTP и HTTPS
Как запустить полный парсинг сайта в Screaming Frog SEO
- Как провести сканирование всего сайта
- Как настроить Screaming Frog на проверку одной папки
- Как проверить субдомены и подкаталоги: настраиваем Screaming Frog под себя
- Как собрать все страницы на сайте
- Как получить список всех страниц в отдельном подкаталоге
- Как найти все субдомены на сайте с помощью Screaming Frog и проверить внешние ссылки
- Как сделать анализ интернет-магазина и других крупных сайтов при помощи Screaming Frog Spider
- Как проверить сайт, который хранится на старом сервере
- Как сделать анализ сайта, который требует cookie
- Может ли Screaming Frog проверить страницы, требующие аутентификации?
Поиск внутренних и внешних ссылок в Screaming Frog
- Как получить информацию про все внутренние и внешние ссылки на сайте
- Как найти битые внутренние ссылки на страницу или на сайт
- Как использовать инструмент Screaming Frog SEO Spider для проверки исходящих ссылок
- Как найти ссылки с редиректом
- Использование SEO Spider при внутренней перелинковке
Проверяем контент сайта с помощью Screaming Frog
- Как найти страницы с минимальным количество контента
- Как получить список ссылок на изображения на конкретной странице
- Проверка alt для изображений
- Как найти CSS файлы
- Как найти JavaScript файлы
- Как определить все jQuery плагины на сайте и на каких страницах они используются
- Как найти внутренние PDF файлы, на которые есть ссылка
- Как найти страницы с кнопкой «Поделиться» в соцсетях
- Как найти страницы, которые используют фреймы
- Как найти страницы со встроенным видео и аудио контентом
Проверка мета-данных: как найти дубли title и descriptions
- Как найти страницы с длинными метаданными
- Как найти дубли title и descriptions
- Как найти дублированный контент на сайте?
- Как найти страницы с meta-директивами noindex, nofollow и др.
- Можно ли проверить файл robots.txt?
- Как найти или проверить микроразметку на сайте
Создание и проверка Sitemap в Screaming Frog
- Как создать Sitemap XML
- Как создать Sitemap XML, загрузив URL
- Как проверить существующий Sitemap XML
Другие технические проблемы, которые поможет решить Screaming Frog
- Почему конкретный раздел сайта не индексируется или не ранжируется
- Как проверить, был ли перенос сайта успешным
- Как найти страницы с низкой скоростью загрузки
- Как найти вредоносный софт или спам на сайте
Проверка PPC и аналитика
- Как проверить список PPC URLов
Очистка информации в Seo Frog Spider
- Как очистить мета данные для списка страниц
- Как очистить сайт от страниц, которые содержат определенную информацию
Переименование URLов в настройках программы
- Как найти и заменить id сессий или другие параметры на проверенных страницах
- Как переименовать проверенные URLы
Анализ ключевых слов конкурентов
- Как узнать самые важные страницы моих конкурентов
- Какие анкоры используют мои конкуренты во внутренних ссылках
Как найти исходящие ссылки сайта и использовать для линкбилдинга
- Как получить список перспективных местоположений для ссылок
- Как найти битые ссылки для возможностей аутрича
- Как проверить обратные ссылки и посмотреть анкорный текст
- Как убедиться, что обратные ссылки были удалены
- Бонусный раунд
Как редактировать мета-данные
- Как проанализировать сайт на JavaScript

Представляем перевод полного и обновленного гайда по использованию инструмента для SEO-аудита сайта Screaming frog SEO Spider. Ниже вы найдете полный список актуальных на 2021 год рекомендаций о том, как SEO и PPC-специалисты и digital-маркетологи могут использовать Screaming frog для оптимизации рабочего процесса.

Когда мы писали инструкцию, проанализировали, что чаще все пользователи ищут по данной программе:

Как скачать Screaming Frog?
Как пользоваться Screaming Frog SEO Spider?
Как запустить полный парсинг сайта в Screaming Frog SEO?
Как сделать технический аудит сайта при помощи Screaming Frog SEO?
Как использовать инструмент Screaming Frog SEO Spider для проверки обратных ссылок?

На эти и многие другие вопросы дадим ответы в статье.

1 июля 2020 года Screaming Frog SEO Spider представил новую версию с кодовым названием «Карантин».

Чтобы найти дублрованный контент, нужно перейти во вкладку «Content», которая содержит фильтры для «Near Duplicates» и «Exact Duplicates».

поиск дублей в Screaming Frog

Несмотря на отсутствие штрафов за дублирование контента, наличие похожих страниц может вызывать проблему неэффективности сканирования и индексации. Похожие страницы нужно свести к минимуму, поскольку высокое сходство — признак некачественных страниц.

Для «Near Duplicates» SEO Spider покажет вам наиболее близкий процент совпадения, а также неочевидные дубли для каждого URL. Фильтр «Exact Duplicates» использует ту же алгоритмическую проверку для идентификации идентичніх страниц, которые ранее назывались «Duplicate» во вкладке «URL».

В новой вкладке «Near Duplicates» используется алгоритм minhash, который позволяет вам настроить почти одинаковое пороговое значение, которое по умолчанию установлено на 90%. Это можно настроить через Config > Content > Duplicates.

Screaming Frog: как найти дублирующийся контент

Семантические элементы, такие как навигация и нижний колонтитул, автоматически исключаются из анализа содержимого, но вы можете детализировать его, исключив или включив элементы HTML, классы и идентификаторы. Это может помочь сосредоточить анализ на основной области контента, избегая известного шаблонного текста. Он также может быть использован для обеспечения более точного подсчета слов.

Настройка Screaming Frog SEO Spider

Рядом с дубликатами требуется заполнение анализа после сканирования, а более подробную информацию о дубликатах можно увидеть на новой нижней вкладке «Duplicate details». При этом отображаются все идентифицированные почти одинаковые URL-адреса и их совпадения.

Screaming Frog: Duplicate details

Кликнув на «Near Duplicate address» во вкладке «Duplicate details», вы увидите неочевидный дублированный контент, обнаруженный среди страниц.

Screaming Frog: как найти неочевидный дублированный контент

Близкий к дублирующемуся порог содержания и область контента, используемые в анализе, могут быть обновлены после сканирования.

Вкладка «Content» также включает в себя фильтр «Low Content Pages», который идентифицирует страницы, содержащие менее 200 слов, используя улучшенный подсчет. Это можно настроить в соответствии с вашими предпочтениями в Config > Spider > Preferences, поскольку не существует универсального критерия для минимального количества слов в SEO.

Как проверить орфографию и грамматику при помощи Screaming Frog? Новая вкладка «Content» содержит фильтры для «Spelling Errors» и «Grammar Errors» и отображает счетчики для каждой просканированной страницы.

Как проверить орфографию и грамматику в Screaming Frog

Вы можете включить проверку орфографии и грамматики Config > Content > Spelling & Grammar.

Хотя это немного отличается от обычных SEO-ориентированных функций Screaming Frog, в основном роль разработчиков заключается в улучшении веб-сайтов для пользователей. Рекомендации Google по оценке качества поиска неоднократно описывают орфографические и грамматические ошибки как одну из характеристик некачественных страниц.

Как найти орфографические и грамматические ошибки в Screaming Frog

В правой части вкладки сведений также отображается визуальный текст со страницы и найденные ошибки.

Screaming Frog: как найти ошибки в контенте

На вкладке «Spelling & Grammar» на правой панели отображаются 100 обнаруженных уникальных ошибок и количество URL-адресов, на которые они влияют. Это может быть полезно для поиска ошибок в шаблонах, а также для построения вашего словаря или списка игнорируемых слов.

Screaming Frog: поиск ошибок на сайте

Новая функция проверки орфографии и грамматики Screaming Frog будет автоматически определять язык, используемый на странице через атрибут языка HTML, но также позволит вам вручную выбирать его при необходимости.

Screaming Frog: функция проверки орфографии и грамматики

В настройках Screaming Frog SEO Spider можно обновить проверку орфографии и грамматики, чтобы отразить изменения в своем словаре, игнорировать список или правила грамматики без повторного сканирования URL-адресов.

Screaming Frog: функция проверки орфографии и грамматики

Вы можете экспортировать все данные через меню Bulk Export > Content.

Как проверить орфографию и грамматику в Screaming Frog

Теперь Screaming Frog SEO Spider записывает некоторые новые атрибуты для каждой ссылки.

Чтобы посмотреть положение каждой ссылки в сканировании, например, в навигации, в содержимом страницы, на боковой панели или в нижнем колонтитуле, посмотрите результаты сканирования. Классификация выполняется с использованием пути каждой ссылки (как XPath) и известных семантических подстрок, которые можно увидеть на вкладках «Inlinks» и «Outlinks».

Screaming Frog: проверить положение ссылки

Если ваш сайт использует семантические элементы HTML5 (или хорошо именованные несемантические элементы, такие как div id = «nav»), SEO Spider сможет автоматически определять различные части веб-страницы и ссылки внутри них.

Screaming Frog: узнать положение ссылки

Но не каждый веб-сайт построен таким образом, поэтому вы можете настроить классификацию позиций ссылок в Config > Custom > Link positions. Это позволяет вам использовать подстроку пути ссылки, чтобы классифицировать ее, как вы хотите.

Например, у нас есть ссылки мобильного меню за пределами элемента nav, которые определены как ссылки c контента. Это неверно, так как они являются дополнительной навигацией по мобильному телефону.

Как проверить положение ссылки в Screaming Frog

Имя класса «mobile-menu__dropdown» (которое находится в пути ссылки, как показано выше) можно использовать для определения правильной позиции ссылки с помощью функции «Links Positions». Ниже смотрите, как корректно настроить программу Screaming Frog Seo Spider.

определение позиции ссылки в Screaming Frog

Эти ссылки будут затем правильно отнесены к навигационным ссылкам.

Это может помочь определить входящие ссылки на страницу только из содержимого контента, например, игнорируя любые ссылки в основной навигации или нижний колонтитул для лучшего анализа внутренних ссылок.

Как узнать абсолютные и относительные ссылки

Screaming Frog позволяет узнать тип пути ссылки (абсолютный, относительный, протокольный или корневой). Его можно увидеть в ссылках, исходящих ссылках и во всех массовых экспортах.

Проверка абсолютных и относительных ссылок в Screaming Frog

Это может помочь идентифицировать ссылки, которые должны быть абсолютными, поскольку при некоторых обстоятельствах возникают проблемы с целостностью, безопасностью и производительностью. Вы можете отсортировать и выгрузить только абсолютные ссылки.

Целевой атрибут target ссылки

Кроме того, теперь вы можете посмотреть атрибут «target», чтобы обнаружить ссылки, которые используют «_blank» для открытия в новой вкладке.

Screaming Frog: проверить целевой атрибут target ссылки

Это полезно при анализе удобства использования, а также производительности и безопасности, что приводит нас к следующей функции.

Как поверить безопасность сайта или протоколы http, https? В настройках программы Screaming Frog Spider вкладка «Protocol» была переименована в «Security», и были введены более современные проверки и фильтры, связанные с безопасностью.

Несмотря на то, что SEO Spider уже смог идентифицировать HTTP-URL, смешанный контент и другие небезопасные элементы, отображение в фильтрах помогает легче их обнаружить.

Как найти смешанный контент с помощью Screaming Frog:

Screaming Frog: проверка безопасности http или https

Вы можете быстро найти смешанный контент, проблемы с небезопасными формами, небезопасные ссылки на разные источники, относящиеся к протоколу ссылки на ресурсы, отсутствующие заголовки безопасности и многое другое.

Старый незащищенный отчет о содержимом также сохраняется, поскольку он проверяет все элементы (канонические, hreflang и т. д.) на наличие небезопасных элементов и полезен для миграций HTTPS.

Новые введенные проверки безопасности сосредоточены на наиболее распространенных проблемах, связанных с SEO, производительностью и безопасностью сети, но эта функциональность может быть расширена, чтобы охватить дополнительные проверки безопасности на основе отзывов пользователей.

Чтобы запустить полный парсинг сайта в Screaming Frog SEO, неплохо сперва оценить, какую информацию вы хотите получить, насколько большой сайт и какую часть сайта нужно проверить для полноты картины. В случае с большими сайтами лучше ограничить анализируемую зону до подсекции URLов, чтобы получить показательный образец данных. Это сохраняет размер файлов и экспортные данные более управляемыми. Дальше мы еще вернемся к этим деталям.

Для полного парсинга сайта со всеми поддоменами вам нужно будет немного поменять настройки перед началом. Это связано с тем, что по умолчанию Screaming Frog проверяет только поддомены, которые вы ввели. Другие дополнительные будут рассматриваться алгоритмом как внешние ссылки. Чтобы проверить дополнительные поддомены, вам нужно изменить настройки в меню Configuration. Выбрав Spider > Crawl all Subdomains, вы убедитесь, что алгоритм сканирует любые встречающиеся ссылки на поддомены вашего сайта.

Шаг 1 — настраиванием парсинг домена и поддоменов

Шаг 2 — настраиваем проверку всего сайта

Если вы начали сканирование с конкретной вложенной папки и все еще хотите, чтобы Screaming Frog проверил весь сайт, отметьте «Crawl Outside of Start Folder».

Технический аудит сайта при помощи Screaming Frog

Совет Pro — исключаем сканирование картинок, CSS и Javascript

Чтобы в Screaming Frog отключить сканирование изображений, CSS и Javascript файлов, снимите галочки с ненужных элементов. Это позволит сохранить время и место на диске (уменьшить размер сканируемых файлов).

screaming frog seo spider инструкция

Чтобы в настройках Screaming Frog Seo Spider ограничить проверку единственной папкой, просто введите URL и нажмите старт без изменения каких-либо настроек по умолчанию. Если вы перезаписали начальные настройки, сбросьте конфигурации по умолчанию в меню File > Configuration > Clear Default Configuration. Смотрите инструкцию ниже.

screaming frog: как проверить одну папку

Если вы хотите начать проверку в конкретной папке, но продолжить в оставшемся поддомене, выберите «Crawl outside of start folder» в меню Configuration перед вводом начального URL. Этот скрин поможет разобраться в настройках.

screaming frog: проверка папки на одном поддомене

Чтобы в Screaming Frog ограничить проверку конкретным рядом субдоменов или подкаталогов, вы можете использовать RegEx для установки этих правил в Include или Exclude настройках в меню Configuration.

Исключение

В этом примере мы просканировали каждую страницу на seerinteractive.com, исключая страницу «About» в каждом субдомене.

Шаг 1 — прописываем правила исключения

Откройте Configuration > Exclude; используйте шаблонное выражение для идентификации URLов или параметры, которые вы хотите исключить.

Screaming Frog Seo Spider: гайд, инструкция

Шаг 2 — тестируем, как будет работать исключение

Протестируйте выражение, чтобы убедиться в наличии страниц, которые должны быть исключенными, перед началом проверки.

Screaming Frog Seo Spider: гайд, инструкция

Включение

В примере ниже мы хотели сделать сканирование командной вложенной папки на seerinteractive.com. Используйте вкладку «Test» для проверки нескольких URLов, чтобы убедиться в корректной настройке RegEx для дополнительного правила.

Это отличный способ проверки крупных сайтов. К тому же, Screaming Frog рекомендовали этот метод, если вам нужно разделить и проверить большой домен.

Screaming Frog Seo Spider: гайд, инструкция

По умолчанию Screaming Frog проверяет все изображения, JavaScript, CSS и flash файлы.

Чтобы в Screaming Frog собрать все страницы сайта (только HTML), уберите галочку с «Check Images», «Check CSS», «Check JavaScript» и «Check SWF» в меню Configuration.

Screaming Frog: как получить список всех страниц на сайте

Когда вы отключите вышеуказанные опции, Screaming Frog Seo Spider соберет все страницы на сайте с внутренними ссылками на них.

Как только проверка закончится, выберите вкладку «Internal» и отфильтруйте результаты по «HTML». Нажмите «Export» и у вас будет полный список страниц в формате CSV. Посмотрите инструкцию, как пользоваться данной фукцией.

Получить список страниц HTML в Screaming Frog

Совет Pro — сохраняйте настройки Screaming Frog

Screaming Frog позволят сохранить настройки, которые вы ипользуете для каждой проверки:

Сохранение настроек в Screaming Frog

В дополнении к сбросу «Check CSS», «Check CSS», «Check JavaScript» и «Check SWF» вы также захотите сбросить «Check links outside folder» в настройках. Если вы отключите эти настройки и выполните сканирование, то дополнительно получите список всех страниц в начальной папке.

Существует несколько способов найти все субдомены на сайте.

Способ 1 — используйте Screaming Frog для распознавания всех субдоменов на указанном сайте.

Перейдите в Configuration > Spider и убедитесь, что опция «Crawl all Subdomains» выбрана. Это поможет проверить любой связанный субдомен во время сканирования. Заметьте, что субдомены, на которые нет ссылок, не найдутся.

Screaming Frog: как проверить внешние ссылки

Способ 2 — используйте Google, чтобы найти все проиндексированные поддомены.

Используя расширение Scraper Chrome и продвинутых операторов поиска, можно найти все индексируемые субдомены для заданного домена.

Шаг 1 — использование операторов site и inurl

Начните с использования поискового оператора site: в Google чтобы ограничить результаты для конкретного домена. Затем используйте поисковый оператор -inurl, чтобы сузить результаты поиска, удалив основной домен. После этого вы начнете видеть список проиндексированных Google субдоменов, которые не содержат основного домена. Проверить внешние ссылки Google

Шаг 2 — используйте расширение Scraper

Используйте расширение Scraper для извлечения результатов в Google таблицу. Для этого кликните правой кнопкой по ссылке в SERP, выберите «Scrape similar» и экспортируйте в Google Doc.

Шаг 3 — уберите лишние данные

В Google Docs используйте следующую функцию для обрезки URL в субдомене:

=LEFT(A2,SEARCH(«/»,A2,9))

Этот гайд поможет убрать любые подкаталог, страницу или имя файла в конце сайта. Функция указывает таблице или Excel вернуть то, что стоит слева от косой черты. Начальный номер 9 существенный, поскольку мы просим начать поиск косой черты после 9 символа. Это учитывается для протокола https:// длинною в 8 символов.

Дедуплицируйте список и загрузите его в Screaming Frog в режиме списка.

Screaming Frog Seo Spider: инструкция, как пользоваться

Вы можете вставить список доменов вручную, использовать функцию или загрузить файл CSV.

Screaming Frog Seo Spider: как пользоваться, инструкция Способ 3 — найдите субдомены в Screaming Frog

Введите корневой URL домена в инструментарий, который поможет найти сайты на том же IP адресе. В качестве альтернативы используйте специально предназначенные поисковые системы, например FindSubdomains. Создайте бесплатный аккаунт для входа и экспортируйте список субдоменов. Затем выгрузите список в Screaming Frog используя режим списка.

По завершению сканирования, вы сможете увидеть коды состояний, а также любые ссылки на домашние страницы субдоменов, тексты анкоров и дублированные title страниц и т. д.

Подходит ли Screaming Frog для парсинга крупных сайтов? Изначально Screaming Frog не был предназначен для проверки сотен и тысяч страниц, но благодаря некоторым апдейтам, мы приближаемся к этому.

Последняя версия Screaming Frog была обновлена, чтобы использовать хранилище базы данных для проверки. В версии 11.0 Screaming Frog позволил пользователям выбрать сохранение всех данных на диск в базе данных вместо того, чтобы хранить их в оперативной памяти. Это сделало возможным проверку крупных сайтов.

В версии 12.0 алгоритм автоматически сохранял результаты проверки в базу данных. Поэтому они остаются доступными через File > Crawls, на случай, если вы запаникуете и удивитесь, куда делась открытая команда.

Хотя сканирование базы данных помогает Screaming Frog лучше управлять большими проверками, это не единственный способ проверить большой сайт.

Что нужно для парсинга Screaming Frog Spider больших сайтов:

Вы можете увеличить распределение памяти.
Разбить проверку на подкаталоги или проверить только конкретные части сайта, используя настройки Include/Exclude.
Вы можете не выбирать изображения, JavaScript, CSS и flash файлы. Отменив эти опции в настройках Screaming Frog Seo Spider, вы сохраните память для cканирования только HTML.

Совет Pro — приостанавливайте сканирование при необходимости

До недавних пор, Screaming Frog SEO Spider мог приостановить или уронить проверку крупного сайта. Сейчас, с хранением в базе данных по умолчанию вы можете восстановить проверку на том месте, где остановились. К тому же вы имеете доступ к очереди URLов на случай, если вы захотите исключить или добавить дополнительные параметры для проверки большого сайта.

Screaming Frog: проверка крупных сайтов

В некоторых случаях старые сервера могут не обрабатывать определенное количество запросов по умолчанию в секунду. К слову, мы рекомендуем установить этот лимит, чтобы соблюдать этикет сервера. Лучше всего дать клиенту знать, когда вы планируете проверку сайта на случай защиты от неизвестных пользовательских агентов. В этом случае они могут внести ваш IP в белый список до того, как вы начнете сканировать сайт. В противной ситуации вы отправите слишком много запросов на сервер и случайно уроните сайт.

Для изменения скорости проверки, откройте Configuration > Speed и во всплывающем окне выберите максимальное количество потоков, которые должны выполняться одновременно. В этом меню вы также можете выбрать максимальное количество запросов URL в секунду. Screaming Frog Seo Spider: настройка количества потоков

Совет Pro — увеличивайте Response Timeout в настройках

Если результат проверки выдаст много ошибок сервера, перейдите в Configuration > Spider > Advanced в настройках и увеличьте значение «Response Timeout» и «5xx Response Retries», чтобы получить лучшие результаты.

Screaming Frog Response Timeout

Screaming Frog Seo Spider позволяет сканировать сайты, которые требуют cookies. Хотя поисковые роботы не принимают cookies, если вы сканируете сайт и вам нужно разрешить их, просто перейдите в Configuration > Spider > Advanced и выберите «Allow Cookies».

Как сделать анализ сайта, который требует cookie

Да, в настройках Screaming Frog можно управлять аутентификацией. Когда алгоритм Screaming Frog сталкивается с защищенной паролем страницей, появляется всплывающее окно, в котором вы можете ввести требуемые логин и пароль.

Аутентификация на основе форм — это мощная функция, которая может требовать JavaScript для эффективной работы.

Обратите внимание, что аутентификация на основе форм должна использоваться нечасто и только продвинутыми пользователями. Алгоритм запрограммирован так, что он нажимает на каждую ссылку на странице. Так что это потенциально может отразиться на ссылках, которые создают посты или даже удаляют данные.

Для управления аутентификацией, перейдите в Configuration > Authentication.

Чтобы выключить запросы аутентификации перейдите в Configuration > Authentication и снимите отметку с «Standards Based Authentication».

Screaming Frog: выключить запросы аутентификации

Если вам не нужна информация про JavaScript, CSS и flash файлы, отключите эти опции в меню настроек для экономии времени обработки и памяти.

Screaming Frog: найти внутренние и внешние ссылки на сайте

Как только алгоритм закончит сканирование используйте Bulk Export меню «All links» для экспорта CSV. Вы узнаете про расположение всех ссылок вместе с соответствующими текстами анкоров, директивами и т.д.

Все ссылки могут представлять собой большой отчет. Помните об этом при экспорте. Для больших сайтов экспорт может занять время.

Для быстрого подсчета количества ссылок на каждой странице откройте вкладку «Internal» и выполните фильтрацию по «Outlinks». Все, что окажется больше 100, может потребовать пересмотра.

Screaming Frog: внутренние и внешние ссылки на сайте

Screaming Frog Seo Spider позволяет найти битые страницы. Как только алгоритм закончит проверку, отфильтруйте результаты во вкладке «Internal» по «Status Code». Все 404, 301 и страницы с другим статусом будут показаны.

Кликнув по любому отдельному URL в результате проверки, вы увидите изменение информации внизу программного окна. Нажав на вкладку «In Links» внизу окна, вы найдете список страниц, которые привязаны к выбранным URL, вместе с анкорным текстом и директивами, использованными на этих ссылках. Вы можете использовать это свойство для мониторинга страниц, на которых нужно обновить внутренние ссылки.

Для экспорта полного списка страниц с битыми или редиректными ссылками, перейдите в Bulk Export > Response Codes и выберите «Redirection (3xx) In Links», «Client Error (4xx) In Links» или «Server Error (5xx) In Links». Таким образом вы получите экспортированные данные в файле CSV.

Для эскпорта полного списка битых страниц откройте меню Bulk Export. Прокрутите до кодов ответов и посмотрите на следующие отчеты:

no response inlinks
redirection (3xx) inlinks
Redirection (JavaScript) inlinks
redirection (meta refresh) inlinks
client error (4xx) inlinks
server error (5xx) inlinks

Screaming Frog: как найти битые ссылки

Screaming Frog Seo Spider находит все битые ссылки на сайте. Просмотр этих отчетов должен дать представление о том, какие внутренние ссылки нужно обновить. Это даст гарантию того, что они указывают на каноническую версию URL и распределены эффективно.

Screaming Frog SEO Spider поволяет найти внешние ссылки с проверяемого сайта.

Убедитесь, что опция «Check External Links» отмечена в Configuration > Spider.

После того как алгоритм закончил проверку, перейдите во вкладку «External» в верхнем окне. Затем отфильтруйте данные по «Status Code» и вы увидите URLы со всеми кодами, кроме 200. Кликнув по конкретному URL в результате поиска и затем на вкладку «In Links» внизу окна, вы найдете список страниц, которые указывают выбранный URL. Вы можете использовать эту особенность, чтобы выявить страницы, на которых нужно обновить исходящие ссылки.

Для экспорта полного списка исходящих ссылок, перейдите в Bulk Export > External Links.

Screaming Frog: Как найти исходящие ссылки

Для полного списка всех локаций и анкорных текстов исходящих ссылок, Bulk Export > All Outlinks. Этот отчет также содержит исходящие ссылки на ваш субдомен. Если вы хотите исключить ваш домен, опирайтесь на вышеуказанный отчет «External Links».

После того, как алгоритм закончио проверку, выберите вкладку «Response Codes» в основном интерфейсе и отсортируйте по Status Code. Поскольку Screaming Frog использует регулярные выражения для поиска, подтвердите следующие критерии для фильтра: 301|302|307. Это должно представить вам довольно объемный список всех ссылок, которые вернулись с редиректом определенного типа.

Также это позволит вам узнать, был ли контент навсегда перемещен, найден или перенаправлен или временно перенаправлен согласно настройкам HSTS (вероятнее всего это вызвано 307 редиректом в Screaming Frog). Отсортируйте по «Status Code» и вы сможете разбить результаты по типу. Нажмите на вкладку «In Links» внизу окна, чтобы увидеть все страницы, на которых есть редиректные ссылки.

Если вы экспортируете прямо из этой вкладки, вы увидите только данные, показанные вверху окна (оригинальный URL, статус кода и куда направлен редирект).

Для экспортирования полного списка страниц с редиректными ссылками перейдите в Bulk Export > Response Codes и выберите «Redirection (3xx) In Links». Вы получите CSV файл, который содержит месторасположение всех редиректных ссылок. Для отображения только внутреннего редиректа, отфильтруйте колонку «Destination» в CSV, чтобы она включала в себя только ваш домен.

Совет Pro

Используйте VLOOKUP между двумя экспортированными файлами выше, чтобы соединить колонки Source и Destination с расположением финального URL.

Например: =VLOOKUP([@Destination],’response_codes_redirection_(3xx).csv’!$A$3:$F$50,6,
FALSE)

(Где ’response_codes_redirection_(3xx).csv’ это файл CSV, который содержит редиректные ссылки, а 50 — это количество строк в этом файле)

Внутренняя перелинковка может принести хороший ROI (окупаемость инвестиций), особенно когда у вас есть стратегия распределения PageRank, ранжирование по ключевым словам и содержащие ключевые слова анкоры.

Screaming Frog позволяет посмотреть несодержательные страницы — страницы с минимальным количеством контента (или без него). Читайте инструкцию, как это сделать.

После того, как алгоритм закончит проверку, откройте вкладку «Internal», отсортируйте по HTML и прокрутите вправо до колонки «Word Count». Отсортируйте колонку «Word count» от наименьшего до наибольшего, чтобы найти страницы с маленьким количеством контента. Вы можете перетянуть колонку «Word Count» влево, чтобы лучше понимать, какие страницы соотносятся с определенным количеством. Нажмите «Export» во вкладке «Internal», если вам удобнее работать с данными в формате CSV.

Советы Pro для сайтов E-commerce

Вышеуказанный метод подсчета слов определяет количество реального текста на странице. Но нет способов конкретизировать — это название продукта или оптимизированный по ключевым словам текстовый блок. Если xPath запросы не ваша сильная сторона, то расширения xPath Helper или Xpather Chrome проделают солидную работу по определению xPath вместо вас.

Если вы уже проверили весь сайт или вложенную папку, просто выберите страницу вверху окна, перейдите во вкладку «Image Info» внизу, чтобы увидеть все найденные на странице изображения. Они будут перечислены в колонке «To».

Совет Pro

Кликните правой кнопкой по любой записи внизу окна, чтобы скопировать или открыть URL.

Как вариант, вы также можете увидеть изображения на странице, сканируя только этот URL. Убедитесь, что установлена глубина сканирования «1». Когда страница просканирована, нажмите на вкладку «Images». Там будут все найденные алгоритмом изображения.

Screaming Frog Seo Spider проверяет атрибуты для изображений: alt. Как проверить альты?

Посмотрите настройки и убедитесь, что «Check Images» отмечено в Configuration > Spider. После окончания проверки откройте вкладку «Images» и отсортируйте по «Missing Alt Text» или «Alt text Over 100 Characters». Вы можете найти страницы с изображениями, перейдя во вкладку «Image Info» внизу окна. Эти страницы будут перечислены в колонке «From».

Если вам удобнее работать с CSV, откройте Bulk Export > All Images или Bulk Export > Images > Images Missing Alt Text Inlinks для просмотра полного списка изображений. Там же вы увидите их расположение, связанный с ними текст alt или проблемы с ним.

Screaming Frog: как найти изображения без атрибута alt

В меню Configuration > Spider выберите «Crawl» и «Store» CSS перед проверкой. После завершения отсортируйте результаты по «CSS» во вкладке «Internal». Screaming Frog: Как найти CSS файлы

В меню настроек выберите «Check JavaScript» перед проверкой. После завершения отсортируйте результаты по «JavaScript» во вкладке «Internal».

Screaming Frog Seo Spider: как найти JavaScript файлы

Проверьте настройки и убедитесь, что «Check JavaScript» выбрано в меню Configuration > Spider. После завершения проверки отсортируйте результаты во вкладке «Internal» по «JavaScript», а потом ищите «jquery». Таким образом вы получите список плагинов. При необходимости отсортируйте список по «Address» для облегчения просмотра. Затем посмотрите «InLinks» внизу окна или сделайте экспорт в CSV, чтобы найти страницы, где использованы файлы. Они будут отображаться в колонке «From».

Также через меню Bulk Export > All Links вы сможете экспортировать файл CSV и отфильтровать колонку «Destination» для показа URLов только с jQuery.

Совет Pro — как пользоваться Screaming Frog

Не все плагины jQuery вредят SEO. Если вы видите, что сайт использует jQuery, хорошо убедиться, что контент, который вы хотите индексировать, включен в источник страницы и обрабатывается во время загрузки страницы, а не после.

После завершения проверки отсортируйте результаты по «PDF» во вкладке «Internal».

Screaming Frog: как найти PDF файлы на сайте

Чтобы найти страницы, которые содержат кнопку «Поделиться», вам нужно настроить пользовательский фильтр перед запуском проверки. Для этого откройте Configuration > Custom. Оттуда введите любой фрагмент кода с источника страницы. как найти страницы с кнопкой Поделиться в соцсетях В примере выше мы хотели найти страницы, которые содержат кнопку «Like» в Facebook. Для этого мы создали фильтр для facebook.com/plugins/like.php

Чтобы найти страницы, использующие фреймы, установите пользовательский фильтр для iframe через Configuration > Custom перед началом проверки.

Чтобы найти страницы с видео или аудио, установите пользовательский фильтр для фрагмента встроенного кода с Youtube или другого медиа-проигрывателя, который используется на сайте.

Как найти страницы со встроенным видео и аудио контентом

Чтобы найти длинные title и description, после завершения проверки откройте вкладку «Page Titles» и отсортируйте по «Over 60 Characters», чтобы увидеть длинные title страниц. Вы можете сделать то же самое во вкладках «Meta Description» и «URL».

Screaming Frog: как найти страницы с длинными метаданными

Чтобы найти дублрующиеся метаданные title и description, после завершения проверки откройте вкладку «Page Titles», затем отсортируйте по «Duplicate». Вы можете сделать то же самое во вкладках «Meta Description» «URL».

Screaming Frog: как найти дубли метаданных

Чтобы найти дублированный контент на сайта (дублирующиеся URL), После завершения проверки откройте вкладку «URL» и отсортируйте по «Underscores», «Uppercase» или «Non ASCII Characters», чтобы увидеть URLы, которые могут быть переписаны под более стандартную структуру. Отсортируйте по «Duplicate» и вы увидите все страницы с несколькими версиями URL. Отсортируйте по «Parameters» и увидите «URL», которые содержат параметры.

Как найти дублированный контент Screaming Frog

Если вы откроете вкладку «Internal», отсортируете по «HTML» и прокрутите до колонки «Hash» вправо, вы увидите уникальную серию букв и цифр для каждой страницы. Если вы кликните «Export», то тогда вы сможете использовать условное форматирование в Excel, чтобы подсветить дублированные значения в этой колонке. Таким образом вы увидите одинаковые страницы.

Как найти дублированный контент Screaming Frog

С помощью Screaming Frog Seo Spider вы можете найти страницы, закрытые от индексации. После завершения проверки перейдите во вкладку «Directives». Чтобы увидеть тип, прокрутите вправо и посмотрите, какая колонка заполнена. Также вы можете воспользоваться фильтром, чтобы найти любой из следующих тэгов:

index
noindex
follow
nofollow
noarchive
nosnippet
noodp
noydir
noimageindex
notranslate
unavailable_after
refresh

Эту информацию можно посмотреть также в правом сайдбаре.

Как найти страницы noindex nofollow

Screaming Frog по умолчанию соответствует файлу robots.txt. Как приоритет, он будет следовать указанию, сделанному специально для пользовательского агента Screaming Frog. Если таких указаний нет, алгоритм следует указаниям Googlebot. Если нет и таких, то алгоритм выполнит глобальные указания для всех пользовательских агентов. Алгоритм будет следовать одному набору указаний, так что если есть набор установленных только для Screaming Frog правил, он будет выполнять только их. Если вы хотите скрыть определенные части сайта от алгоритма, используйте обычный синтаксис robots.txt «Screaming Frog SEO Spider». Если вы хотите игнорировать robots.txt, просто выберите эту опцию в меню настроек: Configuration > robots.txt > Settings.

Как проверить robots txt через Screaming Frog

Чтобы через Screaming Frog найти страницы с разметкой или микроданными, используйте пользовательский фильтр. Перейдите в Configuration > Custom > Search и введите желаемый фрагмент. А вот краткая инструкция.

Чтобы найти страницы с разметкой, добавьте следующий фрагмент кода в пользовательский фильтр: itemtype=http://schema.org

Чтобы найти особый вид разметки, уточните детали. Например, использование пользовательского фильтра выдаст вам все страницы с разметкой для ratings.

Если говорить о Screaming Frog 11.0, SEO алгоритм также предоставляет возможность проверки, извлечения и структурированных данных прямо из результатов поиска. Проверяйте любые JSON-LD, Microdata или RDF структурированные данные в соответствии с рекомендациями Scema.org и спецификациями Google в реальном времени в процессе проверки. Для доступа к инструментам проверки структурированных данных выберите опцию Configuration > Spider > Advanced > Structured Data.

Теперь вы увидите вкладку Structured Data в главном интерфейсе. Она позволит вам переключаться между страницами со структурированными данными, в которых эти данные пропущены. Также они могут содержать ошибки валидации и предупреждения.

Также вы можете массово экспортировать проблемы со структурированными данными со Screaming Frog , посетив Reports > Structured Data > Validation Errors&Warnings.

Screaming Frog: проверка микроразметки, структурированных данных

Чтобы с помощью Screaming Frog Spider создать файл sitemap.xml, после завершения сканирования сайта, перейдите в Sitemaps > Sitemap XML.

Screaming Frog: как создать Sitemap XML

Как пользоваться данной опцией?

После открытия настроек Sitemap XML, вы можете включить и исключить страницы по коду ответа, дате изменения, приоритету, частоте изменений и т. д. По умолчанию Screaming Frog включает 2xx URL, но перепроверять дважды — это хорошее правило.

Screaming Frog: как проверить сайтмап Sitemap XML

В идеале карта сайта должна содержать страницы со статусом 200, каноническую версию каждого URL без каких-либо повторяющихся факторов. Нажмите OK, чтобы сохранить изменения. Sitemap XML будет загружена на ваше устройство и позволит вам редактировать соглашение о наименовании на ваше усмотрение.

Также вы можете создать Sitemap XML, загрузив URLы из существующего файла или вставив их в Screaming Frog вручную.

Измените режим со Spider на List в Mode и нажмите Upload, чтобы выбрать любой из вариантов.

Screaming Frog: создание карты сайта, сайтмапа

Нажмите кнопку Start и Screaming Frog проверит загруженные URLы. Как только он это сделает, вы можете совершить вышеуказанные действия.

Вы можете загрузить существующий Sitemap XML для проверки ошибок или расхождений.

Откройте меню «Mode» в Screaming Frog и выберите «List». Затем, нажмите «Upload» вверху экрана и выберите Download Sitemap или Download Sitemap Index, введите URL карты сайта и начните проверку. По завершению, вы сможете найти редиректы, 404 ошибки, дублированные URL и т. д.

Как проверить сайтмап, карту сайта на ошибки

Проверка недостающих страниц в Sitemap XML

Вы можете настроить параметры проверки для исследования и сравнения URLов в карте сайта с URL из поиска.

Перейдите в Configuration > Spider в навигации и вам будут доступны несколько опций для Sitemap XML — Auto discover XML sitemaps через файл robots.txt или введите ссылку на Sitemap XML в окне.

Примечание: если ваш файл robots.txt не содержит правильных целевых ссылок на все Sitemaps XML, которые вы хотите просканировать, введите их вручную.

Screaming Frog: проверка сайтмапа sitemap.xml

Как только вы обновили настройки проверки карты сайта, откройте «Crawl Analysis», а затем нажмите «Configure» и убедитесь, что кнопка Sitemap отмечена. Если вы сначала захотите сделать сканирование сайат полностью, тогда вернитесь в «Crawl Analysis» и нажмите Start.

Проверка недостающих страниц в Sitemap XML

По завершению Crawl Analysis, вы сможете увидеть все несоответствия. К примеру, ссылки, которые были выявлены при полном сканировании, но пропущенные в карте сайта.

Пытаетесь выяснить, почему некоторые страницы не индексируются? Сперва убедитесь, что они случайно не попали в robots.txt или не помечены, как noindex. Выше писали, какие отчеты Screaming Frog Seo Spider нужно смотреть.

Следом проверьте, что алгоритмы могут добраться до страниц, проверив внутренние ссылки. Страницы без внутренней перелинковки упоминаются, как Orphaned Pages (страницы-сироты). Чтобы выявить такие страницы, выполните следующие шаги:

перейдите в Configuration > Spider. Внизу будут несколько опций для sitemap XML. Выполните автопроверку карты сайта через robots.txt или введите ссылку на sitemap XML вручную.

Обратите внимание, что если robots.txt не содержит правильных целевых ссылок на все sitemaps XML, которые вы хотите сканировать, вам нужно ввести их вручную;
перейдите в Configuration > API Access > Google Analytics. Используя API вы можете получить и посмотреть данные аналитики для конкретного аккаунта. Чтобы найти страницы-сироты из органического поиска, убедитесь в сегментации по «Organic Traffic»;
также вы можете перейти во вкладку General > Crawl New URLs Discovered in Google Analytics, если хотите, чтобы они были включены в полную проверку сайта. Если этот параметр не включен, вы сможете просматривать только новые URLы из Google Analytics в отчете страниц-сирот;
перейдите в Configuration > API Access > Google Search Console. Используя API вы можете получить и посмотреть данные аналитики Google Search Console для конкретного аккаунта. Чтобы найти страницы-сироты, вы можете искать получающие клики и показы URLы, которые не были включены в проверку. Совет: также вы можете перейти в General > Crawl New URLs Discovered in Google Search Console, если хотите, чтобы они были включены в полную проверку сайта. Если этот параметр не включен, вы сможете просматривать только новые URLы из Google Search Console в отчете страниц-сирот;
просканируйте сайт полностью. После завершения, перейдите в Crawl Analysis > Start и подождите его завершения;
посмотрите сиротские URLы в каждой вкладке или сделайте массовый экспорт URLов, перейдя в Reports > Orphan Pages.

Screaming Frog: массовый экспорт урлов

Если вы не имеет доступа в Google Analytics или Search Console, вы можете экспортировать список внутренних URLов как файл CSV, используя фильтр «HTML» во вкладке «Internal».

Откройте файл CSV и на второй странице вставьте список URLов, которыt не проиндексированы или не очень хорошо ранжируются. Используйте VLOOKUP, чтобы увидеть найденные в процессе сканирования URLы на второй странице.

Вы можете использовать Screaming Frog для проверки, были ли старые URLы перенаправлены с использованием режима «List» для проверки статусов кода. Если старые ссылки возвращают ошибку 404, тогда вы поймете, какие URLы должны быть перенаправлены.

Screaming Frog поможет найти страницы с низкой коростью загрузки. После завершения сканирования, откройте вкладку «Response Code» и отсортируйте колонку «Response Time» по убыванию. Таким образом вы можете выявить страницы, которые загружаются медленно.

Как найти страницы с низкой скоростью загрузки: Screaming Frog

Сначала вам нужно выявить следы вредоносного софта или спама. Дальше перейдите в Custom > Search в меню настроек и введите фрагмент, который вы ищете.

Screaming Frog: найти вредоносный софт или спам на сайте

Вы можете ввести до 10 фрагментов за одно сканирование. Дальше нажмите ОК и продолжите сканирование сайта или списка страниц.

После завершения сканирования выберите вкладку «Custom» вверху окна, чтобы увидеть все страницы, которые содержат заданный фрагмент. Если вы ввели больше одного пользовательского фильтра, вы можете увидеть каждый, изменив его в результатах.

Сохраните список в формате .txt или .csv, затем измените настройки «Mode» на «List.

Выберите файл для загрузки и нажмите Start или вставьте список в Screaming Frog вручную. Посмотрите код статуса каждой страницы во вкладке «Internal».

Итак, у вас есть куча URLов, но вам нужно больше информации о них? Установите режим на «List», затем загрузите список URLов в формате .txt или .csv. После проверки вы можете увидеть статусы кодов, исходящие ссылки, количество слов и мета-данные для каждой страниц в вашем списке.

Перейдите в меню настроек, нажмите Custom > Search или Extraction и введите искомый фрагмент.

Screaming Frog: удалить отдельные страницы

Вы можете ввести до 10 разных фрагментов за поиск. Нажмите OK и перейдите к сканированию сайта или списка страниц. В примере ниже мы хотели найти все страницы, которые содержат «Please Call» в разделе цен, так что мы нашли и скопировали код HTML с исходного текста страницы.

Screaming Frog: удалить страницы по заданным условиям

По завершению поиска выберите вкладку «Custom» вверху окна и посмотрите все страницы с необходимым фрагментом. Если вы ввели более одного пользовательского фильтра, вы можете посмотреть каждый из них, изменив фильтр результатов.

Совет Pro

Если вы извлекаете данные с сайта клиента, вы можете сэкономить время, попросив клиента выгрузить данные непосредственно с базы данных. Этот способ подходит для сайтов, к которым у вас нет прямого доступа.

Чтобы определить URLы с идентификаторами сеанса или другими параметрами, просто проведите сканирование вашего сайта с настройками по умолчанию. По завершению проверки перейдите во вкладку «URL» и отсортируйте по «Parameters», чтобы посмотреть все ссылки с параметрами.

Для удаления параметров с отображения в проверенных URLах, перейдите в Configuration > URL Rewriting. Затем во вкладке «Remove Parameters» нажмите «Add», чтобы добавить параметры, которые вы хотите удалить из URLов и нажмите OK. Перезапустите проверку с этими настройками для перезаписи.

Screaming Frog: замена параметров на проверенных страницах

Если после сканирования сайта Screaming Frog Seo Spider нужно переименовать урлы, для перезаписи любого проверенного URLа, перейдите в Configuration > URL Rewriting. Затем во вкладке «Regex Replace» нажмите «Add», чтобы добавить Reg Ex для того, что вы хотите заменить.

Screaming Frog: переименовать проверенные страницы

Как только вы добавили все желаемые правила, вы можете протестировать их во вкладке «Test». Для этого введите тестовый URL в «URL before rewriting». «URL after rewriting» будет обновлен автоматически согласно вашим правилам.

Screaming Frog: URL after rewriting

Если вы хотите задать правило, чтобы все URLы возвращались в нижнем регистре, установите «Lowercase discovered URLs» во вкладке «Options». Это удалит любое дублирование по заглавным URLам в проверке.

Screaming Frog: URL after rewriting

Не забудьте перезапустить проверку с этими настройками для перезаписи.

В общем, конкуренты будут стараться распространить популярность ссылок и привлечь трафик на наиболее ценные страницы, ссылаясь на них изнутри. Любые конкуренты с SEO мышлением вероятнее всего будут ссылаться на важные страницы с блога компании. Найдите ценные страницы ваших конкурентов, сделав сканирование их сайта. Затем отсортируйте колонку «Inlinks» во вкладке «Internal» по убыванию, чтобы увидеть страницы с наибольшим количеством внутренних ссылок.

Screaming Frog: Анализ ключевых слов

Чтобы просмотреть страницы, ссылки на которые есть в блоге вашего конкурента, отмените выбор «Check links outside folder» в Configuration > Spider и просканируйте папку блога. Затем, во вкладке «External» отсортируйте результаты, используя поиск по URL основного домена. Прокрутите вправо и отсортируйте список в колонке «Inlinks», чтобы увидеть страницы, на которые ссылались чаще всего.

Screaming Frog: найти важные страницы конкурентов

Совет Pro

Перетащите колонку влево или вправо, чтобы улучшить отображение данных.

Screaming Frog Seo Spider позволяет проанализировать анкоры на своей сайте или анкоры конкурентов.

Перейдите в Bulk Export > All Anchor Text, чтобы экспортировать CSV, который содержит все тексты анкоров на сайте, где они используются и на что ссылаются.

Screaming frog: проверка анкоров

Если вы удалили или создали список URL-адресов, которые необходимо проверить, вы можете загрузить и отсканировать их в режиме «List», чтобы получить больше информации о страницах. По завершению сканирования проверьте коды состояния во вкладке «Response Codes» и просмотрите исходящие ссылки, их типы, тексты анкоров и директивы nofollow во вкладке «Outlinks» в нижнем окне. Это расскажет вам на какие сайты ссылаются эти страницы. Чтобы просмотреть вкладку «Outlinks», убедитесь, что в верхнем окне выбран интересующий вас URL.

Конечно с помощью пользовательского фильтра вы захотите проверить, ссылаются на вас эти страницы или нет.

Screaming frog: проверка исходящих ссылок

Вы также можете экспортировать полный список исходящих ссылок, перейдя в меню Bulk export > All outlinks. Это не только предоставит вам ссылки на внешние сайты, но также покажет все внутренние ссылки на отдельных страницах вашего списка.

Как проверить исходящие ссылки в Screaming Frog

Итак, вы нашли сайт, с которого хотите получить ссылку? Используйте Screaming Frog, чтобы найти неработающие ссылки на нужной странице или на сайте в целом, затем обратитесь к владельцу сайта, предложив свой ресурс в качестве замены для неработающей ссылки, где это возможно. Ну или просто предложите неработающую ссылку в качестве жеста доброй воли

Загрузите свой список обратных ссылок и запустите алгоритм в режиме Mode > List. Затем экспортируйте полный список исходящих ссылок, перейдя в Bulk Export > All Outlinks. Это предоставит вам URLы и анкорный/alt текст для всех ссылок на этих страницах. Затем вы можете использовать фильтр в колонке «Destination» в CSV, чтобы определить, ссылаются ли на ваш сайт и какой анкорный/alt текст включен.

Установите пользовательский фильтр, содержащий URL корневого домена, перейдя в Configuration > Custom > Search. Затем загрузите список обратных ссылок и запустите алгоритм в режиме Mode > List. После завершения сканирования, перейдите на вкладку «Custom», чтобы просмотреть все страницы, которые все еще ссылаются на вас.

Знаете ли вы, что при правом клике по любому URLу в верхнем окне результатов, вы можете выполнить любое из следующих действий?

скопировать или открыть URL
повторно сканировать или удалить URL
экспортировать информацию об URL, во входящих и обратных ссылках или информации об изображениях для этой страницы
проверить индексацию страницы в Google, Bing и Yahoo
проверить обратные ссылки на страницу в Majestic, OSE, Ahrefs и Blekko
посмотреть на кэшированную версию и дату кэша страницы
посмотреть старые версии страницы
проверить HTML-код страницы
открыть файл robots.txt для домена, на котором находится страница
найти другие домены на том же IP

Режим SERP позволяет вам просматривать фрагменты SERP на устройстве, чтобы визуализировать мета-данные в результатах поиска.

Загрузите URL, titles и мета-описания в Screaming Frog, используя документ CSV или Excel.

Обратите внимание, что если вы уже провели сканирование своего сайта, вы можете экспортировать URLы, выбрав Reports > SERP Summary. Это легко отформатирует URLы и meta, которые вы хотите загрузить и отредактировать.
Перейдите в Mode > SERP > Upload File.
Отредактируйте мета-данные в Screaming Frog.
Сделайте массовый экспорт мета-данных для отправки напрямую разработчикам.

Такие JavaScript фреймворки, как Angular, React и т.д. все чаще используются при создании сайтов. Google рекомендует использовать решение для рендеринга, поскольку Googlebot все еще пытается сканировать содержимое JavaScript. Если вы определили сайт с использованием JavaScript и хотите провести сканирование, следуйте инструкциям ниже:

перейдите в Configuration > Spider > Rendering > JavaScript;
измените настройки рендеринга в зависимости от того, что вы ищете. Вы можете настроить время ожидания, размер окна (мобильный, планшет, десктоп);
нажмите ОК и начните сканирование.

В нижней части навигации щелкните вкладку «Rendered Page», чтобы увидеть, как страница отображается. Если она не отображается должным образом, проверьте наличие заблокированных ресурсов или увеличьте лимит времени ожидания в настройках конфигурации. Если ни один из вариантов не поможет решить это, возникнет более серьезная проблема.

Вы можете просмотреть и массово экспортировать любые заблокированные ресурсы, которые могут повлиять на сканирование и рендеринг вашего сайта, перейдя в Bulk Export > Response Codes.

Анализ JavaScript на сайте с помощью Screaming Frog

Надеемся, этот гайд поможет вам разобраться в настройках Screaming Frog Seo Spider. В данной инструкции мы собрали основные возможност Screaming Frog: как сделать техический аудит, как найти дубли метаданных, как проверить исходящие ссылки, как проверить битые ссылки и редиректы, как с помощью Скриминг Фрога упросить линкбиндинг и другие нюансы работы с программой.

Оригинал статьи взят с сайта Collaborator

Источник

Основные настройки сканирования сайта

Для большинства специалистов общий аудит сайта – непростая задача, однако с таким инструментом, как Screaming Frog SEO Spider (СЕО Паук), она может стать значительно более простой для профессионалов и даже для новичков. Удобный интерфейс Screaming Frog позволяет работать легко и быстро: с его помощью можно проверить позиции сайта, просканировать все страницы, найти внутренние ссылки и проблемы с контентом. Однако многообразие вариантов конфигурации, сложность в настройке и функциональности может усложнить знакомство с программой.

Инструкция ниже призвана продемонстрировать способы использования Screaming Frog как для аудита сайтов, так и других задач необходимых для продвижения сайта.

Важно! Скачивать лучше последнюю версию программы, регулярно обновляя ее. Данный гайд рассчитан на версию 16.7. Если у вас более старая версия или, наоборот, новая, вы можете столкнуться с неточностями в описании или другим видом интерфейса программы.

Настройки парсера

Перечень базовых настроек перед стартом работ

Memory

Здесь указываем предел оперативной памяти для парсинга. Опираемся на параметры своего ПК: учтите, что при запуске краулера этот объем RAM будет полностью зарезервирован и доступен только ему. Слишком маленький объем буфера может привести к зависанию паука при сканировании очень больших сайтов.

Storage

В данном разделе указывается, куда будут сохраняться отчеты – в папку «Программы» либо по указанному пути (по умолчанию в /User).

Proxy

Указывается прокси, с помощью которых будет происходить парсинг (используется, если выбран чекбокс).

Embedded Browser

Если чекбокс активен, парсер использует встроенный в программу браузер (на базе Chromium) для сканирования.

Режимы сканирования — Mode

Выбираем режимы сканирования сайта.

*Кстати, вы можете в любой момент приостановить сканирование, сохранить проект и закрыть программу, а при следующем запуске продолжить с того же места.

Spider – классический парсинг сайта по внутренним ссылкам, домен вводится в адресную строку.

List – парсим только предварительно собранный список URL-адресов. Указать последние можно разными способами:

From a File – выгружаем URL-адреса из файла.
Paste – выгружаем URL-адреса из буфера обмена.
Enter Manually – вводим вручную в соответствующее поле.
Download Sitemap – выгружаем их из карты сайта.

SERP Mode – режим не для сканирования: в нем можно загружать метаданные сайта, редактировать и тестировать.

Скорость парсинга

Еще одна основная настройка SEO Frog. При запуске парсинга внизу указывается средняя скорость и текущая. Если сайт не выдерживает большой нагрузки, то лучше в настройках задать другое значение.

Необходимо зайти в Configuration ➜ Speed и выставить более щадящие параметры.

Можно уменьшить кол-во потоков, а также максимальное количество обрабатываемых адресов в секунду.

Автор: Collaborator

Screaming Frog SEO Spider: инструкция, полный гайд 2023

Оглавление

Новые функции Screaming Frog
- Как найти дублированный контент на сайте
- Как посмотреть процент совпадения контента
- Проверка орфографии и грамматики
- Улучшенные данные ссылок — положение ссылки, тип пути и цель
- Как посмотреть положение ссылки в Screaming Frog
- Проверки безопасности в Screaming Frog Spider: протоколы HTTP и HTTPS
Как запустить полный парсинг сайта в Screaming Frog SEO
- Как провести сканирование всего сайта
- Как настроить Screaming Frog на проверку одной папки
- Как проверить субдомены и подкаталоги: настраиваем Screaming Frog под себя
- Как собрать все страницы на сайте
- Как получить список всех страниц в отдельном подкаталоге
- Как найти все субдомены на сайте с помощью Screaming Frog и проверить внешние ссылки
- Как сделать анализ интернет-магазина и других крупных сайтов при помощи Screaming Frog Spider
- Как проверить сайт, который хранится на старом сервере
- Как сделать анализ сайта, который требует cookie
- Может ли Screaming Frog проверить страницы, требующие аутентификации?
Поиск внутренних и внешних ссылок в Screaming Frog
- Как получить информацию про все внутренние и внешние ссылки на сайте
- Как найти битые внутренние ссылки на страницу или на сайт
- Как использовать инструмент Screaming Frog SEO Spider для проверки исходящих ссылок
- Как найти ссылки с редиректом
- Использование SEO Spider при внутренней перелинковке
Проверяем контент сайта с помощью Screaming Frog
- Как найти страницы с минимальным количество контента
- Как получить список ссылок на изображения на конкретной странице
- Проверка alt для изображений
- Как найти CSS файлы
- Как найти JavaScript файлы
- Как определить все jQuery плагины на сайте и на каких страницах они используются
- Как найти внутренние PDF файлы, на которые есть ссылка
- Как найти страницы с кнопкой «Поделиться» в соцсетях
- Как найти страницы, которые используют фреймы
- Как найти страницы со встроенным видео и аудио контентом
Проверка мета-данных: как найти дубли title и descriptions
- Как найти страницы с длинными метаданными
- Как найти дубли title и descriptions
- Как найти дублированный контент на сайте?
- Как найти страницы с meta-директивами noindex, nofollow и др.
- Можно ли проверить файл robots.txt?
- Как найти или проверить микроразметку на сайте
Создание и проверка Sitemap в Screaming Frog
- Как создать Sitemap XML
- Как создать Sitemap XML, загрузив URL
- Как проверить существующий Sitemap XML
Другие технические проблемы, которые поможет решить Screaming Frog
- Почему конкретный раздел сайта не индексируется или не ранжируется
- Как проверить, был ли перенос сайта успешным
- Как найти страницы с низкой скоростью загрузки
- Как найти вредоносный софт или спам на сайте
Проверка PPC и аналитика
- Как проверить список PPC URLов
Очистка информации в Seo Frog Spider
- Как очистить мета данные для списка страниц
- Как очистить сайт от страниц, которые содержат определенную информацию
Переименование URLов в настройках программы
- Как найти и заменить id сессий или другие параметры на проверенных страницах
- Как переименовать проверенные URLы
Анализ ключевых слов конкурентов
- Как узнать самые важные страницы моих конкурентов
- Какие анкоры используют мои конкуренты во внутренних ссылках
Как найти исходящие ссылки сайта и использовать для линкбилдинга
- Как получить список перспективных местоположений для ссылок
- Как найти битые ссылки для возможностей аутрича
- Как проверить обратные ссылки и посмотреть анкорный текст
- Как убедиться, что обратные ссылки были удалены
- Бонусный раунд
Как редактировать мета-данные
- Как проанализировать сайт на JavaScript

Когда мы писали инструкцию, проанализировали, что чаще все пользователи ищут по данной программе:

Как скачать Screaming Frog?
Как пользоваться Screaming Frog SEO Spider?
Как запустить полный парсинг сайта в Screaming Frog SEO?
Как сделать технический аудит сайта при помощи Screaming Frog SEO?
Как использовать инструмент Screaming Frog SEO Spider для проверки обратных ссылок?

На эти и многие другие вопросы дадим ответы в статье.

1 июля 2020 года Screaming Frog SEO Spider представил новую версию с кодовым названием «Карантин».

поиск дублей в Screaming Frog

Screaming Frog: как найти дублирующийся контент

Настройка Screaming Frog SEO Spider

Screaming Frog: Duplicate details

Screaming Frog: как найти неочевидный дублированный контент

Как проверить орфографию и грамматику в Screaming Frog

Вы можете включить проверку орфографии и грамматики Config > Content > Spelling & Grammar.

Как найти орфографические и грамматические ошибки в Screaming Frog

В правой части вкладки сведений также отображается визуальный текст со страницы и найденные ошибки.

Screaming Frog: как найти ошибки в контенте

Screaming Frog: поиск ошибок на сайте

Screaming Frog: функция проверки орфографии и грамматики

Вы можете экспортировать все данные через меню Bulk Export > Content.

Как проверить орфографию и грамматику в Screaming Frog

Теперь Screaming Frog SEO Spider записывает некоторые новые атрибуты для каждой ссылки.

Screaming Frog: проверить положение ссылки

Screaming Frog: узнать положение ссылки

Как проверить положение ссылки в Screaming Frog

определение позиции ссылки в Screaming Frog

Эти ссылки будут затем правильно отнесены к навигационным ссылкам.

Как узнать абсолютные и относительные ссылки

Проверка абсолютных и относительных ссылок в Screaming Frog

Целевой атрибут target ссылки

Screaming Frog: проверить целевой атрибут target ссылки

Как найти смешанный контент с помощью Screaming Frog:

Screaming Frog: проверка безопасности http или https

Шаг 1 — настраиванием парсинг домена и поддоменов

Шаг 2 — настраиваем проверку всего сайта

Технический аудит сайта при помощи Screaming Frog

Совет Pro — исключаем сканирование картинок, CSS и Javascript

screaming frog seo spider инструкция

screaming frog: как проверить одну папку

screaming frog: проверка папки на одном поддомене

Исключение

В этом примере мы просканировали каждую страницу на seerinteractive.com, исключая страницу «About» в каждом субдомене.

Шаг 1 — прописываем правила исключения

Screaming Frog Seo Spider: гайд, инструкция

Шаг 2 — тестируем, как будет работать исключение

Screaming Frog Seo Spider: гайд, инструкция

Включение

Screaming Frog Seo Spider: гайд, инструкция

По умолчанию Screaming Frog проверяет все изображения, JavaScript, CSS и flash файлы.

Screaming Frog: как получить список всех страниц на сайте

Получить список страниц HTML в Screaming Frog

Совет Pro — сохраняйте настройки Screaming Frog

Screaming Frog позволят сохранить настройки, которые вы ипользуете для каждой проверки:

Сохранение настроек в Screaming Frog

Существует несколько способов найти все субдомены на сайте.

Способ 1 — используйте Screaming Frog для распознавания всех субдоменов на указанном сайте.

Screaming Frog: как проверить внешние ссылки

Способ 2 — используйте Google, чтобы найти все проиндексированные поддомены.

Шаг 1 — использование операторов site и inurl

Шаг 2 — используйте расширение Scraper

Шаг 3 — уберите лишние данные

В Google Docs используйте следующую функцию для обрезки URL в субдомене:

=LEFT(A2,SEARCH(«/»,A2,9))

Дедуплицируйте список и загрузите его в Screaming Frog в режиме списка.

Screaming Frog Seo Spider: инструкция, как пользоваться

Вы можете вставить список доменов вручную, использовать функцию или загрузить файл CSV.

Screaming Frog Seo Spider: как пользоваться, инструкция Способ 3 — найдите субдомены в Screaming Frog

Что нужно для парсинга Screaming Frog Spider больших сайтов:

Вы можете увеличить распределение памяти.
Разбить проверку на подкаталоги или проверить только конкретные части сайта, используя настройки Include/Exclude.
Вы можете не выбирать изображения, JavaScript, CSS и flash файлы. Отменив эти опции в настройках Screaming Frog Seo Spider, вы сохраните память для cканирования только HTML.

Совет Pro — приостанавливайте сканирование при необходимости

Screaming Frog: проверка крупных сайтов

Совет Pro — увеличивайте Response Timeout в настройках

Screaming Frog Response Timeout

Как сделать анализ сайта, который требует cookie

Аутентификация на основе форм — это мощная функция, которая может требовать JavaScript для эффективной работы.

Обратите внимание, что аутентификация на основе форм должна использоваться нечасто и только продвинутыми пользователями. Алгоритм запрограммирован так, что он нажимает на каждую ссылку на странице. Так что это потенциально может отразиться на ссылках, которые создают посты или даже удаляют данные.

Для управления аутентификацией, перейдите в Configuration > Authentication.

Чтобы выключить запросы аутентификации перейдите в Configuration > Authentication и снимите отметку с «Standards Based Authentication».

Screaming Frog: выключить запросы аутентификации

Screaming Frog: найти внутренние и внешние ссылки на сайте

Screaming Frog: внутренние и внешние ссылки на сайте

no response inlinks
redirection (3xx) inlinks
Redirection (JavaScript) inlinks
redirection (meta refresh) inlinks
client error (4xx) inlinks
server error (5xx) inlinks

Screaming Frog: как найти битые ссылки

Screaming Frog SEO Spider поволяет найти внешние ссылки с проверяемого сайта.

Убедитесь, что опция «Check External Links» отмечена в Configuration > Spider.

Для экспорта полного списка исходящих ссылок, перейдите в Bulk Export > External Links.

Screaming Frog: Как найти исходящие ссылки

Совет Pro

Например: =VLOOKUP([@Destination],’response_codes_redirection_(3xx).csv’!$A$3:$F$50,6,
FALSE)

(Где ’response_codes_redirection_(3xx).csv’ это файл CSV, который содержит редиректные ссылки, а 50 — это количество строк в этом файле)

Советы Pro для сайтов E-commerce

Совет Pro

Кликните правой кнопкой по любой записи внизу окна, чтобы скопировать или открыть URL.

Screaming Frog Seo Spider проверяет атрибуты для изображений: alt. Как проверить альты?

Screaming Frog: как найти изображения без атрибута alt

Screaming Frog Seo Spider: как найти JavaScript файлы

Совет Pro — как пользоваться Screaming Frog

После завершения проверки отсортируйте результаты по «PDF» во вкладке «Internal».

Screaming Frog: как найти PDF файлы на сайте

Как найти страницы со встроенным видео и аудио контентом

Screaming Frog: как найти страницы с длинными метаданными

Screaming Frog: как найти дубли метаданных

Как найти дублированный контент Screaming Frog

index
noindex
follow
nofollow
noarchive
nosnippet
noodp
noydir
noimageindex
notranslate
unavailable_after
refresh

Эту информацию можно посмотреть также в правом сайдбаре.

Как найти страницы noindex nofollow

Как проверить robots txt через Screaming Frog

Чтобы найти страницы с разметкой, добавьте следующий фрагмент кода в пользовательский фильтр: itemtype=http://schema.org

Screaming Frog: проверка микроразметки, структурированных данных

Screaming Frog: как создать Sitemap XML

Как пользоваться данной опцией?

Screaming Frog: как проверить сайтмап Sitemap XML

Также вы можете создать Sitemap XML, загрузив URLы из существующего файла или вставив их в Screaming Frog вручную.

Измените режим со Spider на List в Mode и нажмите Upload, чтобы выбрать любой из вариантов.

Screaming Frog: создание карты сайта, сайтмапа

Вы можете загрузить существующий Sitemap XML для проверки ошибок или расхождений.

Как проверить сайтмап, карту сайта на ошибки

Проверка недостающих страниц в Sitemap XML

Вы можете настроить параметры проверки для исследования и сравнения URLов в карте сайта с URL из поиска.

Screaming Frog: проверка сайтмапа sitemap.xml

Проверка недостающих страниц в Sitemap XML

перейдите в Configuration > Spider. Внизу будут несколько опций для sitemap XML. Выполните автопроверку карты сайта через robots.txt или введите ссылку на sitemap XML вручную.

Обратите внимание, что если robots.txt не содержит правильных целевых ссылок на все sitemaps XML, которые вы хотите сканировать, вам нужно ввести их вручную;
перейдите в Configuration > API Access > Google Analytics. Используя API вы можете получить и посмотреть данные аналитики для конкретного аккаунта. Чтобы найти страницы-сироты из органического поиска, убедитесь в сегментации по «Organic Traffic»;
также вы можете перейти во вкладку General > Crawl New URLs Discovered in Google Analytics, если хотите, чтобы они были включены в полную проверку сайта. Если этот параметр не включен, вы сможете просматривать только новые URLы из Google Analytics в отчете страниц-сирот;
перейдите в Configuration > API Access > Google Search Console. Используя API вы можете получить и посмотреть данные аналитики Google Search Console для конкретного аккаунта. Чтобы найти страницы-сироты, вы можете искать получающие клики и показы URLы, которые не были включены в проверку. Совет: также вы можете перейти в General > Crawl New URLs Discovered in Google Search Console, если хотите, чтобы они были включены в полную проверку сайта. Если этот параметр не включен, вы сможете просматривать только новые URLы из Google Search Console в отчете страниц-сирот;
просканируйте сайт полностью. После завершения, перейдите в Crawl Analysis > Start и подождите его завершения;
посмотрите сиротские URLы в каждой вкладке или сделайте массовый экспорт URLов, перейдя в Reports > Orphan Pages.

Screaming Frog: массовый экспорт урлов

Как найти страницы с низкой скоростью загрузки: Screaming Frog

Screaming Frog: найти вредоносный софт или спам на сайте

Сохраните список в формате .txt или .csv, затем измените настройки «Mode» на «List.

Перейдите в меню настроек, нажмите Custom > Search или Extraction и введите искомый фрагмент.

Screaming Frog: удалить отдельные страницы

Screaming Frog: удалить страницы по заданным условиям

Совет Pro

Screaming Frog: замена параметров на проверенных страницах

Screaming Frog: переименовать проверенные страницы

Screaming Frog: URL after rewriting

Не забудьте перезапустить проверку с этими настройками для перезаписи.

Screaming Frog: Анализ ключевых слов

Screaming Frog: найти важные страницы конкурентов

Совет Pro

Перетащите колонку влево или вправо, чтобы улучшить отображение данных.

Screaming Frog Seo Spider позволяет проанализировать анкоры на своей сайте или анкоры конкурентов.

Screaming frog: проверка анкоров

Конечно с помощью пользовательского фильтра вы захотите проверить, ссылаются на вас эти страницы или нет.

Screaming frog: проверка исходящих ссылок

Как проверить исходящие ссылки в Screaming Frog

скопировать или открыть URL
повторно сканировать или удалить URL
экспортировать информацию об URL, во входящих и обратных ссылках или информации об изображениях для этой страницы
проверить индексацию страницы в Google, Bing и Yahoo
проверить обратные ссылки на страницу в Majestic, OSE, Ahrefs и Blekko
посмотреть на кэшированную версию и дату кэша страницы
посмотреть старые версии страницы
проверить HTML-код страницы
открыть файл robots.txt для домена, на котором находится страница
найти другие домены на том же IP

Загрузите URL, titles и мета-описания в Screaming Frog, используя документ CSV или Excel.

Обратите внимание, что если вы уже провели сканирование своего сайта, вы можете экспортировать URLы, выбрав Reports > SERP Summary. Это легко отформатирует URLы и meta, которые вы хотите загрузить и отредактировать.
Перейдите в Mode > SERP > Upload File.
Отредактируйте мета-данные в Screaming Frog.
Сделайте массовый экспорт мета-данных для отправки напрямую разработчикам.

перейдите в Configuration > Spider > Rendering > JavaScript;
измените настройки рендеринга в зависимости от того, что вы ищете. Вы можете настроить время ожидания, размер окна (мобильный, планшет, десктоп);
нажмите ОК и начните сканирование.

Анализ JavaScript на сайте с помощью Screaming Frog

Оригинал статьи взят с сайта Collaborator

Источник

Основные настройки сканирования сайта

Важно! Скачивать лучше последнюю версию программы, регулярно обновляя ее. Данный гайд рассчитан на версию 16.7. Если у вас более старая версия или, наоборот, новая, вы можете столкнуться с неточностями в описании или другим видом интерфейса программы.

Настройки парсера

Перечень базовых настроек перед стартом работ

Memory

Storage

Proxy

Указывается прокси, с помощью которых будет происходить парсинг (используется, если выбран чекбокс).

Embedded Browser

Если чекбокс активен, парсер использует встроенный в программу браузер (на базе Chromium) для сканирования.

Режимы сканирования — Mode

Выбираем режимы сканирования сайта.

*Кстати, вы можете в любой момент приостановить сканирование, сохранить проект и закрыть программу, а при следующем запуске продолжить с того же места.

Spider – классический парсинг сайта по внутренним ссылкам, домен вводится в адресную строку.

List – парсим только предварительно собранный список URL-адресов. Указать последние можно разными способами:

From a File – выгружаем URL-адреса из файла.
Paste – выгружаем URL-адреса из буфера обмена.
Enter Manually – вводим вручную в соответствующее поле.
Download Sitemap – выгружаем их из карты сайта.

SERP Mode – режим не для сканирования: в нем можно загружать метаданные сайта, редактировать и тестировать.

Скорость парсинга

Необходимо зайти в Configuration ➜ Speed и выставить более щадящие параметры.

Можно уменьшить кол-во потоков, а также максимальное количество обрабатываемых адресов в секунду.

Задаем параметры скорости анализа

Сканирование всего сайта

По умолчанию Screaming Frog сканирует лишь поддомен (или основной домен), на который вы заходите. Любой дополнительный поддомен, с которым сталкивается Spider, рассматривается как внешняя ссылка. Чтобы сканировать дополнительные поддомены, необходимо внести корректировки в меню конфигурации. Выбрав опцию «Crawl All Subdomains», вы можете быть уверены в том, что “паук” проанализирует любые ссылки, которые попадаются на поддоменах вашего сайта.

Заходим в настройки паука:

Переход к настройкам паука

Выставляем параметры:

Разрешение на анализ поддоменов

Чтобы ускорить сканирование, уберите чекбоксы на картинки, CSS, JavaScript, SWF или внешние ссылки.

Выключаем анализ медиафайлов

Парсинг только одного раздела

Если вы хотите ограничить сканирование конкретной папкой, просто введите URL.

Вставляем адрес сайта или раздела и нажимает “старт”

При этом убедитесь, что в настройках Configuration ➜ Spider ➜ Crawl убрана галочка с Crawl Outside of Start Folder

Запрещаем переход за рамки указанной папки

Если вы хотите начать сканирование с конкретной папки, а затем перейти к анализу оставшейся части поддомена, то перед тем, как начать работу с необходимым URL, перейдите сначала в раздел Spider под названием «Configuration» и выберите в нем опцию «Crawl Outside Of Start Folder».

Разрешаем переход за рамки указанной папки

Как сканировать список поддоменов или каталогов

Чтобы взять в работу или, напротив, исключить конкретный список поддоменов или подкаталогов, вы можете использовать RegEx, чтобы задать правила включения (Include settings — сканируем только заданные папки) или исключения (Exclude settings — сканируем все, кроме указанных папок) определенных элементов в меню «Configuration».

Добавляем не нужный раздел в список исключений

Как сканировать сайт, размещенный на старом сервере

В некоторых случаях старые серверы могут оказаться неспособны обрабатывать заданное количество URL-запросов в секунду. Чтобы изменить скорость сканирования, в меню «Configuration» откройте раздел «Speed» и во всплывающем окне выберите максимальное число потоков, которые должны быть задействованы одновременно. В этом меню также можно выбрать максимальное количество URL-адресов, запрашиваемых в секунду.

Если в результатах сканирования вы обнаружите большое количество ошибок сервера, перейдите во вкладку «Advanced» в меню конфигурации Паука и увеличите значение времени ожидания ответа (Response Timeout) и число новых попыток запросов (5xx Response Retries).

Настройка авторизации

Паук Screaming Frog заходит на страницу, запрашивающую идентификацию, а затем всплывает окно, в котором требуется ввести логин и пароль.

Переход на страницу авторизации

Для того, чтобы впредь обходиться без данной процедуры, в меню конфигурации заходим в раздел Configuration ➜ Authentication и снимаем флажок.

Отключение авторизации

Парсинг списка URL

Итак, вы собрали много URL, но вам необходима дополнительная информация о них? Установите режим List, затем загрузите список URL-адресов в формате .txt или .csv. После завершения процедуры вы сможете увидеть код состояния, исходящие ссылки, количество слов и, конечно, метаданные для каждой страницы в вашем списке.

Переход в режим List -работа по перечню URL

Внутренние и внешние ссылки

Если вам не требуется информация про JavaScript, CSS и flash файлы, отключите эти опции в меню настроек для экономии времени обработки и памяти.

Как только алгоритм закончит сканирование, используйте Bulk Export и соответствующие пункты меню «Links» для экспорта CSV. Вы узнаете про расположение всех ссылок вместе с соответствующими текстами анкоров, директивами и т. д.

Использование меню для выгрузки отчетов в формате CSV

Все ссылки с большого сайта могут представлять собой большой отчет. Помните об этом при экспорте. Для больших сайтов экспорт может занять некоторое время.

Использование SEO Spider при внутренней перелинковке

Внутренняя перелинковка может принести хороший ROI (окупаемость инвестиций), особенно когда у вас есть стратегия распределения PageRank, ранжирование по ключевым словам и анкорам, в которых есть ключевые слова.

Анализ перелинковки

Не будем подробно разбирать правила перелинковки, просто расскажем два важных правила:

Важные для продвижения страницы должны быть как можно ближе к главной. Они должны иметь как можно больше входящих ссылок и меньше исходящих, чтобы у страницы был хороший внутри-ссылочный вес.
Во вкладках external и Internal нужно найти inlinks и outlinks, а затем отсортировать по значению. Желательно найти все важные и продвигаемые разделы в списке, для этого можно воспользоваться поиском. Значения входящих и исходящих ссылок у каждого сайта будут разные. Поэтому стоит отталкиваться от размера сайта, общего количества страниц и средне-ссылочной массы каждой из них.

Изучение исходящих и входящих ссылок на страницах. Можно посмотреть какие страницы ссылаются на ту или иную страницу и наоборот.

Поиск битых ссылок на сайте

Screaming Frog Seo Spider позволяет найти битые ссылки. Как только алгоритм закончит проверку, отфильтруйте результаты во вкладке «Internal» по «Status Code». Все 404, 301 и страницы с другим статусом будут показаны.

Обратите внимание на код ответа

Кликнув по любому отдельному URL в результате проверки, вы увидите изменение информации внизу программного окна. Нажав на вкладку «In Links» внизу окна, вы найдете список страниц, которые привязаны к выбранным URL, вместе с анкорным текстом и директивами, использованными на этих ссылках. Вы можете использовать это для мониторинга страниц, на которых нужно обновить внутренние ссылки.

Если страница имеет 404 код ответа, можно узнать, какие еще страницы ссылаются на нее, чтобы заменить или удалить на них битую ссылку.

Для экспорта полного списка страниц с битыми или редиректными ссылками, перейдите в Bulk Export ➜ Response Codes (коды ответов) и выберите «Redirection (3xx) In Links», «Client Error (4xx) In Links» или «Server Error (5xx) In Links». Таким образом вы получите данные в файле CSV.

Прокрутите до кодов ответов и посмотрите на следующие отчеты:

no response inlinks;
redirection (3xx) inlinks;
Redirection (JavaScript) inlinks;
redirection (meta refresh) inlinks;
client error (4xx) inlinks;
server error (5xx) inlinks.

Как найти 301, 302, 307 редиректы

Для экспорта полного списка ссылок с редиректом перейдите в Bulk Export ➜ Response Codes ➜ Redirection (3xx) In Links.

Поиск страниц с очень длинными заголовками страниц, СЕО-тегами или URL-адресами

После завершения сканирования перейдите на вкладку Page Titles и отфильтруйте по Over 65 Characters, чтобы увидеть слишком длинные заголовки страниц. Вы можете сделать то же самое на вкладке Meta Description или на вкладке URI.

Работа по обнаружению проблем с мета-тегами

Поиск дублей SEO-тегов или URL

После того, как SEO Spider закончил сканировать, перейдите на вкладку Page Titles, затем выберите Duplicate. Вы можете сделать то же самое на вкладках Meta Description или URI.

Поиск дублей seo-тегов

Поиск страниц с директивами nofollow, noindex, canonical и т.д.

После того, как SEO Spider закончил проверку, нажмите на вкладку Directives. Чтобы увидеть тип директивы, просто прокрутите вправо или растяните окно программы, чтобы увидеть, какие столбцы заполнены, или используйте фильтр, чтобы найти любой из следующих тегов:

Выберите интересующую вас директиву для получения списка страниц, использующих ее.

index;
noindex;
follow;
nofollow;
noarchive;
nosnippet;
noodp;
noydir;
noimageindex;
notranslate;
unavailable_after;
refresh.

Проверка файла robots.txt

По умолчанию Screaming Frog будет выполнять требования robots.txt. В качестве приоритета он будет следовать директивам, сделанным специально для пользовательского агента (user agent) Screaming Frog. Если для агента пользователя Screaming Frog нет никаких директив, то SEO Spider будет следовать любым директивам для поискового робота Googlebot, а если нет специальных директив для робота Googlebot, он будет следовать глобальным директивам для всех пользовательских агентов.

Если вы хотите заблокировать определенные части сайта от SEO Spider, используйте обычный синтаксис robots.txt с пользовательским агентом Screaming Frog SEO Spider. Если вы хотите игнорировать robots.txt, просто выберите эту опцию в настройках Configuration ➜ Spider.

Настройка паука для работы с роботс

Configuration ➜ Robots.txt ➜ Settings

Переход в настройки

Подробнее про robots.txt вы можете узнать из другой статьи.

Проверка микроразметки Schema и других структурированных данных

Начиная с Screaming Frog 11.0, Spider SEO также предлагает нам возможность просканировать, извлекать и проверять структурированные данные непосредственно из сканирования. Проверяйте любые структурированные данные JSON-LD, Microdata или RDFa в соответствии с рекомендациями Schema.org и спецификациями Google в режиме реального времени во время сканирования. Чтобы получить доступ к инструментам проверки структурированных данных, выберите параметры в Config ➜ Spider ➜ Extraction.

Даем добро на извлечение данных о микроразметке

Теперь в главном интерфейсе есть вкладка Structured Data, которая позволит вам переключаться между страницами, содержащими структурированные данные, и которые могут иметь ошибки или предупреждения проверки:

Поиск микроразметки на страницах через фильтр

Подробнее про микроразметку в другой статье сайта.

Проверка контента сайта через Screaming Frog

Ищем страницы с не информативным контентом

Screaming Frog позволяет посмотреть несодержательные страницы, то есть с минимальным содержанием контента (или без него). Приводим инструкцию, как это сделать.

После того, как алгоритм закончит проверку, откройте вкладку «Internal», отсортируйте по HTML и прокрутите вправо до колонки «Word Count». Отсортируйте колонку «Word count» от наименьшего до наибольшего, чтобы найти страницы с маленьким количеством контента. Вы можете перетянуть колонку «Word Count» влево. Нажмите «Export» во вкладке «Internal», если вам удобнее работать с данными в формате CSV.

Отсортируйте колонку Word count по возрастанию

Поиск URL-адресов, которые необходимо переписать или добавить атрибут canonical

После того, как SEO Spider завершил сканирование, перейдите на вкладку URI, затем отфильтруйте по Underscores, Uppercase или Non ASCII Characters (список URI, который содержит символы, не включенные в схему кодирования ASCII символов), чтобы просмотреть URL, которые потенциально могут быть переписаны в более стандартную структуру.

Поиск страниц с нестандартными URL. Помните, что изменение URL приведет потере позиций в выдаче, если не будет настроен редирект со старого адреса на новый.

Выберите Duplicate и вы увидите все страницы с несколькими версиями URL. Отфильтруйте по Parameters, и вы увидите URL-адреса, содержащие параметры.

Как найти на сайте CSS-файл.

В меню Configuration ➜ Spider выберите «Crawl» и «Store» CSS перед проверкой.

После завершения отсортируйте результаты по «CSS» во вкладке «Internal».

Поиск css на страницах

Ищем файлы JavaScript.

В меню Configuration ➜ Spider выберите «Crawl» и «Store» для JavaScript перед проверкой

Отсортируйте результаты по «JavaScript» во вкладке «Internal» по завершении обхода

Как найти изображения без alt

Во-первых, вы должны убедиться, что в меню Spider ➜ Configuration выбран Check Images. После того, как SEO Spider закончил анализировать, перейдите на вкладку Images и отфильтруйте по Missing Alt Text (отсутствует Alt) или Alt Text Over 100 Characters. Вы можете найти страницы, где находится любое изображение, нажав на вкладку Image Info в нижнем окне. Страницы будут перечислены в столбце From.

Поиск изображений. Обратите внимание на изображения без Alt — поисковики этого не прощают.

Наконец, если вы предпочитаете CSV, используйте меню Bulk Export, чтобы экспортировать All Images или Images Missing Alt Text Inlinks, чтобы увидеть полный список изображений, где они находятся, и любой связанный с ним текст alt или проблемы с alt Text.

Экспорт данных в CSV в зависимости от того, какая проблема с изображениями вас интересует.

Необходимо проверить наличие атрибута alt на всех изображениях, которые используются на сайте. Большинство изображений выводятся циклами, поэтому рекомендуется искать закономерности. Очень важно заполнять теги картинок — Alt. Но на фоне фильтра Яндекс Noname категорически нельзя спамить ключевыми словами в пункты меню, хлебные крошки и теги картинок. Многие сайты попали под этот фильтр именно благодаря тегам картинок и долгие годы сидят под фильтром, ведь самая страшная особенность данного фильтра (отсюда и происходит его название) в том, что поддержка Яндекс не отвечает на запрос по этому фильтру и говорит, что с сайтом все хорошо, да только вот ранжирование сайта в Яндекс оставляет желать лучшего.

Поиск плагинов jQuery

Прежде всего, убедитесь, что в меню конфигурации выбрано «Check JavaScript». По завершении сканирования примените в панели «Internal» фильтр «JavaScript», а после сделайте поиск «jQuery». Это позволит вам получить список файлов с плагинами. Отсортируйте перечень по функции «Address» для более удобного просмотра. Затем просмотрите «InLinks» в нижнем окне или экспортируйте информацию в CSV. Чтобы найти страницы, на которых используются файлы, поработайте со столбиком «From».

Получение списка страниц с .JS на борту

Поиск flash на сайте

Перед сканированием в меню конфигурации выберите «Check SWF». А по завершении работы Паука отфильтруйте результаты в панели «Internal» по значению «Flash».

Как найти на сайте PDF-файлы

После завершения сканирования отфильтруйте результаты работы Spider при помощи опции «PDF» в панели «Internal».

Для отображения списка страниц с PDF и Flash

Проверка орфографии и грамматики

Поиск страниц с грамматическими ошибками

Вы можете включить проверку орфографии и грамматики Configuration ➜ Content ➜ Spelling & Grammar.

Настройка словаря

Карта сайта

Создание XML Sitemap

После того, как паук закончил сканировать ваш ресурс, нажмите на «Sitemap» и выберите «XML Sitemap».

Сохраните вашу карту сайта в XML формате, а после откройте ее обычным блокнотом.

Генерация XML карты на основании полученного списка URL

После того, как карта сайта предстанет перед вами в табличной форме, вы с легкостью сможете изменить частоту, приоритет и прочие настройки. Обязательно убедитесь в том, что Sitemap содержит лишь один предпочитаемый (канонический) вариант каждого URL, без параметров и прочих дублирующих факторов.

После внесения каких-либо изменений пересохраните файл в формате XML.

Как найти страницы, которых нет в Sitemap.xml

Вы можете настроить параметры сканирования, чтобы обнаруживать и сравнивать URL-адреса в ваших XML-файлах сайта с URL-адресами в пределах вашего сайта.

Перейдите в Configuration ➜ Spider в главной навигации, и внизу есть несколько опций для XML-карт сайтов – Auto discover XML sitemaps через ваш файл robots.txt или вручную введите ссылку XML-карты сайта в поле. *Important note – если ваш файл robots.txt не содержит правильных целевых ссылок на все XML-карты сайта, которые вы хотите сканировать, вы должны ввести их вручную.

Настройка позволит найти страницы, которых не в sitemap

После обновления настроек сканирования XML-файла Sitemap перейдите к пункту Crawl Analysis в навигации, затем нажмите Configure и убедитесь, что кнопка Sitemaps отмечена.

Сначала запустите полное сканирование сайта
Вернитесь к Crawl Analysis и нажмите Start.

Убедитесь, что чекбокс Sitemaps активен

Общие проблемы

Определение проблем с индексацией и ранжированием

Хотите знать, почему некоторые страницы закрыты от индексации? Во-первых, стоит убедиться, что они не были случайно помещены в файл robots.txt или помечены как noindex. Затем нужно проверить, что SEO Spider может добраться до страниц, проверив ваши внутренние ссылки. Страницу, которая не имеет внутренних ссылок на вашем сайте, часто называют «сиротами» (Orphaned Page).

Чтобы выявить потерянные страницы, выполните следующие действия:

Перейдите в Configuration ➜ API Access ➜ Google Analytics – используя API, вы можете получить аналитические данные для конкретной учетной записи и просмотра. Чтобы найти бесхозные страницы из органического поиска, убедитесь, что они разделены на органический трафик.

Переход к настройкам Google Analytics

Вы также можете перейти к разделу Configuration ➜ API Access ➜ Google Analytics ➜ General ➜ Crawl New URLs Discovered In Google Analytics, если вы хотите, чтобы URL-адреса, обнаруженные в GA, были включены в ваш полный обход сайта. Если это не включено, вы сможете просматривать только новые URL-адреса, извлеченные из GA, в отчете Orphaned Pages.

Включение обхода новых URL, обнаруженных в GA

Перейдите в Configuration ➜ API Access ➜ Google Search Console – используя API, вы можете получить данные GSC для конкретной учетной записи и просмотра. Чтобы найти бесхозные страницы, вы можете искать URL-адреса, на которых получены клики и показы, которые не включены в ваш просмотр. Вы также можете перейти к разделу General ➜ Crawl New URLs Discovered In Google Search Console, если вы хотите, чтобы URL-адреса, обнаруженные в GSC, были включены в ваш полный обход сайта. Если этот параметр не включен, вы сможете просматривать только новые URL-адреса, извлеченные из GSC, в отчете Orphaned Pages.

Просканируйте весь сайт. После завершения сканирования перейдите в Crawl Analysis ➜ Start и дождитесь его завершения.

Просмотрите потерянные URL-адреса на каждой из вкладок или выполните Bulk Expor всех потерянных URL-адресов, перейдя в Reports ➜ Orphan Pages.

Получение списка страниц-сирот

Как найти медленные страницы

После того, как SEO Spider завершил сканирование, перейдите на вкладку Response Codes и отсортируйте по столбцу Response Time по возрастанию, чтобы найти страницы, которые могут страдать от низкой скорости загрузки.

Сортируем колонку по возрастанию. Время указано в секундах

Поиск вредоносного ПО и спама

Вам необходимо идентифицировать след вредоносного ПО или спама. Далее в меню Configuration нажмите Custom ➜ Search и введите искомый элемент, который вы ищете.

Настройка условий поиска

Вы можете ввести до 10 различных фильтров для сканирования.

В заключение

Если вы не SEO-специалист, то решение провести самостоятельный технический аудит сайта своей компании похвально. Такая программа, как Screaming Frog Spider SEO, может очень помочь вам в этом деле, но для полной оптимизации сайта этого все же недостаточно. Существует множество сервисов, которые помогают проанализировать проблемы, но данная программа имеет самый обширный арсенал возможностей. И помните главное правило — лучше делать долго, но качественно, чем быстро и почти никак.

Источник

Attention! Много букв! Много скринов! Много смысла!

Доброго времени суток, друзья. Сегодня я хочу рассказать вам о настройке Screaming Frog (он же SF, он же краулер, он же паук, он же парсер — сразу определимся со всеми синонимами, ок?).

SF — очень полезная программа для анализа внутрянки сайтов. С помощью этой утилиты можно быстро выцепить технические косяки сайта, чтобы составить грамотное ТЗ на доработку. Но чтобы увидеть проблему, надо правильно настроить краулера, верно? Об этом мы сегодня с вами и поговорим.

Примечание автора: сразу скажу — программа имеет много вкладок и настроек, которые по сути не нужны рядовому пользователю, потому я подробно опишу только наиболее важные моменты, а второстепенные пройдем вскользь… хотя кого я обманываю, когда это у меня были статьи меньше 30 к символов? *Зануда mode on*

Примечание автора 2: при написании статьи я пользовался дополнительными материалами в виде официального мануала от разработчиков. Если что, почитать его можно тут https://www.screamingfrog.co.uk/seo-spider/user-guide/. Не пугайтесь английского, Google-переводчик в помощь — вполне себе сносная адаптация получается.

Примечание автора 3: я люблю оставлять примечания…

File
Configuration
Spider — настройки парсинга сайта
Robots.txt — определяем каким правилам следовать при парсинге
URL Rewriting — функция перезаписи URL
CDNs — парсим поддомены
Include/Exclude — сканирование/удаление определенных папок
Speed — регулируем скорость парсинга сайта
User-Agent — выбираем под кого маскируемся
HTTP Header — настройка реагирования на разные http-заголовки
Custom — дополнительные настройки поиска
User Interface — обнуление настроек для колонок таблицы
API Access — интеграция с разными сервисами
Authentification — настройки аутентификации
System — внутренние настройки самой программы
Mode
Bulk export
Reports
Sitemaps
Visualisations
Crawl Analysis
License
Help

Настройка Screaming Frog по шагам

Рассмотрим основное меню программы, для того чтобы понимать что где лежит и что за что отвечает (тавтология… Вова может в копирайт!).

Верхнее меню — управление парсингом, выгрузкой и многое другое

File

Из названия понятно, что это работа с файлами программы (загрузка проектов, конфиги, планирование задач — что-то вроде того).

Open — открыть файл с уже проведенным парсингом.
Open Recent — открыть последний парсинг (если вы его сохраняли отдельным файлом).
Save — собственно, сохранить парсинг.
Configuration — загрузка/сохранение специальных настроек парсинга вроде выведения дополнительных параметров проверки и т.д. (про то, как задавать эти настройки, я далее расскажу подробнее).
Crawl Recent — повторно парсить один из последних сайтов, который уже проверялся в этой программе.
Scheduling — отложенное планирование задач для программы… ни разу не пользовался этой опцией…стыдно.
Exit — призвать к ответу Друзя… нет, ну серьезно,тут все очевидно.

друзь.jpg

Configuration

Один из самых интересных и важных пунктов меню, тут мы задаем настройки парсинга.

Ох, сейчас будет сложно — у многих пунктов есть подпункты, у этих подпунктов всплывающие окна с вкладками и кучей настроек…в общем крепитесь, ребята, будет много инфы.

Spider — собственно, настройки парсинга сайта

Вкладка Basic — выбираем что парсить

Check Images — в отчет включаем анализ картинок.
Check CSS — в отчет включаем анализ css-файлов (скрипты).
Check JavaScript — в отчет включаем анализ JS-файлов (скрипты).
Check SWF — в отчет включаем анализ Flash-анимации.
Check External Link — в отчет включаем анализ ссылок с сайта на другие ресурсы.
Check Links Outside of Start Folder — проверка ссылок вне стартовой папки. Т.е. отчет будет только по стартовой папке, но с учетом ссылок всего сайта.
Follow internal “nofollow” — сканировать внутренние ссылки, закрытые в тег “nofollow”.
Follow external “nofollow” — сканировать ссылки на другие сайты, закрытые в тег “nofollow”.
Crawl All Subdomains — парсить все поддомены сайта, если ссылки на них встречаются на сканируемом домене.
Crawl Outside of Start Folder — позволяет сканировать весь сайт, однако проверка начинается с указанной папки.
Crawl Canonicals — выведение в отчете атрибута rel=”canonical” при сканировании страниц.
Crawl Next/Prev — выведение в отчете атрибутов rel=”next”/”prev” при сканировании страниц пагинации.
Extract hreflang/Crawl hreflang — при сканировании учитываются языковой атрибут hreflang и отображаются коды языка и региона страницы + формирование отчета по таким страницам.
Extract AMP Links/Crawl AMP Links — извлечение в отчет ссылок с атрибутом AMP (определение версии контента на странице).
Crawl Linked XML Sitemap — сканирование карты сайта. Тут краулер либо берет sitemap из robots.txt (Auto Discover XML Sitemap via robots.txt), либо берет карту по указанному пользователем пути (Crawl These Sitemaps).

Ну что, сложно? На самом деле просто нужна привычка и немного практики, чтобы освоить основные настройки SF и понять что нужно использовать в конкретных случаях, а от чего можно отказаться. Все, передохнули, теперь дальше… будет проще (нет).

Вкладка Limits — определяем лимиты парсинга

Limit Crawl Total — задаем лимиты страниц для сканирования. Сколько всего страниц выгружаем для одного проекта.
Limit Crawl Depth — задаем глубину парсинга. До какого уровня может дойти краулер при сканировании проекта.
Limit Max Folder Depth — можно контролировать глубину парсинга вплоть до уровня вложенности папки.
Limit Number of Query Strings — тут, если честно, сам не до конца разобрался, потому объясню так, как понял — мы ограничиваем лимит страниц с параметрами. Другими словами, если на одной статической странице есть несколько фильтров, то их комбинация может породить огромное количество динамических страниц. Вот чтобы такие “полезные” страницы не парсились (увеличивает время анализа в разы, а толковой информации по сути ноль), мы и выводим лимиты по Query Strings. Пример динамики — site.ru/?query1&query2&query3&queryN+1.
Max Redirects to Follow — задаем максимальное количество редиректов, по которым паук может переходить с одного адреса.
Max URL Length to Crawl — максимальная длина URL для обхода (указываем в символах, я так понимаю).
Max Links per URL to Crawl — максимальное количество ссылок на URL для обхода (указываем в штуках).
Max Page Size (KB) to Crawl — максимальный размер страницы для обхода (указываем в килобайтах).

Вкладка Rendering — настраиваем параметры рендеринга (только для JS)

На выбор три опции — “Text Only” (паук анализирует только текст страницы, без учета Аякса и JS), “Old AJAX Crawling Scheme” (проверяет по устаревшей схеме сканирования Аякса) и “JavaScript” (учитывает скрипты при рендеринге). Детальные настройки есть только у последнего, их и рассмотрим.

Enable Rendered Page Screen Shots — SF делает скриншоты анализируемых страниц и сохраняет их в папке на ПК.
AJAX Timeout (secs) — лимиты таймаута. Как долго SEO Spider должен разрешать выполнение JavaScript, прежде чем проверять загруженную страницу.
Window Size — выбор размера окна (много их — смотрим скриншот).
Sample — пример окна (зависит от выбранного Window Size).
Чекбокс Rotate — повернуть окно в Sample.

Вкладка Advanced — дополнительные опции парсинга

Allow Cookies — учитывать Cookies, как это делает поисковый бот.
Pause on High Memory Used — тормозит сканирование сайта, если процесс забирает слишком много оперативной памяти.
Always Follows Redirect — разрешаем краулеру идти по редиректам вплоть до финальной страницы с кодом 200, 4хх, 5хх (по факту все ответы сервера, кроме 3хх).
Always Follows Canonicals — разрешаем краулеру учитывать все атрибуты “canonical” вплоть до финальной страницы. Полезно, если на страницах сайта бардак с настройкой этого атрибута (например, после нескольких переездов).
Respect Noindex — страницы с “noindex” не отображаются в отчете SF.
Respect Canonical — учет атрибута “canonical” при формировании итогового отчета. Полезно, если у сайта много динамических страниц с настроенным rel=”canonical” — позволяет убрать из отчета дубли по метаданным (т.к. на страницах настроен нужный атрибут).
Respect Next/Prev — учет атрибутов rel=”next”/”prev” при формировании итогового отчета. Полезно, если у сайта есть страницы пагинации с настроенными “next”/”prev”- позволяет убрать из отчета дубли по метаданным (т.к. на страницах настроен нужный атрибут).
Extract Images from img srscet Attribute — изображения извлекаются из атрибута srscet тега <img>. SRSCET — атрибут, который позволяет вам указывать разные типы изображений для разных размеров экрана/ориентации/типов отображения.
Respect HSTS Policy — если чекбокс активен, SF будет выполнять все будущие запросы через HTTPS, даже если перейдет по ссылке на URL-адрес HTTP (в этом случае код ответа будет 307). Если же чекбокс неактивен, краулер покажет «истинный» код состояния за перенаправлением (например, постоянный редирект 301).
Respect Self Referencing Meta Refresh — учитывать принудительную переадресацию на себя же (!) по метатегу Refresh.
Response Timeout — время ожидания ответа страницы, перед тем как парсер перейдет к анализу следующего урла. Можно сделать больше (для медленных сайтов), можно меньше.
5хх Response Retries — количество попыток “достучаться” до страниц с 5хх ответом сервера.
Store HTML — можно сохранить статический HTML-код каждого URL-адреса, просканированного SEO Spider, на диск и просмотреть его до того, как JavaScript “вступит в игру”.
Store Rendered HTML — позволяет сохранить отображенный HTML-код каждого URL-адреса, просканированного SEO Spider, на диск и просмотреть DOM после обработки JavaScript.
Extract JSON-LD — извлекаем микроразметку сайта JSON-LD. При выборе — дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).
Extract Microdata — извлекаем микроразметку сайта Microdata. При выборе — дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).
Extract RDFa — извлекаем микроразметку сайта RDFa. При выборе — дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).

Вкладка Preferences — так называемые “предпочтения”

Здесь задаем желаемые параметры для некоторых сканируемых элементов (title, description, url, H1, H2, alt картинок, размер картинок). Соответственно, если сканируемые элементы сайта не будут соответствовать нашим предпочтениям, программа нам об этом сообщит в научно-популярной форме. Совершенно необязательные настройки — каждый прописывает для себя свой идеал… или вообще их не трогает, от греха подальше (как делаю я).

Page Title Width — оптимальная ширина заголовка страницы. Указываем желаемые размеры от и до в пикселях и в символах.
Meta Description Width — оптимальная ширина описания страницы. Аналогично, как и с тайтлом, указываем желаемые размеры.
Other — сюда входит максимальная желаемая длина урл-адреса в символах (Max URL Length Chars), максимальная длина H1 в символах (Max H1 Length Chars), максимальная длина H2 в символах (Max H2 Length Chars), максимальная длина ALT картинок в символах (Max Image Length Chars) и максимальный вес картинок в КБ (Max Image Size Kilobytes).

Robots.txt — определяем каким правилам следовать при парсинге

Вкладка Settings — настраиваем парсинг относительно правил robots.txt

Respect robots.txt — следуем всем правилам, прописанным в robots.txt. Т.е. учитываем в анализе те папки и файлы, которые открыты для робота.
Ignore robots.txt — не учитываем robots.txt сайта при парсинге. В отчет попадают все папки и файлы, относящиеся к домену.
Ignore robots.txt but report status — не учитываем robots.txt сайта при парсинге, однако в дополнительном меню выводится статус страницы (индексируемая или не индексируемая).
Show internal/external URLs blocked by robots.txt — отмечаем в чекбоксах хотим ли мы видеть в итоговом отчете внутренние и внешние ссылки, закрытые от индексации в robots.txt. Данная опция работает только при условии выбора “Respect robots.txt”.

Вкладка Custom — ручное редактирование robots.txt в пределах текущего парсинга

Удобно, если вам нужно при парсинге сайта учитывать (или исключить) только определенные папки, либо же добавить правила для поддоменов. Кроме того, можно быстро сформировать и проверить свой рабочий robots, чтобы потом залить его на сайт.

Шаг 1. Прописать анализируемый домен в основной строке

Шаг 2. Кликнуть на Add, чтобы добавить robots.txt домена

Тут на самом деле все очень просто, поэтому я по верхам пробегусь по основным опциям (а в конце будет видео, где я бездумно прокликиваю все кнопки).

Блок Subdomains — сюда, собственно, можно добавлять домены/поддомены, robots.txt которых мы хотим учитывать при парсинге сайта.
Окно справа — для редактирования выгруженного robots.txt. Итоговый вариант будет считаться каноничным для парсера.
Окошко снизу — проверка индексации url в зависимости от настроенного robots.txt. Справа выводится статус страницы (Allowed или Disallowed).

URL Rewriting — функция перезаписи URL «на лету»

Тут мы можем настроить перезапись урл-адресов домена прямо в ходе парсинга. Полезно, когда нужно заменить определенные регулярные выражения, которые засоряют итоговый отчет по парсингу.

Вкладка Remove Parameters

Вручную вводим параметры, которые нужно удалять из url при анализе сайта, либо исключить вообще все возможные параметры (чекбокс “Remove all”). Полезно, если у страниц сайта есть идентификаторы сеансов, отслеживание контекста (utm_source, utm_medium, utm_campaign) или другие фишки.

Вкладка Regex Replace

Изменяет все сканируемые урлы с использованием регулярных выражений. Применений данной настройки масса, я приведу только несколько самых распространенных примеров:

Изменение всех ссылок с http на https (Регулярное выражение: http Заменить: https).
Изменение всех ссылок на site.by на site.ru (Регулярное выражение: .by Заменить: .ru).
Удаление всех параметров (Регулярное выражение: \?. * Заменить: ).
Добавление параметров в URL (Регулярное выражение: $ Заменить: ?ПАРАМЕТР).

Вкладка Options

Вы рассчитывали увидеть здесь еще 100500 дополнительных опций для суперточной настройки URL Rewriting, я прав? Как бы странно это ни звучало, но здесь мы всего лишь определяем перезаписывать все прописные url-адреса в строчные или нет… вот как-то так, не спрашивайте, я сам не знаю почему для этой опции сделали целую отдельную вкладку.

Вкладка Test

Тут мы можем предварительно протестировать видоизменение url перед началом парсинга и, соответственно, подправить регулярные выражения, чтобы на выходе не получилось какой-нибудь ерунды.

CDNs — парсим поддомены, не отходя от кассы

Использование настройки CDNs позволяет включать в парсинг дополнительные домены/поддомены/папки, которые будут обходиться пауком и при этом считаться внутренними ссылками. Полезно, если нужно проанализировать массив сайтов, принадлежащих одному владельцу (например, крупный интернет-магазин с сетью сайтов под регионы). Также можно прописывать регулярные выражения на конкретные пути сканирования — т.е. парсить только определенные папки.

Во вкладке Test можно посмотреть как будут определяться урлы в зависимости от используемых параметров (Internal или External).

Include/Exclude — сканирование/удаление определенных папок

Можно регулярными выражениями задать пути, которые будут сканироваться внутри домена. Также можно запретить парсинг определенных папок. Единственный нюанс в настройках — при использовании Include будут парситься только УКАЗАННЫЕ папки, если же мы добавляем урлы в Exclude, сканироваться будут все папки, КРОМЕ УКАЗАННЫХ.

Выбираем папки для парсинга

Удаляем папки из парсинга

Примеры регулярных выражений для Exclude:

http://site.by/obidnye-shutki-pro-seo.html (исключение конкретной страницы).
http://site.by/obidnye-shutki-pro-seo/.* (исключение целой папки).
http://site.by/.*/obidnye-shutki-pro-seo/.* (исключение всех страниц, после указанной).
.*\?price.* (исключение страниц с определенным параметром).
.*jpg$ (исключение файлов с определенным расширением).
.*seo.* (исключение страниц с вхождением в url указанного слова).
.*https.* (исключение страниц с https).
http://site.by/.* (исключение всех страниц домена/поддомена).

Speed — регулируем скорость парсинга сайта

Можно выставить как количество потоков (по умолчанию 5), так и число одновременно сканируемых адресов. Влияет на скорость парсинга и вероятность бана бота, так что тут лучше не усердствовать.

User-Agent — выбираем под кого маскируемся

В списке user-agent можно выбрать от лица какого бота будет происходить парсинг сайта. Удобно, если в настройках сайта есть директивы, блокирующие того или иного бота (например, запрещен google-bot). Также полезно иногда прокраулить сайт гугл-ботом для смартфона, чтобы проверить косяки адаптива или мобильной версии.

Скажу сразу — это опция очень индивидуальна, лично я ее не пользую, потому что чаще всего незачем. В любом случае, настройка реагирования на http-заголовки позволяет определить, как паук будет их обрабатывать (если указаны нюансы в настройках). По крайней мере я так это понял.

Т.е. можно индивидуально настроить, например, какого формата контент обрабатывать, учитывать ли cookie и т.д. Нюансов там довольно много.

Custom — дополнительные настройки поиска по исходному коду

Custom Search

По сути обычный фильтр, с помощью которого можно вытягивать дополнительные данные, например, страницы, в которых вместо тега <strong> используется <bold> или еще лучше — страницы, которые НЕ содержат определенного контента (например, без кода счетчика метрики). Фактически в настройках можно задать все что угодно.

Custom Extraction

Это пользовательское извлечение любых данных из html (например, текстовое содержимое).

User Interface — обнуление настроек для колонок таблицы

Просто сбрасывает сортировку столбцов, ничего особенного, проходим дальше, граждане, не толпимся.

API Access — интеграция с разными сервисами

Для того чтобы получать больше данных по сайту, можно настроить интеграцию с разными сервисами статистики типа Google Analytics или Majestic, при условии того, что у вас есть аккаунт в этом сервисе.

При этом для каждого сервиса отдельные настройки выгрузки по типам данных.

На примере GA

Authentification — настройки аутентификации (если есть запрос от сайта)

Есть два вида аутентификации — Standart Based и Form Based. По умолчанию используется Standart Base — если при парсинге от сайта приходит запрос на аутентификацию, в программе появляется соответствующее окно.

Form Based — использование для аутентификации встроенного в SF браузера (полезно, когда для подтверждения аутентификации нужно, например, пройти капчу). В данном случае необходимо вручную вводить урл сайта и в открывшемся окне браузера вводить логин/пароль, кликать recaptcha и т.д.

System — внутренние настройки самой программы

Настройки работы самой программы — сколько оперативной памяти выделять на процесс, куда сохранять экспорт и т.д.

Давайте как обычно — подробнее о каждом пункте.

Memory — выделяем лимиты оперативной памяти для парсинга. По дефолту стоит 2GB, но можно выделить больше (если ПК позволяет).

Storage — выбор базы для хранения данных. Либо сохранение в ОЗУ (для этого у SF есть свой движок), либо в указанной папке на ПК пользователя.

Proxy — подключение прокси-сервера для парсинга.

Embedded Browser — использование встроенного в программу браузера (вкл/выкл).

Mode

Spider (Режим паука) — классический парсинг сайта по внутренним ссылкам. Просто вводим нужный домен в адресную строку программы и запускаем работу.
List — парсим только предварительно собранный список урл-адресов! Адреса можно выгрузить из файла (From a file), вбить вручную (Enter Manually), подтянуть их из карты сайта (Download Sitemap) и т.д. Если честно, этих трех способов получения списка урлов должно быть более чем достаточно.

SERP Mode — в этом режиме нет сканирования, зато здесь можно загружать мета-данные сайта, редактировать их и предварительно понимать как они будут отображаться в браузере. Делать все это можно пакетно, что вполне себе удобно.

Bulk export

В этом пункте меню висят все опции SF, отвечающие за массовый экспорт данных из основного и дополнительного меню отчета…сейчас покажу на скриншоте.

В общем и целом с помощью bulk export можно вытянуть много разной полезной информации для последующей постановки ТЗ на доработки. Например, выгрузить в excel страницы, на которых найдены ссылки с 3хх ответом сервера + сами 3хх-ссылки, что позволяет сформировать задание для программиста или контент-менеджера (зависит от того, где зашиты 3хх-ссылки) на замену этих 3хх-ссылок на прямые с кодом 200. Теперь подробнее про то, что можно экспортировать при помощи Bulk Export.

All Inlinks — получаем все входящие ссылки на каждый URI, с которым столкнулся краулер при сканировании сайта.
All Outlinks — получаем все исходящие ссылки с каждого URI, с которым столкнулся краулер при сканировании сайта.
All Anchor Text — выгрузка анкоров всех ссылок.
All Images — выгрузка всех картинок (урл-адресами, естественно).
Screenshots — экспорт снимков экрана.
All Page Source — получаем статический HTML-код или обработанный HTML-код просканированных страниц (рендеринг HTML доступен только в режиме рендеринга JavaScript) .
External Links — все внешние ссылки со всех просканированных страниц.
Response Codes — все страницы в зависимости от выбранного кода ответа сервера (закрытые от индекса, с кодом 200, с кодом 3хх и т.д.).
Directives — все страницы с директивами в зависимости от выбранной (Index Inlinks, Noindex Inlinks, Nofollow Inlinks и т.д.).
Canonicals — страницы, содержащие канонические атрибуты, страницы без указания этих атрибутов, каноникализированные (*перекрестился*) страницы и т.д.
AMP — страницы с AMP, ссылки с AMP (но код ответа не 200) и т.д.
Structured Data — выгрузка страниц с микроразметкой.
Images — выгрузка картинок без альт-текста, тяжелых картинок (в соответствии с указанным в настройках размером).
Sitemaps — выгрузка всех страниц в карте сайта, неиндексируемых страниц в карте сайта и проч.
Custom — выгрузка пользовательских фильтров.

Reports

Здесь содержится множество различных отчетов, которые также можно выгрузить.

Crawl Overview — в этом отчете содержится сводная информация о сканировании, включая такие данные, как количество найденных URL-адресов, заблокированных robots.txt, число сканированных, тип контента, коды ответов и т. д.
Redirect & Canonical Chains — отчет о перенаправлении и канонических цепочках. Здесь отображаются цепочки перенаправлений и канонических символов, показывается количество переходов по пути и идентифицируется источник, а также цикличность (если есть).
Non-Indexable Canonicals — здесь можно получить выгрузку, в которой освещаются ошибки и проблемы с canonical. В частности, этот отчет покажет любые канонические файлы, которые не отдают корректного ответа сервера — заблокированы файлом robots.txt, с перенаправлением 3хх, ошибкой 4хх или 5хх (вообще все что угодно, кроме ответа «ОК» 200).
Pagination — ошибки и проблемы с атрибутами rel=”next” и rel=”prev”, которые используются для обозначения содержимого, разбитого на пагинацию.
Hreflang — проблемы с атрибутами hreflang (некорректный ответ сервера, страницы, на которые нет гиперссылок, разные коды языка на одной странице и т.д.).
Insecure Content — показаны любые защищенные (HTTPS) URL-адреса, на которых есть небезопасные элементы, такие как внутренние ссылки HTTP, изображения, JS, CSS, SWF или внешние изображения в CDN, профили социальных сетей и т. д.
SERP Summary — этот отчет позволяет быстро экспортировать URL-адреса, заголовки страниц и мета-описания с соответствующими длинами символов и шириной в пикселях.
Orphan Pages — список потерянных страниц, собранных из Google Analytics API, Google Search Console (Search Analytics API) и XML Sitemap, которые не были сопоставлены с URL-адресами, обнаруженными во время парсинга.
Structured Data — отчет содержит данные об ошибках валидации микроразметки страниц.

Sitemaps

С помощью этого пункта можно сгенерировать XML-карту сайта (страницы и картинки).

Все просто — выбираем что будем генерировать. В появившемся окне при необходимости выбираем нужные параметры и создаем карту сайта, которую потом заливаем в корневой каталог сайта.

Рассмотрим подробнее параметры, которые нам предлагают выбрать при генерации карты сайта.

Вкладка Pages — выбираем какие типы страниц включить в карту сайта.

Noindex Pages — страницы, закрытые от индексации.
Canonicalised — каноникализированные (опять это страшное слово!) страницы . Другими словами, динамика, у которой есть rel=”canonical”.
Paginated URLs — страница пагинации.
PDFs — PDF-документы.
No response — страницы с кодом ответа сервера 0 (не отвечает).
Blocked by robots.txt — страницы закрытые от индекса в robots.txt.
2xx — страницы с кодом 2хх (они будут в карте в любом случае).
3хх — страницы с кодом ответа 3хх (редиректы).
4хх — страницы с кодом ответа 4хх (битые ссылки на несуществующие страницы).
5хх — страницы с кодом ответа 5хх (проблема сервера при загрузке).

Вкладка Last Modified — выставляем дату последнего обновления карты.

nclude <lastmod> tag — использовать в sitemap тег <lastmod> (дата последнего обновления карты).
Use server report — использовать ответ сервера при создании карты, либо проставить дату вручную.

Вкладка Priority — выставляем приоритет ссылки в зависимости от глубины залегания страницы.

Include <priority> tag — добавляет в карту сайта тег <priority>, показывающий приоритет страницы.
Crawl Depth 0-5+ — в зависимости от глубины залегания страницы, можно проставить ее приоритет сканирования для поискового робота.

Вкладка Change Frequency — выставляем вероятную частоту обновления страниц.

Include <changefreq> tag — использовать тег <changefreq> в карте сайта. Показывает частоту обновления страницы.
Calculate from Last Modified header — рассчитать тег по последнему измененному заголовку.
Use crawl depth settings — проставить тег в зависимости от глубины страницы.

Вкладка Images — добавляем картинки в карту сайта.

Include Images — выводить в общей карте сайта картинки.
Include Noindex Images — добавить картинки, закрытые от индекса.
Include only relevant Images with up to … inlinks — добавить только картинки с заданным числом входящих ссылок.
Regex list of CDNs hosting images to be included — честно, так и не понял что это такое… возможно настройка выгрузки в карту сайта картинок из хостинга (т.е. можно вбить списком несколько хостов и оттуда подтянуть картинки), но это всего лишь мои предположения.

Вкладка Hreflang — использовать в sitemap атрибут <hreflang> (или не использовать).

Visualisations

Это выбор интерактивной визуализации структуры сайта в программе. Можно получить отображение дерева сканирования и дерева каталогов. Основная фишка в том, что открываются эти карты и диаграммы во встроенном браузере программы, что позволяет эффективнее с ними работать (настраивать выведение, масштабировать, перескакивать к нужным урлам через поиск и т.д.).

Crawl Tree Graph — визуализация сканирования. По факту после завершения краулинга показывает текущую структуру сайта на основании анализа.

Directory Tree Graph — показывает ВСЕ каталоги после сканирования. Т.е. отличие от Crawl Tree Graph в том, что в этом отчете показываются, например, папки, закрытые от индекса.

Назначение Crawl Tree Graph и Directory Tree Graph в основном заключается в упрощении анализа структуры текущего сайта, можно глазами пробежаться по всем папкам, зацепиться за косяки (т.к. они выделены цветом). При наведении на папку, показывается ее данные (url, title, h1, h2 и т.д.).

Force Directed Crawl-Diagram — по сути то же самое, что и Crawl Tree Graph, только оформленное по-другому + показывает сканирование сайта относительно главной страницы (ну или стартовой). Кому-то покажется нагляднее, хотя по мне, выглядит гораздо сложнее для восприятия.

Force Directed Tree-Diagram — аналогично, другой тип визуализации дерева каталогов сайта.

Inlink Anchor Text Word Cloud — визуализация анкоров (ссылочного текста) внутренней ссылки. Анализирует каждую страницу по-отдельности. Помогает понять какими анкорами обозначена страница, как их много, насколько разнообразны и т.д.

Р- Разнообразие

Body Text Word Cloud — визуализация плотности отдельных слов на странице. По сути выглядит так же, как и Inlink Anchor Text Word Cloud, так что отдельный скрин делать смысла особого нет — обычное облако слов, по размеру можно определить какое слово встречается чаще, по общему числу посмотреть разнообразие слов на странице и т.д.

Каждая визуализация имеет массу настроек вывода данных, маркировки — про них я писать не буду, если станет интересно, сами поиграетесь, ок? Там ничего сложного.

Crawl Analysis

Большинство параметров сайта вычисляется пауком в ходе сбора статистики, однако некоторые данные (Link Score, некоторые фильтры и прочее) нуждаются в дополнительном анализе, чтобы попасть в финальный отчет. Данные, которые нуждаются в Crawl Analysis, помечены соответствующим образом в правом меню навигации.

Crawl Analysis запускается после основного парсинга. Перед запуском дополнительного анализа, можно настроить его (какие данные выводить в отчет).

Link Score — присвоение оценок всем внутренним ссылкам сайта.
Pagination — показывает петлевые пагинации, а также страницы, которые обнаружены только через атрибуты rel=”next”/”prev”.
Hreflang — урлы hreflang без гиперссылки, битые ссылки.
AMP — страницы без тегов “html amp”, теги не с 200 кодом ответа.
Sitemaps — неиндексируемые страницы в карте сайта, урлы в нескольких картах сайта, потерянные страницы (например, есть в Google Analytics, есть в sitemap, не обнаружено при парсинге), страницы, которых нет в карте сайта, страницы в карте сайта.
Analytics — потерянные страницы (есть в аналитике, нет в парсинге).
Search Console — потерянные страницы (есть в вебмастере, нет в парсинге).

License

Исходя из названия, логично предположить, что этот пункт меню отвечает за разного рода манипуляции с активацией продукта…иии так оно и есть!

Buy a License — купить лицензию. При клике переход на соответствующую страницу официалов https://www.screamingfrog.co.uk/seo-spider/licence/. Стоимость ключа для одного ПК — 149 фунтов стерлинга. Есть пакеты для нескольких ПК, там, как обычно, идут скидки за опт.

Enter License — ввести логин и ключ лицензии, чтобы активировать полный функционал парсера.

Заметили, да? Лицензия покупается на год, не бессрочная

Help

Помощь юзеру — гайды, FAQ, связь с техподдержкой, в общем все, что связано с работой программы, ее багами и их решением.

User Guide — мануал по работе с программой. Собственно, его я использовал, как один из источников, для написания этой статьи. При желании, можете ознакомиться, если я что-то непонятно рассказал или не донес. Еще раз оставлю ссылку https://www.screamingfrog.co.uk/seo-spider/user-guide/.
FAQ — часто задаваемые вопросы по работе с SF и ответы на них https://www.screamingfrog.co.uk/seo-spider/faq/.
Support — обратная связь с техподдержкой https://www.screamingfrog.co.uk/seo-spider/support/. Если программа ведет себя некрасиво (например, не принимает ключ лицензии), можно пожаловаться куда надо и все починят.
Feedback — обратная связь. Та же самая страница, что и в Support. Т.е. можно не только жаловаться, но и вносить предложения по работе программы, предлагать партнерку, сказать банальное “спасибо” за такой крутой сервис (думаю ребятам будет приятно).
Check for Updates и Auto Check for Updates — проверка на наличие обновлений программы. Screaming Frog нерегулярно, но довольно часто дорабатывается, поэтому есть смысл периодически проверять апдейты. Но лучше поставить галочку на Auto Check for Updates и программа сама будет автоматически предлагать обновиться при выходе нового апа.
Debug — отчет о текущем состоянии программы. Нужно, если вы словили какой-то баг и хотите о нем сообщить разработчику. Там еще дополнительно есть настройки дебага, но я думаю, нет смысла заострять на этом внимание.
About — собственно, краткая информация о самой программе (копирайт, сервисы, которые использовались при разработке).

Итог

Screaming Frog — очень гибкая в плане настройке утилита, с помощью которой можно вытянуть массу данных для анализа, нужно только (только… ха-ха) правильно настроить парсинг. Я надеюсь, мой мануал поможет вам в этом, хотя и не все я рассмотрел как надо, есть пробелы, но основные функции должны быть понятны.

Теперь от себя — текста много, скринов много, потому, если вы начинающий SEO-специалист, рекомендую осваивать SF поэтапно, не хватайтесь за все сразу, ибо есть шанс упустить важные нюансы.

Ну вот и все, ребята, я отчаливаю за новым материалом для нашего крутого блога. Подписывайтесь, чтобы не пропустить интересные публикации от меня и моих коллег. Всем удачи, всем пока!

Владимир Еленский

Владимир Еленский

Практикующий SEO-специалист MAXI.BY media. Опыт работы более 5-ти лет. Хороший человек и просто красавчик.

Источник

Инструкция по настройке Лягушки (Screaming Frog) для сканирования сайтов. Активируем и настраиваем программу для работы в ручном и из пред файла готовой конфигурации в пару кликов.

Делюсь одной из частей регламента для сотрудников, которая посвященна работе с программой Screamig Frog.

Всем привет. Меня зовут Толстенко Александр. Я частный специалист по продвижению сайтов в Яндекс/Google.

Работаю в сфере создания и продвижения сайтов с 2009 года (уже более 13 лет).

Кейсы продвижения и другие статьи, подтверждающие экспертизу, можно посмотреть на сайте marketing-digital.ru или в профиле на vc.ru.

Провожу в месяц 10 бесплатных консультации длительностью 10-15 минут. Если актуально, бронируйте место, контакты в конце.

Настраиваем параметры программы Screaming Frog SEO Spider

Запускам программу и сразу вводим ключь активации

Важно! Программа должна быть активированная, чтобы просканировать весь сайт, а не только первые 500 страниц.

Далее, переходим к одному из методов настройке самой программы.

1. Загрузка настроек из готового файла конфигурации

Чтобы не разбираться в деталях настройки программы, загружаем скачанную конфигурацию на ПК и импортимуем настройки, которые подойдут в 90% случаев для сканирования практически всех сайтов.

Готовая конфигурация для скачивания на ПК

Инструкция по импорту

1.1. Открываем меню: File → Configuration → load

1.2. Импортируем скаченный файл выше

1.3. Сохраняем загруженные настройки по умолчанию (будут применены при каждем открытии программы)

1.4. Проверяем, где будут храниться данные сканирования в ОЗУ или на жестком (System → Storage Mode) (могло снести при импорте)

1.5. Проверить сколько у вас установилось оперативной памяти для сканирования (могло снести при импорте)

Разработчики заявляют, что для хранения базы данных 4 ГБ ОЗУ позволят вам сканировать 2-3 миллиона URL-адресов, 8 ГБ ОЗУ позволят сканировать до 5 миллионов URL-адресов и 16 ГБ для 10 миллионов. Но, все это — приблизительные значения, так как зависит от типа сайта.

Рекомендуемое значение программой, будет указано в скобках (пример на скрние ниже в скобках: 14GB maximum allowed). Задать самостоятельно можно будет в окошке (у себя указал 10 GB)

Я отдаю ~60% от общего объема, чтобы не зависал компьютер. Пример на скрине. После указанных значений, нажимаем ОК.

1.3. Сохраняем загруженные настройки по умолчанию (будут применены при каждем открытии программы)

1.5. Перезагружаем программу, запускаем парсинг нужного сайта.

💡 Проверка задачи (самопроверка)

Скачали файл конфигурации программы и импортировали его
Проверили на всякий случай п. 1.4 и 1.5., если импорт снес, установлии свои значения
Сохранили импортированные настройки, чтобы каждый раз не настраивать
Перезагрузили программу, запустили парсинг нужного сайта

2) Ручная настройка (если нужно настроить под себя)

2.1. Запускам программу и открываем настройки: Configuration

2.2. Выбираем где хранить данные в ОЗУ или на жестком (System → Storage Mode)

2.3. Выбираем место, где будут храниться данные сканирования

Выбрать:
1) Database Store
2) Указать путь, где будут на жестком диске храниться данные парсинга (при желании)
3) Нажать кнопку: Ок, для сохранения изменений

2.4. Увеличиваем оперативную память для сканирования, чтобы не тупила программа

В зависимости от объема оперативной памяти на вашем компьтере (у меня 16 GB), вы можете задать значение самостоятельно.Чем больше объем, тем меньше будет тупить программа.Рекомендуемое значение программой, будет указано в скобках (пример на скрние ниже в скобках: 14GB maximum allowed).Задать самостоятельно можно будет в окошке (у себя указал 10 GB)

Я отдаю ~60% от общего объема, чтобы не зависал компьютер. Пример как у меня на скрине.После указанных значений, нажимаем ОК.

2.5. Сохраняем сделанные настройки конфигураци, чтобы открывались по умолчанию

2.6. Перезагружаем программу, она готова к работе

Важно! Если у вас очень большой проект (больше полу миллиона страниц), можно отключить ненужные параметры для сканирования. Пример настроек на скринах ниже. Поигравшись с настройками самостояльно, можно просканировать весь сайт.

💡 Проверка задачи (самопроверка)

Программа настроена для сканирования сайтов
Сохранили настройки, чтобы каждый раз не настраивать программу
Перезагрузили программу, запустили парсинг нужного сайта

✌ Нужна консультация?

👉 Пишите в личные сообщения сюда:

Источник

#статьи

3 июл 2023
0

Рассказываем, как с помощью сервиса анализировать ссылки, искать ошибки на страницах сайтов и в метатегах.

Иллюстрация: Colowgee / Stable Diffusion / 千图网 / pngtree / wirestock / freepik / SEO Spider / Colowgee для Skillbox Media

Валентина Бокова

Обозреватель Skillbox Media. Работала со «Сравни.ру», ВТБ, «Ак Барс Банком», Газпромбанком. Подготовила курсы по инвестициям для Промсвязьбанка и Школы инвестора ВТБ.

Владимир Еленский

Практикующий SEO-специалист MAXI.BY media. Опыт работы более 5-ти лет. Хороший человек и просто красавчик.

Источник

Делюсь одной из частей регламента для сотрудников, которая посвященна работе с программой Screamig Frog.

Всем привет. Меня зовут Толстенко Александр. Я частный специалист по продвижению сайтов в Яндекс/Google.

Работаю в сфере создания и продвижения сайтов с 2009 года (уже более 13 лет).

Настраиваем параметры программы Screaming Frog SEO Spider

Запускам программу и сразу вводим ключь активации

Важно! Программа должна быть активированная, чтобы просканировать весь сайт, а не только первые 500 страниц.

Далее, переходим к одному из методов настройке самой программы.

1. Загрузка настроек из готового файла конфигурации

Готовая конфигурация для скачивания на ПК

Инструкция по импорту

1.1. Открываем меню: File → Configuration → load

1.2. Импортируем скаченный файл выше

1.3. Сохраняем загруженные настройки по умолчанию (будут применены при каждем открытии программы)

1.5. Проверить сколько у вас установилось оперативной памяти для сканирования (могло снести при импорте)

1.3. Сохраняем загруженные настройки по умолчанию (будут применены при каждем открытии программы)

1.5. Перезагружаем программу, запускаем парсинг нужного сайта.

💡 Проверка задачи (самопроверка)

Скачали файл конфигурации программы и импортировали его
Проверили на всякий случай п. 1.4 и 1.5., если импорт снес, установлии свои значения
Сохранили импортированные настройки, чтобы каждый раз не настраивать
Перезагрузили программу, запустили парсинг нужного сайта

2) Ручная настройка (если нужно настроить под себя)

2.1. Запускам программу и открываем настройки: Configuration

2.2. Выбираем где хранить данные в ОЗУ или на жестком (System → Storage Mode)

2.3. Выбираем место, где будут храниться данные сканирования

2.4. Увеличиваем оперативную память для сканирования, чтобы не тупила программа

2.5. Сохраняем сделанные настройки конфигураци, чтобы открывались по умолчанию

2.6. Перезагружаем программу, она готова к работе

💡 Проверка задачи (самопроверка)

Программа настроена для сканирования сайтов
Сохранили настройки, чтобы каждый раз не настраивать программу
Перезагрузили программу, запустили парсинг нужного сайта

✌ Нужна консультация?

👉 Пишите в личные сообщения сюда:

Источник

#статьи

3 июл 2023
0

Рассказываем, как с помощью сервиса анализировать ссылки, искать ошибки на страницах сайтов и в метатегах.

Иллюстрация: Colowgee / Stable Diffusion / 千图网 / pngtree / wirestock / freepik / SEO Spider / Colowgee для Skillbox Media

Валентина Бокова

Использует в работе Screaming Frog SEO Spider

SEO-специалист Skillbox Media.

Screaming Frog SEO Spider — программа для технического SEO-аудита сайтов. Она позволяет, например, найти ошибки во внутренних и внешних ссылках, неработающие ссылки и одинаковые страницы.

В этом материале Skillbox Media рассказываем об основных функциях программы.

Что такое Screaming Frog SEO Spider
Как анализировать страницы в разделе Internal
Как анализировать внешние ссылки в External
Как найти ошибки в URL
Как найти ошибки в метатегах в разделах Page Titles и Meta Description
Как проверить состояние канонических ссылок в разделе Canonical

Screaming Frog SEO Spider («СЕО Паук») — это сканер для технического SEO-аудита сайтов. SEO-аудит — проверка сайта на соответствие требованиям поисковых систем. Цель аудита — найти ошибки, которые мешают продвижению. Программой пользуются SEO-специалисты, владельцы сайтов и веб-аналитики.

Screaming Frog SEO Spider создана британским SEO-агентством Screaming Frog в 2010 году. Она поддерживает пять языков: английский, немецкий, французский, испанский и итальянский. Программа работает на персональных компьютерах. Её можно установить на ПК с операционными системами Windows, macOS и Linux.

Screaming Frog SEO Spider собирает и анализирует данные о сайте и ссылках на нём. Например, оценивает состояние HTTP, внутренних и внешних URL-адресов, выявляет дубли или неработающие ссылки. Для каждой операции программа формирует отчёт, который можно скачать в форматах CSV, XLS, XLSX, GSHEET.

Всего в программе 29 инструментов для аудита сайта. В материале мы рассмотрим самые популярные инструменты Screaming Frog SEO Spider.

Интерфейс программы на английском языке
Скриншот: Screaming Frog SEO Spider / Skillbox Media

У программы есть бесплатная и платная версия. При бесплатном тарифе можно сканировать до 500 адресов и пользоваться 7 функциями — например, поиском дублей, ошибок, неработающих ссылок, анализом ключевых слов.

Платный тариф стоит от 259 долларов в год. Он открывает доступ ко всем 29 функциям. Например, интеграции с «Google Аналитикой», проверке орфографии и грамматики, безлимитному сканированию и другим.

Тарифный план Screaming Frog SEO Spider
Скриншот: Screaming Frog SEO Spider/ Skillbox Media

Оплатить программу картой российского банка нельзя. Но многие используют бесплатную версию или скачивают полную версию из сторонних источников.

Чтобы воспользоваться программой, её нужно скачать. Затем дважды щёлкнуть по загруженному установочному файлу и следовать инструкциям.

Вводить личные данные не нужно. Когда программа установится и запустится, нужно указать адрес сайта в поисковой строке сервиса и нажать Start. После этого сканер соберёт данные о сайте. Где посмотреть основную информацию, мы расскажем дальше.

Курсы Skillbox для тех, кто работает или хочет работать с SEO и маркетингом

«Профессия Интернет-маркетолог» — с нуля освоить профессию и получить широкие компетенции, чтобы претендовать на хорошую должность.
«Профессия SEO-специалист» — освоить востребованную профессию и работать удалённо.

Во вкладке Internal отображаются данные обо всех страницах ресурса. Можно понять, всё ли в порядке с сайтом, и посмотреть информацию отдельно по каждой странице. Для этого необходимо нажать на адрес страницы в списке страниц.

Сканер покажет данные о весе страницы, коде ответа сервера, количестве слов, метатегах, внутренних ссылках и многом другом. Можно оценить сразу все показатели или выбрать тот, что нужен для анализа. Например, посмотреть только метатеги или статусы кодов.

Так выглядит отчёт о страницах — можно посмотреть данные каждой из них
Скриншот: Screaming Frog SEO Spider / Skillbox Media

Я всегда смотрю колонку Indexable. Она показывает, доступна страница для индексирования или нет. Это помогает найти страницы, ошибочно закрытые от индексации, или выявить технические страницы, которые попадают в поисковую выдачу. После анализа можно прописать корректные директивы в robots.txt и избежать многих проблем с индексацией.

Вкладка External отображает информацию о внешних ссылках. Это ссылки, которые направляют пользователя с вашего сайта на другой ресурс.

Допустим, страница с вашего сайта ссылается на какое-то исследование. Со временем страница с исследованием может быть удалена или перемещена в другое место. Тогда ссылка станет нерабочей — для поисковых систем это негативный фактор. Читатель сайта не сможет перейти в первоисточник — ценность статьи для него станет ниже.

SEO Spider покажет типы ссылок, расположение страницы, ошибки во внешних ссылках и прочие данные. Например, сканер может обнаружить, что некоторые внешние ссылки недоступны: если пользователь перейдёт по ним, увидит ошибку 404.

Пример анализа — сервис нашёл ссылки с редиректами
Скриншот: Screaming Frog SEO Spider / Skillbox Media

Важно! Программа считает поддомены сайта внешними ссылками. Чтобы исправить это и отсканировать домен вместе с поддоменами, в меню Configuration выберите Spider, затем вкладку Crawl и поставьте галочку в чекбоксе Crawl All Subdomains.

Вкладка URL позволяет найти ошибки в URL-адресах страниц.

Под ошибками программа понимает, например, кириллицу и нижнее подчёркивание в адресе. Также она может показать, у каких URL есть дубликаты и другие проблемы. В нашем примере программа обнаружила два нижних подчёркивания в URL.

Так выглядит раздел URL в Screaming Frog SEO Spider
Скриншот: Screaming Frog SEO Spider / Skillbox Media

Мне редко встречались критичные ошибки в URL. В русскоязычном интернете сайты с кириллицей в адресе ранжируются нормально. По поводу нижнего подчёркивания в URL было много споров, но я не сталкивался с тем, чтобы страницы из-за этого пессимизировали.

А вот за длиной URL лучше следить. Длинный адрес может говорить о слишком сложной структуре сайта.

Вкладки Page Titles и Meta Description отображают метатеги сайта. На них можно увидеть ошибки в метатегах и исправить их, чтобы поисковые роботы корректно распознавали содержимое страниц.

SEO Spider покажет совпадение метатегов с заголовками на странице, дубли, слишком короткие и слишком длинные метатеги. А ещё подсветит страницы, для которых метатеги не настроены.

Так выглядит анализ метатегов — их показывают для всех страниц сайта, и по каждой странице можно получить подробную информацию
Скриншот: Screaming Frog SEO Spider / Skillbox Media

Чтобы сразу увидеть список длинных метатегов, перейдите на вкладку Page Titles и отфильтруйте результат по Over 65 Characters.

Максимальная и минимальная длина метатегов — понятия условные. Мнения SEO-специалистов расходятся. Рекомендуемую длину метатегов в Screaming Frog можно установить самостоятельно. Для этого зайдите в меню Configuration → Spider → вкладка Preferences. Установите минимальную и максимальную длину в полях Characters. Тогда программа будет отслеживать страницы, на которых длина метатегов отличается от установленной вами.

Самостоятельная настройка длины метатегов
Скриншот: Screaming Frog SEO Spider / Skillbox Media

Вкладка Canonical отображает канонические ссылки. Это ссылки, которые говорят поисковым системам, что несколько страниц сайта одинаковые, несмотря на разные адреса, и указывают, какую версию страницы индексировать.

Одинаковые страницы могут появляться по разным причинам. Например, если у сайта две версии — с www и без www, с http и https. Ещё бывает так, что блог дублируют на домене и на поддомене. Если каждая версия страницы попадёт в поиск, возникнут дубли — это негативно повлияет на ранжирование.

Один из способов избежать дублирования страниц на домене и поддомене — настроить канонические ссылки. Для каждой статьи на домене мы прописываем каноническую ссылку — ссылаемся на аналогичную статью на поддомене. Это говорит поисковым системам, что в индекс нужно добавить только каноническую страницу, которая находится на поддомене.

SEO Spider покажет, на каких страницах канонические ссылки отсутствуют или их несколько. Также покажет закрытые от индексации канонические ссылки и другие проблемы. В нашем примере программа нашла страницы без канонической ссылки и неиндексируемые страницы.

Так выглядит анализ канонических ссылок
Скриншот: Screaming Frog SEO Spider / Skillbox Media

Каждый SEO-специалист сам решает, как ему работать с дублями страниц — настраивать редирект или настраивать канонические ссылки. Так что этот раздел является скорее информационным.

А вот на что обязательно следует обращать внимание, так это код ответа. Если вы добавили канонические ссылки и какая-то из версий страницы отображает ответ, отличный от 200OK, — скорее всего, где-то есть ошибка.

Screaming Frog SEO Spider («СЕО Паук») — это сканер для технического SEO-аудита сайтов. Чтобы воспользоваться им, нужно скачать программу на десктопное устройство с операционной системой Windows, macOS или Linux.
Всего в сервисе 29 инструментов. С его помощью можно, например, находить ошибки в URL-адресах, метатегах и внешних ссылках. А ещё — анализировать страницы сайта и оценивать состояние канонических ссылок.
У программы есть бесплатная и платная версии. В бесплатной доступно семь инструментов, можно проверить до 500 адресов. В платной ограничений нет. Доступ стоит от 259 долларов в год, но оплатить программу картой российского банка нельзя.

Если ищете сервисы и инструменты, которые облегчат работу с SEO и аналитикой, прочитайте другие материалы Skillbox Media. Например, у нас есть подборка инструментов для SEO-аудита, обзор «Яндекс Метрики» и подборка из 15 инструментов для решения любых SEO-задач.
Также у нас есть статьи про SEO и маркетинг. В материале о поисковых подсказках разобрались, как правильно собирать подсказки и как использовать их для продвижения. В статье о поведенческих факторах — как эти факторы влияют на трафик и можно ли их накрутить. В материале о сквозной аналитике — как устроена сквозная аналитика и зачем она нужна бизнесу. А здесь сравнили сквозную аналитику в «Яндекс Метрике» и платных сервисах.
Если вы хотите построить карьеру в маркетинге, на старте может помочь курс Skillbox «Профессия Интернет-маркетолог». На нём учат настраивать таргетированную и контекстную рекламу, работать с SEO, пользоваться разными сервисами. С этими навыками можно устроиться в штат компании или брать заказы на фрилансе.
Также в Skillbox есть курс «Профессия SEO-специалист» — для тех, кто хочет войти в SEO с нуля или прокачать навыки оптимизации, чтобы зарабатывать больше. На курсе на реальных задачах и кейсах учат выводить сайты в топ и привлекать целевой трафик. Их можно будет положить в портфолио и показать потенциальным клиентам.

Жизнь можно сделать лучше!
Освойте востребованную профессию, зарабатывайте больше и получайте от работы удовольствие. А мы поможем с трудоустройством и важными для работодателей навыками.
Посмотреть курсы

Источник