Содержание

Screaming Frog SEO Spider — подробная инструкция по работе и возможности программы

Screaming Frog SEO Spider – один из наиболее важных инструментов в арсенале оптимизатора. Этот сервис просто незаменим при анализе интернет-ресурса, так как позволяет автоматизировать сбор и структурирование самых важных данных о сайте, тем самым сильно ускоряя работу.

Если вы занимаетесь развитием собственного веб-проекта, или продвижением сайтов клиентов, то Screaming Frog наверняка вам знаком. Но используете ли вы доступные возможности на 100%? В этой статье мы подготовили максимально подробное руководство по использованию данного инструмента. Надеемся, вы сможете найти здесь много нового и полезного.

Базовое сканирование сайта

  Как сканировать весь сайт

  Как сканировать один подкаталог

  Как сканировать определенный набор поддоменов или подкаталогов

    Exclusion (Исключение)

    Include (Включение)

  Как получить список всех страниц на моем сайте

  Как получить список всех страниц в определенном подкаталоге

  Как найти все субдомены на сайте и проверить внутренние ссылки

    Способ 1

    Способ 2

    Способ 3

  Как сканировать интернет-магазин или другой большой сайт

  Как сканировать сайт, размещенный на старом сервере, или как сканировать сайт без сбоев

  Как сканировать сайт, который требует куки

  Как сканировать, используя другой пользовательский агент (User-Agent)

  Как сканировать страницы, требующие аутентификации

Внутренние ссылки

  Как получить информацию обо всех внутренних и внешних ссылках на моем сайте (якорный текст, директивы, ссылки на страницу и т. д.)

  Как найти неработающие внутренние ссылки на странице или сайте

  Как найти неработающие исходящие ссылки на странице или сайте (или все исходящие ссылки в целом)

  Как найти ссылки, которые перенаправляются

  Для чего нужны данные о ссылках

Контент сайта

  Как определить страницы с неинформативным контентом

  Как получить список ссылок на изображения на определенной странице

  Как найти изображения, в которых отсутствует текст alt или изображения с длинным текстом alt

  Как найти каждый файл CSS на моем сайте

  Как найти каждый файл JavaScript на сайте

  Как определить все плагины jQuery, используемые на сайте, и на каких страницах они используются

  Как определить места со встроенным flash

  Как найти любые внутренние PDF-файлы

  Как понять сегментацию контента внутри сайта или группы страниц

  Как найти страницы с кнопками социальных сетей

  Как найти страницы, которые используют iframes

  Как найти страницы, которые содержат встроенный видео или аудио контент

Метаданные и директивы

  Как идентифицировать страницы с длинными заголовками страниц, метаописаниями или URL-адресами

  Как найти повторяющиеся заголовки страниц, метаописания или URL

  Как найти дублированный контент или URL-адреса, которые необходимо переписать / перенаправить / канонизировать

  Как определить все страницы, содержащие мета-директивы, например: nofollow / noindex / noodp / canonical и т. д.

  Как проверить корректность работы файла robots.txt

  Как найти или проверить разметку схемы или другие микроданные на моем сайте

Карта сайта

  Как создать XML Sitemap

  Создание XML-файла Sitemap путем загрузки URL-адресов

  Как проверить мой существующий XML Sitemap

  Определение отсутствующих страниц в XML Sitemap

Общие проблемы

  Как определить, почему определенные разделы сайта не индексируются или не ранжируются

  Как найти медленные страницы на моем сайте

  Как найти вредоносное ПО или спам на моем сайте

PPC и аналитика

  Как проверить список URL-адресов PPC навалом

Зачистка

  Как очистить метаданные для списка страниц

  Как очистить сайт для всех страниц, которые содержат определенный размер?

Перезапись URL

  Как найти и удалить идентификатор сеанса или другие параметры из моих просканированных URL

  Как переписать просканированные URL-адреса (например, заменить .com на .co.uk или написать все URL-адреса строчными буквами)

Исследование ключевых слов

  Как узнать, какие страницы мои конкуренты ценят больше всего

  Как узнать, какой якорный текст используют мои конкуренты для внутренних ссылок

  Как узнать, какие метатеги keywords (если они есть) конкуренты добавили на свои страницы

Создание ссылок

  Как проанализировать список предполагаемых ссылок

  Как найти неработающие ссылки для расширения возможностей

  Как проверить мои обратные ссылки и просмотреть текст привязки

  Как убедиться, что ссылки удаляются по запросу в процессе очистки

Дополнительная информация

  Как редактировать метаданные

  Как сканировать JavaScript-сайта

  Просмотр оригинального HTML и визуализированного HTML

В заключение

Базовое сканирование сайта

Как сканировать весь сайт

Приступая к сканированию сайта, важно наперед определить, какую информацию вы хотите получить, насколько велик сайт, и какую часть сайта вам нужно сканировать, чтобы получить доступ к нужным данным.

Примечание: Иногда для масштабных ресурсов лучше ограничить сканер подразделом URL-адресов, чтобы получить хороший репрезентативный образец данных. Это делает размеры файлов и экспорт данных более управляемыми. Мы рассмотрим это более подробно ниже.

Для сканирования всего сайта, включая все дочерние домены, вам нужно внести небольшие изменения в конфигурацию spider, чтобы начать.

По умолчанию Screaming Frog сканирует только субдомен, который вы ввели. Любые дополнительные субдомены, с которыми сталкивается spider, будут рассматриваться, как внешние ссылки. Для обхода дополнительных поддоменов, необходимо изменить настройки в меню Spider Configuration. Отметив Crawl All Subdomains, вы убедитесь, что SEO Spider сканирует любые ссылки, которые он встречает, на другие поддомены на вашем сайте.

Шаг 1:

Шаг 2:

Если вы запускаете сканирование из определенной подпапки или подкаталога и по-прежнему хотите, чтобы Screaming Frog сканировал весь сайт, установите флажок Crawl Outside of Start Folder.

По умолчанию SEO Spider настроен только на сканирование подпапки или подкаталога, который вы сканируете. Если вы хотите сканировать весь сайт и запускать из определенного подкаталога, убедитесь, что для конфигурации задан обход за пределами начальной папки.

Совет: Чтобы сэкономить время и место на диске, помните о ресурсах, которые могут вам не понадобиться при сканировании. Снимите флажки с изображения, CSS, JavaScript и SWF-ресурсов, чтобы уменьшить размер обхода.

Как сканировать один подкаталог

Если вы хотите ограничить сканирование одной папкой, просто введите URL-адрес и нажмите Start, не изменяя никаких настроек по умолчанию. Если вы перезаписали исходные настройки по умолчанию, сбросьте настройки по умолчанию в меню File.

Если вы хотите начать сканирование в определенной папке, но нужно продолжить сканирование в остальных частях субдомена, обязательно выберите Crawl Outside Of Start Folder в настройках Spider Configuration, прежде, чем вводить ваш конкретный стартовый URL.

Как сканировать определенный набор поддоменов или подкаталогов

Чтобы ограничить просмотр определенным набором поддоменов или подкаталогов, вы можете использовать RegEx, чтобы установить эти правила в параметрах Include или Exclude в меню Configuration.

Exclusion (Исключение)

В этом примере мы просмотрели каждую страницу на elit-web.ru, исключая страницы blog на каждом поддомене.

Шаг 1:

Перейдите в Configuration > Exclude, используйте подстановочные регулярные выражения для определения URL или параметров, которые вы хотите исключить.

Шаг 2:

Проверьте свое регулярное выражение, чтобы убедиться, что оно исключает ожидаемые страницы до начала сканирования:

Include (Включение)

В приведенном ниже примере мы хотели просмотреть только подпапку команды на elit-web.ru. Опять же, используйте закладку Test, чтобы протестировать несколько URL и убедиться, что RegEx правильно настроен для вашего правила inclusion.

Это отличный способ сканирования больших сайтов. На самом деле, Screaming Frog рекомендует этот метод, если вам нужно разделить и сканировать сайт с большим числом обратных ссылок.

Как получить список всех страниц на моем сайте

По умолчанию, Screaming Frog настроен на сканирование всех изображений, JavaScript, CSS и флэш-файлов, с которыми сталкивается SEO Spider. Чтобы сканировать (crawl) только HTML, вам придется снять выделение с пунктов Check Images, Check CSS, Check JavaScript и Check SWF в меню Spider Configuration.

Запуск SEO Spider с этими настройками без галочки, по сути, предоставит вам список всех страниц вашего сайта, на которые есть внутренние ссылки, указывающие на них.

После завершения сканирования перейдите на вкладку Internal и отфильтруйте результаты по HTML. Нажмите кнопку Export, и у вас будет полный список в формате CSV.

Совет: Если вы склонны использовать одни и те же настройки для каждого сканирования, Screaming Frog теперь позволяет вам сохранить настройки конфигурации:

Как получить список всех страниц в определенном подкаталоге

В дополнение к снятию флажка Check Images, Check CSS, Check JavaScript и Check SWF, вы также захотите снять флажок Check Links Outside Folder в настройках Spider Configuration. Запуск SEO Spider с этими настройками без флажка, даст вам список всех страниц в вашей стартовой папке (если они не являются страницами, на которые нет внутренних или внешних ссылок).

Как найти все субдомены на сайте и проверить внутренние ссылки

Есть несколько разных способов найти все поддомены на сайте.

Способ 1

Используя Screaming Frog для идентификации всех поддоменов на данном сайте, перейдите в Configuration > Spider и убедитесь, что выбрана опция Crawl all Subdomains. Как и при сканировании всего сайта, это поможет сканировать любой поддомен, связанный с обходом сайта. Тем не менее, это не найдет поддоменов, которые не связаны ссылками.

Способ 2

Используйте Google, (расширение для браузера Scraper Chrome) для идентификации всех проиндексированных поддоменов, мы можем найти все индексируемые субдомены для данного домена.

Шаг 1:

Начните вводить в поисковике: site: оператор поиска в Google, чтобы ограничить результаты для вашего конкретного домена. Затем используйте оператор поиска -inurl, чтобы сузить результаты поиска, удалив основной домен. Появится список поддоменов, которые были проиндексированы в Google, в котором не будет основного домена.

Шаг 2:

Используйте расширение Scraper, чтобы извлечь все результаты в Google Sheet. Просто щелкните правой кнопкой мыши URL-адрес в поисковой выдаче, нажмите Scrape Similar и экспортируйте в Google Doc.

Шаг 3:

В вашем Документе Google Doc используйте следующую функцию, чтобы обрезать URL-адрес до субдомена:

=LEFT(A2,SEARCH («/»,A2,9))

По сути, приведенная выше формула должна помочь удалить любые подкаталоги, страницы или имена файлов в конце сайта. Эта формула, позволяет не экспортировать в Excel то, что находится слева от конечной косой черты. Стартовое число 9 является важным, потому что мы просим его начать искать косую черту «/» после 9-го символа. Это составляет протокол: https://, длиной в 8 символов.

Дублируйте список и загрузите его в Screaming Frog в режиме списка (List Mode) – вы можете вручную вставить список доменов, использовать функцию вставки (paste) или загрузить (upload) CSV.

Способ 3

Введите URL-адрес корневого домена в инструменты (tools), чтобы найти сайты, которые могут существовать на том же IP-адресе. Также вы можете воспользоваться поисковыми системами, специально предназначенными для поиска поддоменов, например FindSubdomains. Создайте бесплатную учетную запись для входа и экспорта списка поддоменов. Затем загрузите список в Screaming Frog, используя режим списка (List Mode).

Как только SEO Spider закончит работу, вы сможете увидеть код состояния, а также любые ссылки на домашних страницах поддоменов, текст привязки и дубликаты заголовков страниц, среди прочего.

Как сканировать интернет-магазин или другой большой сайт

Изначально Screaming Frog не был создан для сканирования сотен тысяч страниц, но благодаря некоторым обновлениям он становится многофункциональнее с каждым днем.

Последняя версия Screaming Frog была обновлена, чтобы полагаться на хранилище базы данных для обходов. В версии 11.0 Screaming Frog позволял пользователям сохранять все данные на диске в базе данных, а не просто хранить их в оперативной памяти. Это открыло возможность сканирования очень больших сайтов в один клик.

В версии 12.0 сканирование автоматически сохраняет обходы в базе данных. Это позволяет получить к ним доступ и открыть с помощью File > Crawls в меню верхнего уровня (на случай, если вы удивляетесь, куда пошла команда open?)

Хотя использование обхода базы данных помогает Screaming Frog лучше управлять большими объемами информации, это, конечно, не единственный способ сканирования большого сайта.

Во-первых, вы можете увеличить выделение памяти в SEO Screaming Frog.

Во-вторых, вы можете разбить сканирование по подкаталогу или сканировать только определенные части сайта, используя настройки Include / Exclude.

В-третьих, вы можете не сканировать изображения, JavaScript, CSS и flash. Отменив выбор этих параметров в меню Configuration, сэкономив тем самым память, сканируя только HTML.

Совет: До недавнего времени Screaming Frog SEO Spider мог приостанавливаться или зависать при сканировании большого сайта. Теперь, когда хранилище базы данных является настройкой по умолчанию, вы можете восстановить обходы, чтобы выбрать, где вы остановились. Кроме того, вы также можете получить доступ к URL-адресам в очереди. Это может дать вам представление о любых дополнительных параметрах или правилах, которые вы можете исключить для сканирования большого сайта.

Как сканировать сайт, размещенный на старом сервере, или как сканировать сайт без сбоев

В некоторых случаях старые серверы могут не обрабатывать количество URL-запросов по умолчанию в секунду. Мы рекомендуем включить ограничение на количество сканируемых URL-адресов в секунду, чтобы на всякий случай не усложнять работу сервера сайта. Лучше всего, чтобы клиент знал, когда вы планируете сканировать сайт, на случай, если у него может быть защита от неизвестных пользовательских агентов. С одной стороны, им может понадобиться внести в белый список ваш IP или пользовательский агент (User-Agent), прежде, чем вы будете сканировать сайт. В худшем случае вы можете отправить слишком много запросов на сервер и непреднамеренно завершить работу сайта.

Чтобы изменить скорость сканирования, выберите Speed в меню Configuration и во всплывающем окне выберите максимальное количество потоков, которые должны работать одновременно. В этом меню вы также можете выбрать максимальное количество URL-адресов, запрашиваемых в секунду.

Совет: Если вы обнаружите, что при сканировании возникает много ошибок сервера, перейдите на вкладку Advanced в меню Spider Configuration и увеличьте значение Response Timeout и 5xx Response Retries, чтобы получить лучшие результаты.

Как сканировать сайт, который требует куки

Хотя поисковые роботы не принимают файлы cookie, если вы сканируете сайт и хотите разрешить использование файлов cookie, просто выберите Allow Cookies на вкладке Advanced в меню Spider Configuration.

Как сканировать, используя другой пользовательский агент (User-Agent)

Чтобы сканировать с использованием другого пользовательского агента, выберите User Agent в меню Configuration, затем выберите поискового бота из выпадающего списка или введите нужные строки пользовательского агента.

Поскольку Google теперь ориентирован на мобильные устройства, попробуйте просканировать сайт как смартфон Googlebot или измените User-Agent, чтобы он был как смартфон Googlebot. Это важно по двум причинам:

  1. Сканирование сайта, имитирующее пользовательского агента (user-agent) смартфон Googlebot, может помочь определить любые проблемы, возникающие у Google при сканировании и отображении контента вашего сайта.
  2. Использование модифицированной версии пользовательского агента смартфона Googlebot поможет вам различать ваши обходы и обходы Google при анализе журналов сервера.

Как сканировать страницы, требующие аутентификации

Когда Screaming Frog встречает страницу, защищенную паролем, появляется всплывающее окно, в котором вы можете ввести требуемое имя пользователя и пароль.

Аутентификация на основе форм является очень мощной функцией и может потребовать рендеринга JavaScript для эффективной работы.

Примечание: проверку подлинности на основе форм следует использовать экономно и только опытным пользователям. Сканер запрограммирован так, что он кликает каждую ссылку на странице, это может привести к появлению ссылок для выхода из системы, создания сообщений или даже удаления данных.

Чтобы управлять аутентификацией, перейдите к Configuration > Authentication.

Чтобы отключить запросы на аутентификацию, отмените выбор Authentication на основе стандартов в окне Authentication в меню Configuration.

Внутренние ссылки

Как получить информацию обо всех внутренних и внешних ссылках на моем сайте (якорный текст, директивы, ссылки на страницу и т. д.)

Если вам не нужно проверять изображения, JavaScript, Flash или CSS на сайте, отмените выбор этих параметров в меню Spider Configuration, чтобы сэкономить время и память.

Как только SEO Spider завершит сканирование, используйте меню Bulk Export, чтобы экспортировать CSV All Links. Это предоставит вам все ссылки, а также соответствующий якорный текст, директивы и т. д.

Все ссылки могут быть в большом отчете. Помните об этом при экспорте. Для большого сайта этот экспорт может занять несколько минут.

Для быстрого подсчета количества ссылок на каждой странице перейдите на вкладку Internal и отсортируйте по Outlinks. Страницы, где более 100 ссылок, возможно, потребуется пересмотреть.

Как найти неработающие внутренние ссылки на странице или сайте

Как и в предыдущем пункте, отмените выбор JavaScript, Flash или CSS сайта в меню Spider Configuration, если вам не нужно проверять изображения.

После того, как SEO Spider завершит сканирование, отсортируйте результаты вкладки Internal по Status Code. Любой 404, 301 или другой код состояния будут легко доступны для просмотра.

Нажав на любой отдельный URL в результатах сканирования, вы увидите изменение информации в нижнем окне программы. Нажав на вкладку In Links в нижнем окне, вы увидите список страниц, которые ссылаются на выбранный URL, а также якорный текст и директивы, используемые в этих ссылках. Вы можете использовать эту функцию для определения страниц, на которых необходимо обновить внутренние ссылки.

Чтобы экспортировать полный список страниц, которые содержат неработающие или перенаправленные ссылки, выберите Redirection (3xx) In Links или Client Error (4xx) In Links или Server Error (5xx) In Links в меню Advanced Export, и вы получите CSV-экспорт данных.

Чтобы экспортировать полный список страниц, которые содержат неработающие или перенаправленные ссылки, посетите меню Bulk Export. Прокрутите вниз до кода ответов и посмотрите следующие отчеты:

  • No Response Inlinks;
  • Redirection (3xx) Inlinks;
  • Redirection (JavaScript) Inlinks;
  • Redirection (Meta Refresh) Inlinks;
  • Client Error (4xx) Inlinks;
  • Server Error (5xx) Inlinks.

Просмотр всех этих отчетов должен дать вам адекватное представление о том, какие внутренние ссылки следует обновить, чтобы они указывали на каноническую версию URL и эффективно распределяли качественные ссылки.

Как найти неработающие исходящие ссылки на странице или сайте (или все исходящие ссылки в целом)

После отмены выбора Check Images, Check CSS, Check JavaScript и Check SWF в настройках Spider Configuration убедитесь, что Check External Links остается выбранной.

После того, как SEO Spider завершит сканирование, нажмите на вкладку External в верхнем окне, отсортируйте по Status Code Вы легко сможете найти URL с кодом состояния, отличными от 200. После нажатия на любой отдельный URL, просканируйте результаты, а затем, нажав на вкладку In Links в нижнем окне, вы увидите список страниц, которые указывают на выбранный URL-адрес. Вы можете использовать эту функцию для определения страниц, на которых необходимо обновить исходящие ссылки.

Чтобы экспортировать полный список исходящих ссылок, нажмите External Links на вкладке Bulk Export.

Для получения полного списка всех местоположений и текста привязки исходящих ссылок выберите All Outlinks в меню Bulk Export. Отчет All Outlinks также будет включать исходящие ссылки на ваши субдомены. Если вы хотите исключить свой домен, воспользуйтесь отчетом External Links, упомянутым выше.

Как найти ссылки, которые перенаправляются

После завершения сканирования выберите вкладку Response Codes в основном пользовательском интерфейсе и выполните фильтрацию по коду состояния. Поскольку Screaming Frog использует регулярные выражения для поиска, отправьте в качестве фильтра следующие критерии: 301 | 302 | 307. Это должно дать вам довольно солидный список всех ссылок, которые возвращались с каким-либо перенаправлением, независимо от того, был ли контент постоянно перемещен, найден и перенаправлен, или временно перенаправлен из-за настроек HSTS (это вероятная причина 307 перенаправлений в Screaming Frog ).

Сортируйте по Status Code, и вы сможете разбить результаты по типу. Нажмите на вкладку In Links в нижнем окне, чтобы просмотреть все страницы, на которых используется ссылка для перенаправления.

Если вы экспортируете напрямую из этой вкладки, то увидите только те данные, которые отображаются в верхнем окне (оригинальный URL, код состояния и куда он перенаправляется).

Чтобы экспортировать полный список страниц, содержащих перенаправленные ссылки, вам нужно будет выбрать Redirection (3xx) In Links в меню Advanced Export. Это вернет CSV, который включает в себя местоположение всех ваших перенаправленных ссылок. Чтобы показать только внутренние перенаправления, отфильтруйте столбец Destination в CSV, чтобы включить только ваш домен.

Совет: Используйте функцию VLOOKUP (ВПР) между двумя вышеупомянутыми файлами экспорта, чтобы сопоставить столбцы Source и Destination с окончательным расположением URL-адреса.

Пример формулы:

= ВПР ([@ Destination], ‘response_codes_redirection_ (3xx) .csv’ $ A $ 3: $ F $ 50,6, FALSE)

Где response_codes_redirection_ (3xx) .csv – это файл CSV, содержащий URL-адреса перенаправления, а 50 – количество строк в этом файле.

Для чего нужны данные о ссылках

Грамотное распределение внутренних ссылок может повысить эффективность поискового продвижения, особенно когда вы занимаетесь стратегическим подходом к распределению PageRank и качественных ссылок, ранжирование ключевых слов и привязки к ключевым словам.

Контент сайта

Как определить страницы с неинформативным контентом

После завершения сканирования SEO Spider перейдите на вкладку Internal, отфильтруйте их по HTML, затем прокрутите вправо до столбца Word Count. Сортируйте столбец Word Count по ​​убыванию, чтобы найти страницы с низким содержанием текста. Вы можете перетащить столбец Word Count влево, чтобы лучше сопоставить значения низкого количества слов с соответствующими URL-адресами. Нажмите Export на вкладке Internal, если вы предпочитаете вместо этого управлять данными в CSV.

Как получить список ссылок на изображения на определенной странице

Если вы уже просмотрели весь сайт или подпапку, просто выберите страницу в верхнем окне, а затем нажмите вкладку Image Info в нижнем окне, чтобы просмотреть все изображения, найденные на этой странице. Изображения будут перечислены в столбце To.

Совет: Щелкните правой кнопкой мыши любую запись в нижнем окне, чтобы скопировать или открыть URL-адрес.

Кроме того, вы также можете просматривать изображения на одной странице, сканируя только этот URL. Убедитесь, что в настройках конфигурации SEO Spider задана глубина сканирования 1, затем после сканирования страницы перейдите на вкладку Images, и вы увидите все изображения, найденные screaming frog.

Как найти изображения, в которых отсутствует текст alt или изображения с длинным текстом alt

Во-первых, вы должны убедиться, что в меню Spider Configuration выбран Check Images. После того, как SEO Spider закончил анализировать, перейдите на вкладку Images и отфильтруйте по Missing Alt Text или Alt Text Over 100 Characters. Вы можете найти страницы, где находится любое изображение, нажав на вкладку Image Info в нижнем окне. Страницы будут перечислены в столбце From.

Наконец, если вы предпочитаете CSV, используйте меню Bulk Export, чтобы экспортировать All Images или Images Missing Alt Text Inlinks, чтобы увидеть полный список изображений, где они находятся, и любой связанный с ним текст alt или проблемы с alt Text.

Кроме того, используйте правую боковую панель, чтобы перейти к разделу изображений для обхода. Здесь вы можете легко экспортировать список всех изображений, пропущенным текстом alt.

Как найти каждый файл CSS на моем сайте

В меню Spider Configuration выберите Crawl и Store CSS перед сканированием, затем, когда сканирование завершится, отфильтруйте результаты на вкладке Internal с помощью CSS.

Как найти каждый файл JavaScript на сайте

В меню Spider Configuration выберите Check JavaScript перед сканированием, затем, когда сканирование завершится, отфильтруйте результаты на вкладке Internal по JavaScript.

Как определить все плагины jQuery, используемые на сайте, и на каких страницах они используются

Во-первых, убедитесь, что в меню Spider Configuration выбран Check JavaScript. После того, как SEO Spider завершил сканирование, отфильтруйте вкладку Internal по JavaScript, затем найдите jquery. Это предоставит вам список файлов плагинов. Сортируйте список по Address для более удобного просмотра при необходимости, затем просмотрите InLinks в нижнем окне или экспортируйте данные в CSV, чтобы найти страницы, где используется файл. Они будут в столбце From.

Кроме того, вы можете использовать меню Advanced Export, чтобы экспортировать CSV All Links и отфильтровать столбец Destination, чтобы отображались только URL-адреса с jquery.

Совет: Не все плагины jQuery вредны для SEO. Если вы видите, что сайт использует jQuery, лучше всего убедиться, что контент, который вы хотите проиндексировать, включен в источник страницы и обслуживается при загрузке страницы, а не после. Если вы все еще не уверены, установите плагин Google для получения дополнительной информации о том, как он работает.

Как определить места со встроенным flash

В меню Spider Configuration выберите Check SWF перед сканированием, затем, когда сканирование завершится, отфильтруйте результаты на вкладке Internal по Flash.

Это становится все более важным, чтобы находить и идентифицировать контент, который поставляется Flash, и предлагать альтернативный код для него. Flash постепенно устаревает для Chrome. Потому этот функционал действительно нужно использовать, чтобы определить, если есть проблемы с критическим контентом и Flash на сайте.

Примечание: этот метод находит только файлы .SWF, которые связаны на странице. Если флэш-память загружается через JavaScript, вам нужно использовать пользовательский фильтр.

Как найти любые внутренние PDF-файлы

После завершения сканирования в Screaming Frog отфильтруйте результаты на вкладке Internal по PDF.

Как понять сегментацию контента внутри сайта или группы страниц

Если вы хотите найти на своем сайте страницы с определенным типом контента, установите специальный фильтр для HTML-кода, уникального для этой страницы. Это следует сделать перед запуском screaming frog.

Как найти страницы с кнопками социальных сетей

Чтобы найти страницы, содержащие кнопки социальных сетей, вам нужно установить собственный фильтр перед запуском. Чтобы установить пользовательский фильтр, перейдите в меню Configuration и нажмите Custom. Оттуда введите любой фрагмент кода из исходного кода страницы.

В приведенном выше примере фильтр для facebook.com/plugins/like.php.

Как найти страницы, которые используют iframes

Чтобы найти страницы, которые используют iframe, установите пользовательский фильтр для < iframe перед запуском.

Как найти страницы, которые содержат встроенный видео или аудио контент

Чтобы найти страницы, содержащие встроенное видео или аудиоконтент, установите специальный фильтр для фрагмента кода встраивания для Youtube или любого другого медиаплеера, используемого на сайте.

Как идентифицировать страницы с длинными заголовками страниц, метаописаниями или URL-адресами

После завершения сканирования, перейдите на вкладку Page Titles и отфильтруйте по Over 65 Characters, чтобы увидеть слишком длинные заголовки страниц. Вы можете сделать то же самое на вкладке Meta Description или на вкладке URI.

Как найти повторяющиеся заголовки страниц, метаописания или URL

После того, как SEO Spider закончил сканировать, перейдите на вкладку Page Titles, затем выберите Duplicate. Вы можете сделать то же самое на вкладках Meta Description или URI.

Как найти дублированный контент или URL-адреса, которые необходимо переписать / перенаправить / канонизировать

После того, как SEO Spider завершил сканирование, перейдите на вкладку URI, затем отфильтруйте по Underscores, Uppercase или Non ASCII Characters, чтобы просмотреть URL, которые потенциально могут быть переписаны в более стандартную структуру. Выберите Duplicate, и вы увидите все страницы с несколькими версиями URL. Отфильтруйте по Parameters, и вы увидите URL-адреса, содержащие параметры.

Кроме того, если вы перейдете на вкладку Internal, отфильтруете по HTML и прокрутите столбец Hash в крайнем правом углу, вы увидите уникальные серии букв и цифр для каждой страницы. Если вы нажмете Export, вы можете использовать условное форматирование в Excel, чтобы выделить дублирующиеся значения в этом столбце, в конечном счёте, будут вам показаны страницы, которые идентичны и требуют решения.

Как определить все страницы, содержащие мета-директивы, например: nofollow / noindex / noodp / canonical и т. д.

После того, как SEO Spider закончил проверку, нажмите на вкладку Directives. Чтобы увидеть тип директивы, просто прокрутите вправо, чтобы увидеть, какие столбцы заполнены, или используйте фильтр, чтобы найти любой из следующих тегов:

  • index;
  • noindex;
  • follow;
  • nofollow;
  • noarchive;
  • nosnippet;
  • noodp;
  • noydir;
  • noimageindex;
  • notranslate;
  • unavailable_after;
  • refresh.

Как проверить корректность работы файла robots.txt

По умолчанию Screaming Frog будет выполнять требования robots. txt. В качестве приоритета он будет следовать директивам, сделанным специально для пользовательского агента (user agent) Screaming Frog. Если для пользовательского агента (user-agent) Screaming Frog нет никаких директив, то SEO Spider будет следовать любым директивам для робота Googlebot, а если нет специальных директив для робота Googlebot, он будет следовать глобальным директивам для всех пользовательских агентов.

SEO Spider будет следовать только одному набору директив, поэтому, если существуют правила, установленные специально для Screaming Frog, он будет следовать только этим правилам, а не правилам для робота Google или каких-либо глобальных правил. Если вы хотите заблокировать определенные части сайта от SEO Spider, используйте обычный синтаксис robots.txt с пользовательским агентом Screaming Frog SEO Spider. Если вы хотите игнорировать robots.txt, просто выберите эту опцию в настройках Spider Configuration.

Configuration > Robots.txt > Settings

Как найти или проверить разметку схемы или другие микроданные на моем сайте

Чтобы найти каждую страницу, содержащую разметку схемы или любые другие микроданные, вам нужно использовать пользовательские фильтры. Просто нажмите Custom → Search в меню конфигурации и введите нужный элемент footprint.

Чтобы найти каждую страницу, содержащую разметку схемы, просто добавьте следующий фрагмент кода в пользовательский фильтр: itemtype = http://schema.org

Чтобы найти конкретный тип разметки, вам нужно быть более конкретным. Например, с помощью пользовательского фильтра для ‹span itemprop = ratingValue› вы получите все страницы, содержащие разметку схемы для оценок.

Начиная с Screaming Frog 11.0, Spider SEO также предлагает нам возможность сканировать, извлекать и проверять структурированные данные непосредственно из сканирования. Проверяйте любые структурированные данные JSON-LD, Microdata или RDFa в соответствии с рекомендациями Schema.org и спецификациями Google в режиме реального времени во время сканирования. Чтобы получить доступ к инструментам проверки структурированных данных, выберите параметры в Config > Spider > Advanced.

Теперь в главном интерфейсе есть вкладка Structured Data, которая позволит вам переключаться между страницами, которые содержат структурированные данные, и которые могут иметь ошибки или предупреждения проверки:

Вы также можете выполнить массовый экспорт проблем со структурированными данными, посетив Reports> Structured Data > Validation Errors & Warnings.

Карта сайта

Как создать XML Sitemap

После того, как SEO Spider завершит сканирование вашего сайта, нажмите меню Siteamps и выберите XML Sitemap.

Открыв настройки конфигурации XML-карты сайта, вы можете включать или исключать страницы по коду ответов, последним изменениям, приоритетам, частоте изменений, изображениям и т. Д. По умолчанию Screaming Frog включает только 2xx URL-адресов, но это правило можно исправить.

В идеале, ваша карта сайта XML должна содержать только 200 статусных, единичных, предпочтительных (канонических) версий каждого URL-адреса, без параметров или других дублирующих факторов. После внесения любых изменений нажмите ОК. Файл XML-файла сайта будет загружен на ваше устройство и позволит вам редактировать соглашение об именах по вашему усмотрению.

Создание XML-файла Sitemap путем загрузки URL-адресов

Вы также можете создать карту сайта XML, загрузив URL-адреса из существующего файла или вставив вручную в Screaming Frog.

Измените Mode с Spider на List и нажмите на выпадающий список Upload, чтобы выбрать любой из вариантов.

Нажмите кнопку Start и Screaming Frog будет сканировать загруженные URL-адреса. После сканирования URL вы будете следовать тому же процессу, который указан выше.

Как проверить мой существующий XML Sitemap

Вы можете легко загрузить существующую XML-карту сайта или индекс карты сайта, чтобы проверить наличие ошибок или несоответствий при сканировании.

Перейдите в меню Mode в Screaming Frog и выберите List. Затем нажмите Upload в верхней части экрана, выберите Download Sitemap или Download Sitemap Index, введите URL-адрес карты сайта и начните сканирование. Как только SEO Spider закончит сканирование, вы сможете найти любые перенаправления, 404 ошибки, дублированные URL-адреса и многое другое. Вы можете легко экспортировать и выявленные ошибки.

Определение отсутствующих страниц в XML Sitemap

Вы можете настроить параметры сканирования, чтобы обнаруживать и сравнивать URL-адреса в ваших XML-файлах сайта с URL-адресами в пределах вашего сайта.

Перейдите в Configuration -> Spider в главной навигации, и внизу есть несколько опций для XML-карт сайтов – Auto discover XML sitemaps через ваш файл robots.txt или вручную введите ссылку XML-карты сайта в поле. *Important note – если ваш файл robots.txt не содержит правильных целевых ссылок на все XML-карты сайта, которые вы хотите сканировать, вы должны ввести их вручную.

После обновления настроек сканирования XML-файла Sitemap перейдите к пункту Crawl Analysis в навигации, затем нажмите Configure и убедитесь, что кнопка Sitemaps отмечена. Сначала запустите полное сканирование сайта, затем вернитесь к Crawl Analysis и нажмите Start.

После завершения анализа сканирования вы сможете увидеть любые расхождения при сканировании, такие как URL-адреса, обнаруженные в рамках полного сканирования сайта, которые отсутствуют в карте сайта XML.

Общие проблемы

Как определить, почему определенные разделы сайта не индексируются или не ранжируются

Хотите знать, почему некоторые страницы не индексируются? Во-первых, убедитесь, что они не были случайно помещены в файл robots.txt или помечены как noindex. Затем вы должны убедиться, что SEO Spider может добраться до страниц, проверив ваши внутренние ссылки. Страницу, которая не имеет внутренних ссылок на вашем сайте, часто называют «сиротами» (Orphaned Page).

Чтобы выявить потерянные страницы, выполните следующие действия:

Перейдите в Configuration -> Spider в главной навигации, и внизу есть несколько опций для XML-карт сайтов – Auto discover XML sitemaps через ваш файл robots.txt или вручную введите ссылку XML-карты сайта в поле. *Important note – если ваш файл robots.txt не содержит правильных целевых ссылок на все XML-карты сайта, которые вы хотите сканировать, вы должны ввести их вручную.

Перейдите в Configuration → API Access → Google Analytics – используя API, вы можете получить аналитические данные для конкретной учетной записи и просмотра. Чтобы найти бесхозные страницы из органического поиска, убедитесь, что они разделены на органический трафик.

Вы также можете перейти к разделу General → Crawl New URLs Discovered In Google Analytics, если вы хотите, чтобы URL-адреса, обнаруженные в GA, были включены в ваш полный обход сайта. Если это не включено, вы сможете просматривать только новые URL-адреса, извлеченные из GA, в отчете Orphaned Pages.

Перейдите в Configuration → API Access → Google Search Console – используя API, вы можете получить данные GSC для конкретной учетной записи и просмотра. Чтобы найти бесхозные страницы, вы можете искать URL-адреса, на которых получены клики и показы, которые не включены в ваш просмотр. Вы также можете перейти к разделу General → Crawl New URLs Discovered In Google Search Console, если вы хотите, чтобы URL-адреса, обнаруженные в GSC, были включены в ваш полный обход сайта. Если этот параметр не включен, вы сможете просматривать только новые URL-адреса, извлеченные из GSC, в отчете Orphaned Pages.

Просканируйте весь сайт. После завершения сканирования перейдите в Crawl Analysis -> Start и дождитесь его завершения.

Просмотрите потерянные URL-адреса на каждой из вкладок или выполните Bulk Expor всех потерянных URL-адресов, перейдя в Reports → Orphan Pages.

Если у вас нет доступа к Google Analytics или GSC, вы можете экспортировать список внутренних URL-адресов в виде файла . CSV, используя фильтр HTML на вкладке Internal.

Откройте файл CSV и на втором листе вставьте список URL-адресов, которые не индексируются или плохо ранжируются. Используйте VLOOKUP, чтобы увидеть, были ли URL-адреса в вашем списке на втором листе найдены при сканировании.

Как найти медленные страницы на моем сайте

После того, как SEO Spider завершил сканирование, перейдите на вкладку Response Codes и отсортируйте по столбцу Response Time по возрастанию, чтобы найти страницы, которые могут страдать от медленной скорости загрузки.

Как найти вредоносное ПО или спам на моем сайте

Во-первых, вам необходимо идентифицировать след вредоносного ПО или спама. Далее в меню Configuration нажмите Custom → Search и введите искомый элемент, который вы ищете.

Вы можете ввести до 10 различных фильтров для сканирования. Наконец, нажмите OK и продолжайте сканирование сайта или списка страниц.

Когда SEO Spider завершит сканирование, выберите вкладку Custom в верхнем окне, чтобы просмотреть все страницы, содержащие ваш отпечаток. Если вы ввели более одного пользовательского фильтра, вы можете просмотреть каждый, изменив фильтр по результатам.

PPC и аналитика

Как проверить список URL-адресов PPC навалом

Сохраните список в формате .txt или .csv, затем измените настройки Mode на List.

Затем выберите файл для загрузки и нажмите Start или вставьте свой список вручную в Screaming Frog. Посмотрите код состояния каждой страницы, перейдя на вкладку Internal.

Зачистка

Как очистить метаданные для списка страниц

Итак, вы собрали множество URL, но вам нужна дополнительная информация о них? Установите режим List, затем загрузите список URL-адресов в формате .txt или .csv. После того, как SEO Spider будет готов, вы сможете увидеть код состояния, исходящие ссылки, количество слов и, конечно же, метаданные для каждой страницы в вашем списке.

Как очистить сайт для всех страниц, которые содержат определенный размер?

Во-первых, вам нужно определить след. Затем в меню Configuration нажмите Custom → Search или Extraction и введите искомый элемент, который вы ищете.

Вы можете ввести до 10 различных следов на сканирование. Наконец, нажмите OK и продолжайте сканирование сайта или списка страниц. В приведенном ниже примере я хотел найти все страницы с надписью УСЛУГИ в разделе цен, поэтому я нашел и скопировал HTML-код из исходного кода страницы.

Когда SEO Spider завершит проверку, выберите вкладку Custom в верхнем окне, чтобы просмотреть все страницы, содержащие ваш отпечаток. Если вы ввели более одного пользовательского фильтра, вы можете просмотреть каждый, изменив фильтр по результатам.

Ниже приведены некоторые дополнительные общие следы, которые вы можете почерпнуть с веб-сайтов, которые могут быть полезны для ваших аудитов SEO:

  • http: // schema \ .org – найти страницы, содержащие schema.org;
  • youtube.com/embed/|youtu.be|<video|player.vimeo.com/video/|wistia.(com|net)/embed|sproutvideo.com/embed/|view.vzaar.com|dailymotion.com/ embed / | Players.brightcove.net/ | play.vidyard.com/ | kaltura.com/ (p | kwidget) / – найти страницы, содержащие видеоконтент.

Совет: Если вы извлекаете данные о продукте с клиентского сайта, вы можете сэкономить некоторое время, попросив клиента извлечь их непосредственно из его базы данных. Описанный выше метод предназначен для сайтов, к которым у вас нет прямого доступа.

Перезапись URL

Как найти и удалить идентификатор сеанса или другие параметры из моих просканированных URL

Чтобы идентифицировать URL с идентификаторами сеансов или другими параметрами, просто просмотрите ваш сайт с настройками по умолчанию. Когда SEO Spider закончил анализировать, нажмите на вкладку URI и выберите Parameters, чтобы просмотреть все URL-адреса, содержащие параметры.

Чтобы удалить параметры, отображаемые для просматриваемых URL-адресов, выберите URL Rewriting в меню конфигурации, затем на вкладке Remove Parameters нажмите Add, чтобы добавить все параметры, которые вы хотите удалить из URL-адресов, и нажмите OK. Вам придется снова запустить Screaming Frog с этими настройками, чтобы произошла перезапись.

Как переписать просканированные URL-адреса (например, заменить .com на .co.uk или написать все URL-адреса строчными буквами)

Чтобы переписать любой URL, который вы сканируете, выберите URL Rewriting в меню Configuration, затем на вкладке Regex Replace нажмите Add, чтобы добавить RegEx для того, что вы хотите заменить.

После того, как вы добавили все нужные правила, вы можете проверить их на вкладке Test, введя тестовый URL в поле URL before rewriting. URL after rewriting будет автоматически обновляться в соответствии с вашими правилами.

Если вы хотите установить правило, согласно которому все URL-адреса возвращаются в нижнем регистре, просто выберите Lowercase discovered URLs на вкладке Options. Это удалит любое дублирование URL-адресами с заглавными буквами при сканировании.

Помните, что вам придется запустить SEO Spider с этими настройками, чтобы перезапись URL произошла.

Исследование ключевых слов

Как узнать, какие страницы мои конкуренты ценят больше всего

Конкуренты будут пытаться распространить популярность ссылок и привлечь трафик на свои наиболее ценные страницы, ссылаясь на них внутри. Любой SEO-ориентированный конкурент, вероятно, также будет ссылаться на важные страницы из блога своей компании. Найдите ценные страницы вашего конкурента, просканировав их сайт, а за тем отсортировав вкладку Internal по столбцу Inlinks по возрастанию, чтобы увидеть, какие страницы имеют больше внутренних ссылок.

Чтобы просмотреть страницы, ссылки на которые есть в блоге вашего конкурента, отмените выбор Check links outside folder в меню Spider Configuration и просмотрите папку / поддомен блога. Затем на вкладке External отфильтруйте результаты с помощью поиска по URL основного домена. Прокрутите до крайнего правого края и отсортируйте список по столбцу Inlinks, чтобы увидеть, какие страницы связаны чаще всего.

Совет: Перетащите столбцы влево или вправо, чтобы улучшить просмотр данных.

Как узнать, какой якорный текст используют мои конкуренты для внутренних ссылок

В меню Bulk Export выберите All Anchor Text, чтобы экспортировать CSV-файл, содержащий весь текст привязки на сайте, где он используется и с чем он связан.

Как узнать, какие метатеги keywords (если они есть) конкуренты добавили на свои страницы

После того, как SEO Spider закончил сканировать, посмотрите на вкладку Meta Keywords, чтобы увидеть их, найденные для каждой страницы. Сортируйте по столбцу Meta Keyword 1, чтобы расположить алфавитный список и визуально отделить пустые записи или просто экспортировать весь список.

Создание ссылок

Как проанализировать список предполагаемых ссылок

Если вы создали список URL-адресов, которые необходимо проверить, вы можете загрузить и отсканировать их в режиме List, чтобы собрать больше информации о страницах. После завершения сканирования, проверьте коды состояния на вкладке Response Codes и просмотрите исходящие ссылки, типы ссылок, текст привязки и директивы nofollow на вкладке Outlinks в нижнем окне. Это даст вам представление о том, на какие сайты ссылаются эти страницы и как. Чтобы просмотреть вкладку Outlinks, убедитесь, что в верхнем окне выбран интересующий вас URL.

Конечно, вы захотите использовать пользовательский фильтр, чтобы определить, ссылаются ли эти страницы уже на вас.

Вы также можете экспортировать полный список выходных ссылок, нажав All Outlinks в Bulk Export Menu. Это не только предоставит вам ссылки на внешние сайты, но также покажет все внутренние ссылки на отдельных страницах вашего списка.

Как найти неработающие ссылки для расширения возможностей

Итак, вы нашли сайт, с которого хотите получить ссылку? Используйте Screaming Frog, чтобы найти неработающие ссылки на нужной странице или на сайте в целом, затем обратитесь к владельцу сайта, предложив свой сайт в качестве замены неработающей ссылки, где это применимо, или просто укажите на неработающую ссылку в качестве знака доброй воли.

Как проверить мои обратные ссылки и просмотреть текст привязки

Загрузите свой список обратных ссылок и запустите SEO Spider в режиме List. Затем экспортируйте полный список исходящих ссылок, нажав All Out Links в Advanced Export Menu. Это предоставит вам URL-адреса и анкорный текст / текст alt для всех ссылок на этих страницах. Затем вы можете использовать фильтр в столбце Destination CSV, чтобы определить, связан ли ваш сайт и какой текст привязки / текст alt включен.

Как убедиться, что ссылки удаляются по запросу в процессе очистки

Установите пользовательский фильтр, содержащий URL-адрес вашего корневого домена, затем загрузите список обратных ссылок и запустите SEO Spider в режиме List. Когда SEO Spider завершит сканирование, выберите вкладку Custom, чтобы просмотреть все страницы, которые все еще ссылаются на вас.

Дополнительная информация

Знаете ли вы, что, щелкнув правой кнопкой мыши по любому URL в верхнем окне ваших результатов, вы можете выполнить любое из следующих действий?

  • Скопировать или открыть URL;
  • Повторно сканировать URL или удалить его из своего сканирования;
  • Экспортировать информацию об URL, в ссылках, выходных ссылках или информации об изображении для этой страницы
  • Проверить индексацию страницы в Google;
  • Проверить обратные ссылки на страницу в Majestic, OSE, Ahrefs и Blekko.
  • Посмотреть на кэшированную версию / дату кеша страницы;
  • Смотреть старые версии страницы;
  • Проверить HTML-код страницы
  • Открыть robots.txt для домена, на котором находится страница;
  • Поиск других доменов на том же IP.

Аналогично, в нижнем окне, щелкнув правой кнопкой мыши, вы можете скопировать или открыть URL-адрес в столбце To для From выбранной строки.

Как редактировать метаданные

Режим SERP позволяет вам просматривать фрагменты SERP на устройстве, чтобы визуально показать, как ваши метаданные будут отображаться в результатах поиска.

  1. Загрузите URL, заголовки и метаописания в Screaming Frog, используя документ .CSV или Excel.

    Если вы уже провели сканирование своего сайта, то можете экспортировать URL-адреса, перейдя в Reports → SERP Summary. Это легко отформатирует URL и мета, которые вы хотите загрузить и отредактировать.

  2. Mode → SERP → Upload File.
  3. Редактируйте метаданные в Screaming Frog.

Массовый экспорт обновленных метаданных для отправки напрямую разработчикам для обновления.

Как сканировать JavaScript-сайта

Все чаще веб-сайты создаются с использованием таких JavaScript-фреймворков, как Angular, React и т. д. Google настоятельно рекомендует использовать решение для рендеринга, поскольку робот Googlebot все еще пытается сканировать содержимое JavaScript. Если вы определили сайт, созданный с использованием JavaScript, следуйте приведенным ниже инструкциям, чтобы сканировать сайт.

Configuration → Spider → Rendering → JavaScript

Измените настройки рендеринга в зависимости от того, что вы ищете. Вы можете настроить время ожидания, размер окна (мобильный, планшет, рабочий стол и т. д.)

Нажмите OK и сканируйте веб-сайт.

В нижней части навигации щелкните вкладку Rendered Page, чтобы увидеть, как страница отображается. Если ваша страница не отображается должным образом, проверьте наличие заблокированных ресурсов или увеличьте лимит времени ожидания в настройках конфигурации. Если ни один из вариантов не поможет решить, как ваша страница отображается, возможно, возникнет более серьезная проблема.

Вы можете просмотреть и массово экспортировать любые заблокированные ресурсы, которые могут повлиять на сканирование и визуализацию вашего сайта, перейдя в Bulk Export → Response Codes.

Просмотр оригинального HTML и визуализированного HTML

Если вы хотите сравнить необработанный HTML и визуализированный HTML, чтобы выявить какие-либо несоответствия или убедиться, что важный контент находится в DOM, перейдите в Configuration → Spider -> Advanced и нажмите hit store HTML и store rendered HTML.

В нижнем окне вы сможете увидеть необработанный и визуализированный HTML. Это может помочь выявить проблемы с тем, как ваш контент отображается и просматривается сканерами.

В заключение

Мы надеемся, что это руководство даст вам лучшее представление о том, какие возможности вам доступны в Screaming Frog, а также поможет сэкономить часы работы.

поиск уязвимостей, сетевые сканеры, дебаггеры, уязвимости в скриптах

В данном обзоре рассматриваются бесплатные сканеры защищенности веб-сайтов — дается их определение, описывается принцип работы, приводятся краткие обзоры продуктов.

 

 

 

 

 

 

1. Введение

2. Что такое сканеры защищенности веб-сайтов

3. Принцип работы сканеров защищенности веб-сайтов

4. Категории сканеров защищенности веб-сайтов

5. Краткий обзор бесплатных сканеров защищенности веб-сайтов

5.1. Сетевые сканеры

5.1.1. Nmap

5.1.2. IP Tools

5.2. Сканеры поиска уязвимостей в веб-скриптах

5.2.1. Nikto

5.2.2. Skipfish

5.2.3. Wapiti

5.3. Средства поиска эксплойтов

5.3.1. Metasploit Framework

5.3.2. Nessus

5.4. Средства автоматизации инъекций

5.4.1. SQLMap

5.4.2. bsqlbf-v2

5.5. Дебаггеры

5.5.1. Burp Suite

5.5.2. Fiddler

5.6. Универсальные сканеры

5.6.1. Web Application Attack and Audit Framework (w3af)

5.6.2. N-Stalker Web Application Security Scanner X Free Edition

6. Выводы

 

 

Введение

В современном бизнесе веб-технологии приобрели огромную популярность. Большинство сайтов крупных компаний представляют собой набор приложений, обладающих интерактивностью, средствами персонализации, средствами взаимодействия с клиентами (интернет-магазины, дистанционное банковское обслуживание), а нередко — и средствами интеграции с внутренними корпоративными приложениями компании.

Однако как только веб-сайт становится доступным в интернете, он превращается в мишень для кибератак. Наиболее простым способом атак на веб-сайт сегодня является использование уязвимостей его компонентов. И основная проблема заключается в том, что уязвимости стали вполне обычным явлением для современных сайтов.

Уязвимости представляют собой неизбежную и растущую угрозу. Они, по большей части, являются результатами дефектов безопасности в коде веб-приложения и неправильной конфигурации компонентов веб-сайта.

Приведем немного статистики. По данным из отчета о киберугрозах за первое полугодие 2016 года High-Tech Bridge releases web security trends of the first half of 2016, подготовленного компанией High-Tech Bridge:

  • свыше 60% веб-сервисов или API для мобильных приложений содержат по крайней мере одну опасную уязвимость, позволяющую скомпрометировать базу данных;
  • 35% уязвимых к XSS-атакам сайтов также уязвимы к SQL-инъекциям и XXE-атакам;
  • 23% сайтов содержат уязвимость POODLE, и только 0,43% — Heartbleed;
  • в 5 раз участились случаи эксплуатации опасных уязвимостей (например, позволяющих осуществить SQL-инъекцию) в ходе атак RansomWeb;
  • 79,9% веб-серверов имеют неправильно сконфигурированные или небезопасные заголовки http;
  • актуальные на сегодняшний день необходимые обновления и исправления установлены только на 27,8% веб-серверов.

Для защиты веб-ресурсов специалисты по информационной безопасности используют различный набор средств. Например, для шифрования трафика применяют SSL-сертификаты, а на периметре веб-серверов устанавливают Web Application Firewall (WAF), которые требуют серьезной настройки и долгого самообучения. Не менее эффективным средством обеспечения безопасности веб-сайтов является и периодическая проверка состояния защищенности (поиск уязвимостей), а инструментами для проведения таких проверок служат сканеры защищенности веб-сайтов, о которых и пойдет речь в этом обзоре.

На нашем сайте уже был обзор, посвященный сканерам защищенности веб-приложений — «Сканеры защищенности веб-приложений (WASS) – обзор рынка в России и в мире», в котором рассматривались продукты лидеров рынка. В настоящем обзоре мы уже не будем затрагивать эти темы, а сфокусируем внимание на обзоре бесплатных сканеров защищенности веб-сайтов.

Тема бесплатного программного обеспечения сегодня особенно актуальна. Из-за нестабильной экономической ситуации в России сейчас во многих организациях (как и в коммерческих, так и в госсекторе) идет оптимизация ИТ-бюджета, и средств на покупку дорогих коммерческих продуктов для анализа защищенности систем зачастую не хватает.  При этом существует множество бесплатных  (free, open source) утилит для поиска уязвимостей, о которых люди просто не знают. Причем некоторые из них не уступают по функциональным возможностям своим платным конкурентам. Поэтому в этой статьей расскажем о наиболее интересных бесплатных сканерах защищенности веб-сайтов.

 

Что такое сканеры защищенности веб-сайтов

Сканеры защищенности веб-сайтов — это программные (программно-аппаратные) средства, осуществляющие поиск дефектов веб-приложений (уязвимостей), которые приводят к нарушению целостности системных или пользовательских данных, их краже или получению контроля над системой в целом.

С помощью сканеров защищенности веб-сайтов можно обнаружить уязвимости следующих категорий:

  • уязвимости этапа кодирования;
  • уязвимости этапа внедрения и конфигурирования веб-приложения;
  • уязвимости этапа эксплуатации веб-сайта.

К уязвимостям этапа кодирования относятся уязвимости, связанные с некорректной обработкой входных и выходных данных (SQL-инъекции, XSS).

К уязвимостям этапа внедрения веб-сайта относятся уязвимости, связанные с некорректными настройками окружения веб-приложения (веб-сервера, сервера приложений, SSL/TLS, фреймворк, сторонние компоненты, наличие DEBUG-режима и т. п.).

К уязвимостям этапа эксплуатации веб-сайта относятся уязвимости, связанные с использованием устаревшего ПО, простых паролей, хранением архивных копий на веб-сервере в общем доступе, наличием в общем доступе служебных модулей (phpinfo) и т. п.

 

Принцип работы сканеров защищенности веб-сайтов

В общем случае принцип работы сканера защищенности веб-сайтов заключается в следующем:

  • Сбор информации об исследуемом объекте.
  • Аудит программного обеспечения веб-сайта на предмет уязвимостей по базам уязвимостей.
  • Выявление слабых мест системы.
  • Формирование рекомендаций по их устранению.

 

Категории сканеров защищенности веб-сайтов

Сканеры защищенности веб-сайтов, в зависимости от их предназначения, можно разделить на следующие категории (типы):

  • Сетевые сканеры — данный тип сканеров раскрывает доступные сетевые сервисы, устанавливает их версии, определяет ОС и т. д.
  • Сканеры поиска уязвимостей в веб-скриптах — данный тип сканеров осуществляет поиск уязвимостей, таких как SQL inj, XSS, LFI/RFI и т. д., или ошибок (не удаленные временные файлы, индексация директорий и т. п.).
  • Средства поиска эксплойтов — данный тип сканеров предназначен для автоматизированного поиска эксплойтов в программном обеспечении и скриптах.
  • Средства автоматизации инъекций — утилиты, которые конкретно занимаются поиском и эксплуатацией инъекций.
  • Дебаггеры  — средства для исправления ошибок и оптимизации кода в веб-приложении.

Существуют также и универсальные утилиты, которые включают в себя возможности сразу нескольких категорий сканеров.

Далее будет приведен краткий обзор бесплатных сканеров защищенности веб-сайтов. Поскольку бесплатных утилит очень много, в обзор включены только самые популярные бесплатные инструменты для анализа защищенности веб-технологий. При включении в обзор той или иной утилиты анализировались специализированные ресурсы по тематике безопасности веб-технологий:

 

Краткий обзор бесплатных сканеров защищенности веб-сайтов

 

Сетевые сканеры

Nmap

 

Тип сканера: сетевой сканер.

Nmap (Network Mapper) — это бесплатная утилита с открытым исходным кодом. Она предназначена для сканирования сетей с любым количеством объектов, определения состояния объектов сканируемой сети, а также портов и соответствующих им служб. Для этого Nmap использует много различных методов сканирования, таких как UDP, TCP connect, TCP SYN (полуоткрытое), FTP proxy (прорыв через ftp), Reverse-ident, ICMP (ping), FIN, ACK, Xmas tree, SYN и NULL-сканирование.

Nmap также поддерживает большой набор дополнительных возможностей, а именно: определение операционной системы удаленного хоста с использованием отпечатков стека TCP/IP, «невидимое» сканирование, динамическое вычисление времени задержки и повтор передачи пакетов, параллельное сканирование, определение неактивных хостов методом параллельного ping-опроса, сканирование с использованием ложных хостов, определение наличия пакетных фильтров, прямое (без использования portmapper) RPC-сканирование, сканирование с использованием IP-фрагментации, а также произвольное указание IP-адресов и номеров портов сканируемых сетей.

Nmap получил статус Security Product of the Year от таких журналов и сообществ, как Linux Journal, Info World, LinuxQuestions.Org и Codetalker Digest.

Платформа: утилита кросс-платформенна.

Подробнее со сканером Nmap можно ознакомиться здесь.

 

IP Tools

 

Тип сканера: сетевой сканер.

IP Tools — это анализатор протоколов, поддерживающий правила фильтрации, адаптер отбора, декодирование пакетов, описание протокола и многое другое. Подробная информацию о каждом пакете содержится в дереве стиля, меню по щелчку правой кнопкой мыши позволяет сканировать выбранный IP-адрес.  

В дополнение к пакетному снифферу, IP Tools предлагает полный набор сетевых инструментов, включая адаптер статистики, мониторинг IP-трафика и многое другое.

Подробнее со сканером IP-Tools можно ознакомиться здесь.

Платформа: Windows.

 

Top 100 Network Security Tools  — топ-100 утилит для сетевой безопасности.

 

Сканеры поиска уязвимостей в веб-скриптах

 

Nikto

 

Тип сканера: сканер поиска уязвимостей в веб-скриптах.

Nikto — бесплатный сканер, который осуществляет всеобъемлющее тестирование веб-серверов на уязвимости, в том числе проверяет наличие более 6500 потенциально опасных файлов и CGI, определяет устаревшие версии более 1250 различных веб-серверов, а также отображает специфические проблемы для более чем 270 версий серверов. Сканер также определяет типичные ошибки в конфигурации веб-сервера, в том числе наличие нескольких индексных файлов, опции HTTP-сервера, после чего пытается составить максимально полный список версий программ и модулей на сервере. Список сканируемых объектов в Nikto реализован в виде подключаемых плагинов и часто обновляется (эти плагины не являются open source).

Сканер Nikto спроектирован для работы в скрытном режиме: он осуществляет сканирование максимально быстро, записывая результаты в лог. Версия 2.1.5 содержит исправления нескольких багов, а также новые функции и новые виды проверок. Среди самого важного — распознавание IP в HTTP-заголовках, автоматическая проверка доступных файлов после парсинга robots.txt, проверка иконок в <link>, проверка уязвимостей с crossdomain.xml и clientaccesspolicy.xml. Среди новых опций программы — установка максимального времени сканирования хоста (в секундах) для маскировки сканирования, повтор сохраненных JSON-запросов с помощью replay.pl, поддержка SSL-сертификатов на стороне клиента, более продвинутое тестирование за счет автоматического добавления переменных в db_variables после парсинга robots.txt или других страниц.

Стоит также отметить, что свободный движок Nikto используется в коммерческих сканерах уязвимостей Edgeos и HackerTarget.com.

Платформа: MacOS, Linux, Windows.

Подробнее со сканером Nikto можно ознакомиться здесь.

 

Skipfish

 

Тип сканера: сканер поиска уязвимостей в веб-скриптах.

Кросс-платформенный сканер веб-уязвимостей Skipfish от программиста Michal Zalewski  выполняет рекурсивный анализ веб-приложения и его проверку на базе словаря, после чего составляет карту сайта, снабженную комментариями об обнаруженных уязвимостях.

Разработка инструмента ведется внутри компании Google.

Сканер осуществляет детальный анализ web-приложения. Также существует возможность создания словаря для последующего тестирования этого же приложения. Подробный отчет Skipfish содержит информацию об обнаруженных уязвимостях, URL ресурса, содержащего уязвимость, а также переданный запрос. В отчете полученные данные отсортированы по уровню опасности и по типу уязвимости. Отчет формируется в html-формате.

Стоит отметить, что сканер веб-уязвимостей Skipfish генерирует очень большой объем трафика, а сканирование происходит очень долго.

Платформы: MacOS, Linux, Windows.

Подробнее со сканером Skipfish можно ознакомиться здесь.

 

Wapiti

 

Тип сканера: сканер поиска уязвимостей в веб-скриптах.

Wapiti — это консольная утилита для аудита веб-приложений. Работает по принципу «черного ящика» (blackbox).

Wapiti функционирует следующим образом: сначала WASS-сканер анализирует структуру сайта, ищет доступные сценарии, анализирует параметры. После Wapiti включает фаззер и продолжает сканирование до тех пор, пока все уязвимые скрипты не будут найдены.

WASS-сканер  Wapiti  работает со следующими типами уязвимостей:

  • File disclosure (Local and remote include/require, fopen, readfile).
  • Database Injection (PHP/JSP/ASP SQL Injections and XPath Injections).
  • XSS (Cross Site Scripting) injection (reflected and permanent).
  • Command Execution detection (eval(), system(), passtru()…).
  • CRLF Injection (HTTP Response Splitting, session fixation…).
  • XXE (XmleXternal Entity) injection.
  • Use of know potentially dangerous files.
  • Weak .htaccess configurations that can be bypassed.
  • Presence of backup files giving sensitive information (source code disclosure).

Wapiti входит в состав утилит дистрибутива Kali Linux. Можно скачать исходники с SourceForge и использовать на любом дистрибутиве, основанном на ядре Linux. Wapiti поддерживает GET и POST HTTP методы запросов.

Платформы: Windows, Unix, MacOS.

Подробнее со сканером Wapiti можно ознакомиться здесь.

 

Web Application Security Scanner List by WebAppSec — список сканеров защищенности веб-сайтов от организации WebAppSec.

 

Средства поиска эксплойтов

 

Metasploit Framework

 

Тип сканера: средства поиска эксплойтов.

Простая в использовании платформа проникновения, содержащая описание новейших угроз, дополненная функциями автоматического обновления и расширяемая с помощью известного языка Perl. Metasploit Framework очень пригодится специалистам по сетевой безопасности для эмуляции угроз.

Metasploit — механизм на базе сценариев Perl, с помощью которого можно применять множество методов проникновения для различных платформ и приложений. Помимо набора методов проникновения через известные лазейки, Metasploit позволяет переслать в обнаруженную брешь конкретную программу.

Metasploit Framework расширяется с использованием модулей Perl, поэтому можно подготовить собственные средства проникновения, включить их в инфраструктуру и воспользоваться готовой подходящей программой использования.

Подробнее со сканером Metasploit Framework можно ознакомиться здесь.

 

Nessus

 

Категория сканера: сетевой сканер и средство поиска эксплойтов.

Сканер Nessus является мощным и надежным средством, которое относится к семейству сетевых сканеров, позволяющих осуществлять поиск уязвимостей в сетевых сервисах, предлагаемых операционными системами, межсетевыми экранами, фильтрующими маршрутизаторами и другими сетевыми компонентами. Для поиска уязвимостей используются как стандартные средства тестирования и сбора информации о конфигурации и функционировании сети, так и специальные средства, эмулирующие действия злоумышленника по проникновению в системы, подключенные к сети.

Платформы: кросс-платформенное программное обеспечение.

Подробнее со сканером Nessus можно ознакомиться здесь.

 

Top 10 Web Vulnerability Scanners — топ-10 сканеров уязвимостей веб-сайтов.

 

Средства автоматизации инъекций

 

SQLMap

 

Тип сканера: средство автоматизации инъекций.

Бесплатный сканер с открытым исходным кодом, главная задача которого — автоматизированный поиск SQL-уязвимостей. SQLMap позволяет не только обнаруживать уязвимости, но и при возможности эксплуатировать их. SQLMap поддерживает большое количество СУБД.

К функциональным возможностям  SQLMap относятся:

  • Поиск инъекций: boolean-based blind, time-based blind, error-based, UNION query и stacked queries.
  • Возможность работы с конкретным URL либо со списком.
  • Проверка параметров, передаваемых методами GET и POST.
  • Работа в многопотоковом режиме.
  • Интеграция с другими инструментами для анализа веб-приложений — Metasploit и w3af.
  • Возможность получения полезной информации о приложении и сервере (fingerprint).

Платформы: MySQL, Oracle, PostgreSQL, Microsoft SQL Server, Microsoft Access, IBM DB2, SQLite, Firebird, Sybase, SAP MaxDB и HSQLDB.

Подробнее со сканером SQLMap можно ознакомиться здесь.

 

bsqlbf-v2

 

Тип сканера: средство автоматизации инъекций.

bsqlbf-v2 — скрипт, написанный на языке Perl. Брутфорсер «слепых» SQL-инъекций. Сканер работает как с integer-значениями в url, так и со строковыми (string).

Платформы: MS-SQL, MySQL, PostgreSQL, Oracle.

Подробнее со сканером bsqlbf-v2 можно ознакомиться здесь.

 

Дебаггеры

 

Burp Suite

 

Тип сканера: дебаггер.

Burp Suite — это набор относительно независимых кросс-платформенных приложений, написанных на Java.

Ядром комплекса является модуль Burp Proxy, выполняющий функции локального прокси-сервера; остальные компоненты набора — это Spider, Intruder, Repeater, Sequencer, Decoder и Comparer. Все составляющие связаны между собой в единое целое таким образом, что данные могут быть отправлены в любую часть приложения, например, из Proxy в Intruder для проведения различных проверок над веб-приложением, из Intruder в Repeater — для более тщательного ручного анализа HTTP-заголовков.

Платформы: кросс-платформенное программное обеспечение.

Подробнее со сканером Burp Suite можно ознакомиться здесь.

 

Fiddler

Тип сканера: дебаггер.

Fiddler — это отладочный прокси, логирующий весь HTTP(S)-трафик. Инструмент позволяет исследовать этот трафик, устанавливать breakpoint и «играться» с входящими или исходящими данными.

Функциональные особенности Fiddler:

  • Возможность контроля всех запросов, файлов cookie, передаваемых параметров интернет-браузерами.
  • Функция изменения ответов сервера «на лету».
  • Возможность манипулировать заголовками и запросами.
  • Функция изменения ширины канала.

Платформы: кросс-платформенное программное обеспечение.

Подробнее со сканером Fiddler можно ознакомиться здесь.

 

Top 10 Vulnerability Scanners— топ-10 сканеров уязвимостей.

 

Универсальные сканеры

 

Web Application Attack and Audit Framework (w3af)

 

Тип сканера: сканер поиска уязвимостей в веб-скриптах, средство поиска эксплойтов.

Web Application Attack and Audit Framework  (w3af) — это WASS-сканер (фреймворк) с открытым исходным кодом. WASS-сканер написан на Python, поэтому с успехом запускается и под Windows, и под *NIX, и под MacOS. Для инсталляции необходим установленный интерпретатор Python. В распоряжении пользователя как графический (с использованием GTK), так и консольный интерфейсы.

Подавляющую часть функциональности платформы составляют плагины (на данный момент уже более 100). Они делятся на группы:

  • audit — плагины, которые непосредственно ищут уязвимости на веб-сервере;
  • bruteforce — плагины для перебора логинов и паролей веб-форм и BasicAuth;
  • discovery — плагины для сбора информации: версия веб-сервера, версия ОС, ссылки, пользователи, почтовые ящики;
  • evasion — плагины, которые изменяют запросы к веб-серверу для преодоления фильтрации, типа кавычек и прочего;
  • grep — плагины для анализа запросов и ответов веб-сервера;
  • mangle — плагины для изменения запросов к веб-серверу «на лету».

Плагины, имеющиеся в w3af, делятся на 3 типа: для исследований, для аудита и для проведения атак.

Платформы: Windows, Unix, MacOS.

Подробнее со сканером Web Application Attack and Audit Framework  (w3af) можно ознакомиться здесь.

 

N-Stalker Web Application Security Scanner X Free Edition

 

Тип сканера: сканер поиска уязвимостей в веб-скриптах, средство поиска эксплойтов.

Эффективный инструмент для веб-служб — N-Stealth Security Scanner компании N-Stalker. Компания продает более полнофункциональную версию N-Stealth, но бесплатная пробная версия вполне пригодна для простой оценки. Платный продукт располагает более чем 30 тыс. тестов системы безопасности веб-серверов, но и бесплатная версия обнаруживает более 16 тыс. конкретных пробелов, в том числе уязвимые места в таких широко распространенных веб-серверах, как Microsoft IIS и Apache. Например, N-Stealth отыскивает уязвимые сценарии Common Gateway Interface (CGI) и Hypertext Preprocessor (PHP), использует атаки с проникновением в SQL Server, типовые кросс-сайтовые сценарии и другие пробелы в популярных веб-серверах.

N-Stealth поддерживает как HTTP, так и HTTP Secure (HTTPS — с использованием SSL), сопоставляет уязвимые места со словарем Common Vulnerabilities and Exposures (CVE) и базой данных Bugtraq, а также генерирует неплохие отчеты. N-Stealth используется для поиска наиболее распространенных уязвимых мест в веб-серверах и помогает определять самые вероятные направления атак.

Конечно, для более достоверной оценки безопасности веб-узла или приложений рекомендуется приобрести платную версию.

Подробнее со сканером N-Stealth можно ознакомиться здесь.

 

Выводы

Тестирование веб-сайтов на предмет выявления уязвимых мест — это хорошая превентивная мера. В настоящее время существует множество как коммерческих, так и свободно распространяемых сканеров защищенности веб-сайтов. При этом сканеры могут быть как универсальные (комплексные решения), так и специализированные, предназначенные только для выявления определенных типов уязвимостей.

Некоторые бесплатные сканеры являются довольно мощными инструментами  и показывают большую глубину и хорошее качество проверки веб-сайтов. Но перед тем как использовать бесплатные утилиты для анализа защищенности веб-сайтов, необходимо удостовериться в их качестве. Сегодня для этого уже есть множество методик (например, Web Application Security Scanner Evaluation Criteria, OWASP Web Application Scanner Specification Project).

Наиболее полную картину о защищенности той или иной инфраструктуры позволяют получить только комплексные решения. В некоторых случаях лучше применять несколько сканеров защищенности.

Принципы работы Google Поиска | Сканирование и индексирование

Чтобы пользователи могли быстро найти нужные сведения, наши роботы собирают информацию на сотнях миллиардов страниц и упорядочивают ее в поисковом индексе.

При очередном сканировании наряду со списком веб-адресов, полученных во время предыдущего сканирования, используются файлы Sitemap, которые предоставляются владельцами сайтов. По мере посещения сайтов робот переходит по указанным на них ссылкам на другие страницы. Особое внимание он уделяет новым и измененным сайтам, а также неработающим ссылкам. Он самостоятельно определяет, какие сайты сканировать, как часто это нужно делать и какое количество страниц следует выбрать на каждом из них.

При помощи Search Console владельцы сайтов могут указывать, как именно следует сканировать их ресурсы, в частности предоставлять подробные инструкции по обработке страниц, запрашивать их повторное сканирование, а также запрещать сканирование, используя файл robots.txt. Google не увеличивает частоту сканирования отдельных ресурсов за плату. Чтобы результаты поиска были максимально полезными для пользователей, все владельцы сайтов получают одни и те же инструменты.

Поиск информации с помощью сканирования

Интернет похож на библиотеку, которая содержит миллиарды изданий и постоянно пополняется, но не располагает централизованной системой учета книг. Чтобы находить общедоступные страницы, мы используем специальное программное обеспечение, называемое поисковыми роботами. Роботы анализируют страницы и переходят по ссылкам на них – как обычные пользователи. После этого они отправляют сведения о ресурсах на серверы Google.

Систематизация информации с помощью индексирования

Во время сканирования наши системы обрабатывают материалы страниц так же, как это делают браузеры, и регистрируют данные по ключевым словам и новизне контента, а затем создают на их основе поисковый индекс.

Индекс Google Поиска содержит сотни миллиардов страниц. Его объем значительно превышает 100 миллионов гигабайт. Он похож на указатель в конце книги, в котором есть отдельная запись для каждого слова на всех проиндексированных страницах. Во время индексирования данные о странице добавляются в записи по всем словам, которые на ней есть.

 

 

Как сканировать веб-сайт или извлекать данные в базу данных с помощью python? Ru Python

Я хотел бы создать webapp, чтобы помочь другим студентам моего университета создать свои графики. Для этого мне нужно просканировать основные расписания (одну огромную страницу html), а также ссылку на подробное описание каждого курса в базу данных, предпочтительно на python. Кроме того, мне нужно войти в систему, чтобы получить доступ к данным.

  • Как это будет работать?
  • Какие инструменты / библиотеки можно использовать / использовать?
  • Есть ли хорошие учебники по этому поводу?
  • Как лучше всего иметь дело с двоичными данными (например, довольно pdf)?
  • Есть ли для этого хорошие решения?
  • requests на загрузку страниц.
  • lxml для очистки данных.

Если вы хотите использовать мощную фреймворк, то Scrapy . В нем есть также хорошая документация. В зависимости от вашей задачи это может быть немного переполнено.

Scrapy , вероятно, является лучшей библиотекой Python для сканирования. Он может поддерживать состояние для аутентифицированных сеансов.

Работа с двоичными данными следует обрабатывать отдельно. Для каждого типа файла вам придется обрабатывать его по-разному в соответствии с вашей собственной логикой. Для практически любого формата вы, вероятно, сможете найти библиотеку. Например, посмотрите на PyPDF для обработки PDF-файлов. Для файлов excel вы можете попробовать xlrd.

Мне понравилось использовать BeatifulSoup для извлечения html-данных

Это так просто:

 from BeautifulSoup import BeautifulSoup import urllib ur = urllib.urlopen("http://pragprog.com/podcasts/feed.rss") soup = BeautifulSoup(ur.read()) items = soup.findAll('item') urls = [item.enclosure['url'] for item in items] 

Для этого есть очень полезный инструмент, называемый web-harvest Link на их веб-сайт http://web-harvest.sourceforge.net/ Я использую это для сканирования веб-страниц

Почему Netpeak Spider не сканирует мой сайт?

Обратите внимание, что скорее всего роботы поисковых систем во время сканирования сайта испытывают те же трудности, что и Netpeak Spider. Поэтому следующие ошибки советуем устранять как можно скорее, чтобы избежать возможной пессимизации поисковыми системами и ухудшения поведенческих показателей.


Список причин, из-за которых определённые сайты могут не сканироваться:

  1. Сайт закрыт от индексации одним или несколькими из возможных способов — robots.txt, Meta Robots, X-Robots-Tag.

    Решения:

    • отключить учёт этих правил в настройках на вкладке «Продвинутые»;

    • открыть сайт к индексации, так как иначе высока вероятность, что у сайта будут большие проблемы с трафиком из поисковых систем.

  2. На сайте некорректно прописан canonical. Это часто происходит при переезде на новый протокол.

    Решения: 

    • отключить учёт инструкции canonical в настройках на вкладке «Продвинутые»;

    • прописать корректную ссылку на сайте.

  3. На сайте запрещён доступ для определённых User Agent, например, для Googlebot.

    Решение: сменить текущий User Agent в настройках Netpeak Spider.

  4. По каким-то причинам ваш IP-адрес был заблокирован на сканируемом сайте.

    Решение: использовать прокси.

  5. На сканируемом сайте требуется авторизация.

    Решение: прописать данные для входа (логин и пароль) в настройках сканирования в разделе «Аутентификация». Данный способ работает только для базовой аутентификации, которая включается в HTTP-запрос и зачастую используется на этапе разработки сайта.

  6. Ошибка «SendFailure» может проявиться на сайтах с HTTPS-протоколом, если вы используете Netpeak Spider на Windows версии ниже 7 SP2, так как такие версии операционных систем не поддерживают шифрование TLS 1.2.

    Решения: 

    • запустить Netpeak Spider на устройстве с Windows 7 SP2 и более поздних версий;

    • если вы владелец сайта, настроить поддержку более ранних версий шифрования (TLS 1.0).

  7. Ошибка «ConnectFailure» означает, что невозможно установить соединение с сервером. Зачастую она появляется при сканировании сайтов с HTTP-протоколом. Если в поле «Начальный URL» вы ввели только имя домена, срабатывает автоматическая подстановка префикса защищённого протокола HTTPS, что не даёт установить соединение.

    Решение: достаточно в начальном URL изменить префикс на http://.

  8. Сканируемый сайт написан на JavaScript. По умолчанию Netpeak Spider сканирует только статичный HTML-код без рендеринга JavaScript-кода.

    Решение: отметить галочкой пункт «Рендерить JavaScript» на вкладке основных настроек. При необходимости измените Ajax Timeout (по умолчанию установлена задержка в 2 секунды).  

  9. Страницы сканируемого сайта с самого начала или с определённого момента отдают 5хх код ответа сервера. Эта проблема может быть связана с тем, что сервер, на котором расположен данный сайт, некорректно работает при получении большого количества запросов, или же на нём установлена защита от большого количества одновременных запросов.

    Решения: 

    • пересканировать только страницы с 5хх кодом ответа сервера: уменьшить количество потоков в настройках на вкладке «Основные», отфильтровать страницы с 5хх кодом ответа и в контекстном меню выбрать пункт «Текущая таблица» → «Пересканировать таблицу»;

    • пересканировать весь проект: аналогично уменьшить количество потоков и повторить сканирование, нажав кнопку «Рестарт».

      Мы рекомендуем установить значение в 2 потока. Если проблема повторится снова, следует выставить значение в один поток, а также задать дополнительную задержку между запросами в 2000 мс. Сканирование займёт больше времени, но такие настройки позволят избежать чрезмерной нагрузки на сервер.


Обратите внимание, что нагрузка в 5-10 потоков не является слишком большой: мы советуем обеспечить корректную работу сервера при такой нагрузке, чтобы посетители сайта могли быстро и комфортно перемещаться по нему без длительного ожидания ответа. Если вы часто встречаетесь с такими проблемами, рекомендуем провести оптимизацию скорости ответа сервера и/или выбрать более подходящий хостинг.

Сканер модернизации SharePoint | Microsoft Docs

  • Чтение занимает 12 мин

В этой статье

С помощью сканера модернизации SharePoint можно подготовить классические сайты к модернизации. Using the SharePoint Modernization scanner you can prepare your classic sites for modernization. Сканер помогает подготовиться к выполнению указанных ниже действий по модернизации.The scanner will help you prepare for the following modernization efforts:

  • Оптимизация использования современных списков и библиотекOptimizing the usage of modern list and libraries
  • Подключение этих сайтов к группе Microsoft 365Connecting these sites to a Microsoft 365 group
  • Модернизация вики-страниц и страниц веб-частей путем создания современных страниц сайтовModernizing the wiki and web part pages by creating modern site pages
  • Преобразование классических порталов публикации в современные порталы публикацииRebuilding classic publishing portals as modern publishing portals
  • Определение, где используется классический рабочий процессUnderstanding where classic workflow is used
  • Определение, где используется InfoPathUnderstanding where InfoPath is being used
  • Общие сведения об использовании классических страниц блогаUnderstanding the usage of classic blog pages

Этот сканер является основным инструментом при подготовке к модернизации классических сайтов, так как он предоставляет фактические сведения о том, насколько легко модернизировать ваши сайты.This scanner is a key tool to use if you want to prepare for modernizing your classic sites as it will give you factual data about how easy it is to modernize your sites. С помощью информационных панелей, создаваемых сканером, можно детализировать «готовность к модернизации» ваших сайтов и запланировать действия по исправлению при необходимости.Using the dashboards generated by the scanner you’ll be able to drill down on the «modernization readiness» of your sites and plan the needed remediation work where needed.

Примечание

Запуск сканера модернизации SharePoint поддерживается только в среде SharePoint Online.The SharePoint modernization scanner only is supported for running against SharePoint Online. Чтобы выполнить сканирование в локальной среде SharePoint, вы можете воспользоваться средством оценки миграции SharePoint (SMAT).For scanning on-premises SharePoint you can consider using the SharePoint Migration Assessment Tool (SMAT).

Важно!

Средства модернизации и все остальные компоненты PnP — это инструменты с открытым исходным кодом, поддерживаемые активным сообществом, которое предоставляет для них поддержку.Modernization tooling and all other PnP components are open-source tools backed by an active community providing support for them. Со стороны официальных каналов поддержки Майкрософт отсутствуют соглашения об уровне обслуживания (SLA) для инструментов с открытым исходным кодом.There is no SLA for open-source tool support from official Microsoft support channels.

Этап 1. Получение последней версии сканера модернизации SharePointStep 1: Get the latest version of the SharePoint modernization scanner

SharePoint Online непрерывно развивается с добавлением новых современных возможностей, поэтому важно всегда загружать последнюю версию сканера.Since SharePoint Online continuously evolves and more and more modern capabilities are added, it’s important to always download the latest version of the scanner. Скачайте исполняемый файл сканера модернизации SharePoint и приступите к работе.Download the SharePoint Modernization Scanner executable and get started. Эта страница и другие связанные с ней страницы содержат все сведения для начала работы, а также подробности отчетов и вопросы с ответами.This page and the other pages linked to it contain all information to get you started, and also all the report details and an FAQ.

Этап 2. Подготовка к сканированиюStep 2: Preparing for a scan

При стандартном сканировании необходима возможность его выполнения для всех семейств веб-сайтов, поэтому рекомендуется использовать субъект на уровне приложения с разрешениями на уровне клиента для сканирования.Since a typical scan needs to be able to scan all site collections, it’s recommended to use an app-only principal with tenant scoped permissions for the scan. Этот подход обеспечивает постоянный доступ сканера. Если вы используете учетную запись (например, учетную запись администратора клиента SharePoint), то сканер сможет получать доступ только к сайтам, доступным этому пользователю.This approach will ensure the scanner always has access, if you use an account (for example, your SharePoint tenant admin account) then the scanner can only access the sites where this user also has access. Для доступа на уровне приложения можно использовать субъект приложения Azure AD или приложения SharePoint. Ниже приведены ссылки на описание ручной настройки этих параметров.You can either use an Azure AD application or a SharePoint app principal for app-only access and below links describe the manual approach to setting up things. Рекомендуется использовать Azure AD на уровне приложений. Можно удобно настроить приложение Azure AD с помощью командлета PowerShell PnP Initialize-PnPPowerShellAuthentication.As the recommended approach is Azure AD App-Only, you can easy the setup of your Azure AD application by using the PnP PowerShell Initialize-PnPPowerShellAuthentication cmdlet. Дополнительные сведения см. в главе Использование Initialize-PnPPowerShellAuthentication для настройки Azure AD на уровне приложений.See the Using Initialize-PnPPowerShellAuthentication to setup Azure AD App-Only chapter for more details.

Важно!

Если вы выбрали доступ на уровне приложения в Azure AD, то такому приложению предоставляется разрешение Sites.FullControl.All, необходимое для запуска всех компонентов сканирования.If you’re choosing for Azure AD app-only, then above mentioned instructions grant the Azure AD app the Sites.FullControl.All permission, which is needed if you want to run all scan components. Если сканирование рабочего процесса не требуется, также можно использовать разрешение Sites.Read.All (с версии 2. 6).If you’re not interested in workflow scanning you can also use Sites.Read.All as a permission (as of version 2.6). Если требуется получить отчет о семействах веб-сайтов, с которыми связаны команды Teams, также нужно добавить разрешение Group.Read.All (с версии 2.7).If you want to report on site collections that have a Teams team linked then you also need to add the Group.Read.All permission (as of version 2.7).

После завершения подготовки можно продолжить сканирование.Once the preparation work is done, let’s continue with doing a scan.

Использование Initialize-PnPPowerShellAuthentication для настройки Azure AD на уровне приложенийUsing Initialize-PnPPowerShellAuthentication to setup Azure AD App-Only

Для настройки Azure AD на уровне приложения с помощью PowerShell PnP выполните следующие действия.To configure Azure AD App-Only using PnP PowerShell follow these steps:

  1. Установите PowerShell PnP или обновите этот пакет до версии апреля 2020 года или более поздней.Install PnP PowerShell or update it to the April 2020 or a more recent version
  2. Используйте командлет Initialize-PnPPowerShellAuthentication для настройки приложения Azure AD:Use the Initialize-PnPPowerShellAuthentication cmdet to setup an Azure AD app:
Initialize-PnPPowerShellAuthentication -ApplicationName ModernizationScannerApp -Tenant contoso.onmicrosoft.com -Scopes "SPO.Sites.FullControl.All","MSGraph.Group.Read.All"  -OutPath c:\temp -CertificatePassword (ConvertTo-SecureString -String "password" -AsPlainText -Force)
  1. Будет предложено проверку подлинности. Для этого используйте учетные данные пользователя, являющегося администратором клиента.You’ll be asked to authenticate, ensure you authenticate with a user that is a tenant administrator
  2. Этот командлет настроит приложение Azure AD и будет ждать в течение 60 секунд, чтобы предоставить Azure AD время для создания приложения. The cmdlet will setup an Azure AD app and wait for 60 seconds to give Azure AD time to handle the App creation
  3. Также вам будет предложено подтвердить разрешения, предоставленные созданному приложению Azure AD.You’ll be asked to consent the permissions granted to the created Azure AD application:
    1. Сначала вам будет предложено снова выполнить вход, используя учетную запись администратора клиента.First you’ll be asked to login again, use a tenant administrator account
    2. Затем появится диалоговое окно с запрошенными разрешениями (см. снимок экрана ниже).Next the consent dialog is shown with the requested permissions (see screenshot below). Нажмите кнопку Принять.Click Accept
  4. Сохраните возвращенный идентификатор AzureAppId, файл PFX и пароль в безопасном месте. Эти данные понадобятся вам позже, см. главу Проверка подлинности с помощью доступа на уровне приложения в Azure AD ниже.Store the returned AzureAppId, created PFX file and password somewhere safe, you’ll need to use it as described in below chapter Authenticate via Azure AD app-only

Этап 3. Запуск сканирования с помощью параметра пользовательского интерфейсаStep 3: Launch a scan using the user interface option

Удобнее всего просто запустить файл SharePoint.Modernization.Scanner.exe, так как в сканере есть пользовательский интерфейс.The easiest approach is to simply launch SharePoint.Modernization.Scanner.exe as the scanner does have a UI. Вы также можете запустить командную строку (PowerShell) и перейти в эту папку, чтобы можно было использовать сканер с помощью командной строки.Alternatively you can start a (PowerShell) command prompt and navigate to that folder so that you can use the scanner via command line. В этой главе рассматривается выполнение стандартного полного сканирования с помощью параметра пользовательского интерфейса.This chapter will walk you through the UI option taking a typical full scan. Сначала запустите файл SharePoint.Modernization.Scanner.exe.Start by launching the SharePoint.Modernization.Scanner.exe.

Страница 1. Настройка проверки подлинности сканераPage 1: Scanner authentication configuration

Проверка подлинности с помощью доступа на уровне приложения в Azure ADAuthenticate via Azure AD app-only

На первой странице мастера сканера модернизации предлагается ввести сведения для проверки подлинности.The first page of the modernization scanner wizard asks you for authentication information. Сканер поддерживает четыре варианта. Выберите нужный и введите необходимые сведения, как описано ниже.The scanner supports four options, select the one you need and fill in the needed information as described below. Рекомендуется использовать доступ на уровне приложений. В этом случае будет обеспечен доступ сканера ко всем сайтам, которые нужно сканировать.Ideally you use an app-only model as that will ensure the scanner has access to all sites it needs to scan.

Если вы настроили доступ на уровне приложения в Azure AD, то было создано приложение Azure и настроен сертификат для доступа к нему.If you’ve setup access via Azure AD App-Only, you do have created an Azure App and configured a certificate for accessing it. Для инструмента нужно указать следующие сведения:This information needs to be provided to the tool:

  • Идентификатор приложения Azure AD. Идентификатор созданного приложения в среде Azure ADAzure AD Application ID: ID of the created application in your Azure AD environment
  • Доменное имя Azure AD. Домен среды Azure AD по умолчанию.Azure AD Domain name: the default domain of your Azure AD environment. Эти сведения можно найти на странице обзора в центре администрирования Azure AD.You can find this from the overview page of the Azure AD admin center. Обычно имя домена имеет вид *.onmicrosoft.com, например contoso.onmicrosoft.com.Typically this domain is formatted as *.onmicrosoft.com, for example, contoso.onmicrosoft.com.
  • Файл сертификата. Сертификат о предоставлении доступа к приложению Azure. Он должен быть представлен в виде PFX-файла, защищенного паролемCertificate file: the certificate that you granted app-only access to the Azure AD app, this needs to be presented as a password protected PFX file
  • Пароль для PFX-файла. Пароль, используемый для обеспечения безопасности ранее предоставленного PFX-файлаPassword for the PFX file: the password used to secure the previously provided PFX file
  • Регион проверки подлинности. Если ваш клиент находится в облачной среде для государственных организаций США (ITAR), Германии или Китая, выберите соответствующий регион.Authentication region: if your tenant is located in the US Government (ITAR), Germany or China cloud environment then select the respective region

Примечание

Также можно установить сертификат на компьютер и сослаться на него в командной строке с помощью параметра -w.You can also opt to install the certificate on your computer and reference it via the -w command line parameters. Для ссылки на сертификат нужно использовать это значение для параметра -w: «My|CurrentUser|1FG498B468AV3895E7659C8A6F098FB701C8CDB1».To reference the certificate you would use this value for the -w parameter «My|CurrentUser|1FG498B468AV3895E7659C8A6F098FB701C8CDB1». Для идентификации хранилища моно использовать My/Root и CurrentUser/LocalMachine.You can use My/Root and CurrentUser/LocalMachine to identify the store. Последний аргумент является отпечатком сертификата.The last argument is the certificate thumbprint. Этот параметр доступен с версии 2.7.This option is available as of the 2.7 release. При использовании LocalMachine помните, что у сканера должен быть доступ на чтение для хранилища LocalMachine.If you’re using LocalMachine then be aware that you’ll need to ensure the scanner has permissions to read in the LocalMachine store. Для этого можно либо запустить процесс сканера с правами администратора, либо (лучше) предоставить учетной записи, которую вы используете для запуска сканера модернизации, права на чтение закрытого ключа сертификата, который находится в хранилище LocalMachine.You can do this by either running the scanner process under administrative privileges or alternatively (and better) grant the account you’re using to run the modernization scan permissions to read the private key of the certificate stored in the LocalMachine store.

Важно!

  • По умолчанию приложению в Azure AD предоставляется разрешение Sites.FullControl.All, необходимое для запуска всех компонентов сканирования.The default instructions mentioned to grant the Azure AD app the Sites.FullControl.All permission which is needed if you want to run all scan components. Если сканирование рабочего процесса не требуется, вы также можете использовать разрешение Sites.Read.All для версии 2.6 сканера модернизации SharePoint.If you’re not interested in workflow scanning you can also use Sites.Read.All as a permission as of version 2.6 of the SharePoint Modernization Scanner.
  • Доступ только для приложений в Azure AD — единственный вариант проверки подлинности, поддерживаемый для клиентов в облачных средах для государственных организаций США (ITAR), Германии или Китая.Azure AD App-Only is the only supported authentication option for tenants in the US Government (ITAR), Germany or China cloud environment.
Проверка подлинности с помощью доступа на уровне приложения в SharePoint ADAuthenticate via SharePoint AD app-only

Если вы используете «классический» доступ на уровне приложения в SharePoint, нужно указать следующее:In case you used the «classic» SharePoint App-Only approach then you need to specify:

  • Идентификатор клиента Azure ACS. Идентификатор созданного субъекта на уровне приложенияAzure ACS Client ID: the ID of the created app-only principal
  • Секрет клиента Azure ACS. Секрет, полученный при создании субъекта приложенияAzure ACS Client Secret: the secret that you got when you created the app principal
Проверка подлинности с помощью учетных данныхAuthenticate via credentials

Можно использовать стандартное сочетание имени пользователя и пароля, если у указанного пользователя есть необходимые разрешения.Using a regular user/password combo works fine as well, assuming the provided user does have the needed permissions. С версии 2.9 сканера проверка подлинности на основе имени пользователя и пароля больше не опирается на устаревшую систему проверки подлинности сканируемого клиента.As of version 2.9 of the scanner the user/password based authentication does not rely anymore of legacy auth being enabled on the scanned tenant. Такой тип проверки подлинности может не сработать, если для используемой учетной записи требуется многофакторная проверка подлинности.The only reason why this type of authentication would not work is when the used account requires multi-factor authentication. В этом случае используйте многофакторную проверку подлинности, которая поддерживается с версии 2.9.If that’s the case then please use the Multi Factor Auth option introduced as of version 2.9.

Многофакторная проверка подлинности (с версии 2.9)Authenticate via Multi Factor Authentication (as of version 2.9)

В зависимости от клиента и от используемой учетной записи администратор может потребовать пройти многофакторную проверку подлинности для входа в SharePoint Online.Depending on the tenant and account you’re using your admin might require multi-factor authentication for logging into to SharePoint Online. Такой метод входа нужно использовать, если необходимо использовать сканер с учетными данными пользователя.If that’s the case you’ll need to use this option if you want to use the scanner via user credentials. При этом по-прежнему рекомендуется использовать подход на уровне приложений, но если у вас нет разрешений для работе на уровне приложений, этот подход даст возможность сканировать семейства веб-сайтов, доступные для пользователя.Using an app-only approach is still recommended, but if you do not have the needed permissions for setting up app-only this approach will allow you to scan the site collections you as a user have permissions for. Понадобится выполнить следующие действия.To use this you’ll need to:

  • Введите URL-адрес сайта, который нужно сканировать (это может быть любой доступный сайт).Enter the URL of a site you want to scan (any site you’ve access to will be fine)
  • Нажмите кнопку Войти, чтобы запустить многофакторную проверку подлинности.Click on the Login button which will trigger the multi factor authentication flow

Примечание

После успешного входа система многофакторной проверки подлинности предоставит сканеру маркер доступа.The multi factor authentication will give the scanner an access token after you’ve successfully logged on. Срок действия маркера доступа ограничен (обычно он составляет 1 час), поэтому сканер сможет получить доступ к сайтам SharePoint только во время действия маркера.Since an access token has limited lifetime (typically 1 hour) this means that scan will only be able to access SharePoint sites while the token is still valid.

Страница 2. Настройка области сайта сканераPage 2: Scanner site scope configuration

Сканирование всего клиентаScan full tenant

Эта страница позволяет определить сайты для сканирования.This page allows you to define which sites are being scanned. Сканер поддерживает сканирование как всего клиента, так и отдельно выбранных семейств веб-сайтов.The scanner supports scanning the full tenant up to individually selected site collections.

Часто рекомендуется сканирование всего клиента, так как это обеспечивает получение отчетов модернизации для всех элементов.Scanning the complete tenant is often the recommended approach as that will give you modernization reports for all. В этом случае нужно просто указать имя клиента.If that’s your choice, then simply fill your tenant name. Такой подход не сработает, если клиент использует URL-адреса, не оканчивающиеся на sharepoint.com. В этом случае придется использовать один из двух указанных ниже вариантов.This approach doesn’t work if your tenant is using URLs that do not end on sharepoint.com, if that’s the case you need to use one of the two below options.

Сканирование определенного списка семейств веб-сайтовScan a defined list of site collections

Этот способ позволяет выбрать один или несколько семейств веб-сайтов, указав один из следующих вариантовThis option makes it possible to select one or more site collections by either providing

  • Полный URL-адрес семейства (или семейств) веб-сайтов, которое нужно просканироватьThe fully qualified URL of the site collection(s) that need need(s) to be scanned
  • Подстановочный URL адрес. Если добавить URL-адрес, оканчивающийся на звездочку, можно включить все сайты, соответствующие этому фильтру.A wildcard URL: by adding a URL that ends with a star, you’ll include all sites that match that filter. В качестве подстановочного знака поддерживается только звездочка в конце.Only ending on an star is a supported wildcard

Если используется URL-адрес, который не оканчивается на sharepoint.com (так называемый запоминающийся URL-адрес), также потребуется указать URL-адрес сайта центра администрирования клиента (например, https://contoso-admin.contoso.com).If you’re using URLs that do not end on sharepoint.com (so called vanity URLs), you’ll also need to specify the URL of your tenant admin center site (for example, https://contoso-admin.contoso.com).

Сканирование списка семейств веб-сайтов, определенного в CSV-файлеScan a list of site collections defined in a CSV file

В качестве третьего варианта можно предоставить сканеру CSV-файл со списком семейств веб-сайтов для сканирования.As a third option you can provide the scanner with a CSV file listing the site collections to scan. Этот CSV-файл является простым списком URL-адресов семейств веб-сайтов без заголовка, как показано в примере ниже:This CSV file is a simple list of site collections, the file doesn’t have a header as shown in this sample:

https://contoso.sharepoint.com/sites/hrteam
https://contoso.sharepoint.com/sites/funatwork
https://contoso.sharepoint.com/sites/opensourcerocks

Страница 3. Настройка режима сканераPage 3: Scanner mode configuration

Сканер модернизации SharePoint поддерживает несколько режимов. В зависимости от режима модернизации можно ограничить сканирование определенной областью или выполнить полное сканирование.The SharePoint modernization scanner does support multiple modes, depending on your modernization mode you might want to scope the scan to a certain area or alternatively, execute a full scan.

Выберите нужный параметр в раскрывающемся списке, после чего флажки покажут, какие компоненты будут включены в сканирование.Select the option you want in the dropdown and then the checkboxes will show which components will be included in the scan. Во все режимы сканирования будет включен основной компонент: «Microsoft 365 group connection readiness» (Готовность подключения группы Microsoft 365).The «Microsoft 365 group connection readiness» component is the main component that will be included all scan modes.

Страница 4. Параметры сканераPage 4: Scanner options

На последнем этапе можно подрегулировать параметры сканера.As a last step you can tweak the scanner options. В зависимости от выбранного ранее режима сканера некоторые параметры могут быть отключены.Depending on the earlier chosen scanner mode, some options might be disabled.

Доступны следующие параметры сканирования:Following scan options are available:

  • Number of threads (Число потоков). Сканирование является многопоточным. Значение по умолчанию: 10, но при большем числе потоков (20–30) обеспечивается повышенная производительность (точное значение может отличаться)Number of threads: the scan is multi-threaded, default is 10 but for larger scans 20-30 threads delivers a better scan performance (your mileage might vary)
  • Don’t use search (Не использовать поиск). Выбор этого параметра можно отменить, если вас интересуют сведения об использовании страницы или сайта.Don’t use search: if you’re interested in page/site usage information then you can unselect this option. При этом добавляется один поисковый запрос на каждое семейство веб-сайтов, поэтому сканирование немного замедляется.As this adds one search query per site collection, it will make the scan slightly slower
  • Don’t include user information (Не включать сведения о пользователе). Установите этот флажок, если не нужно отображать сведения о пользователе (имена пользователей) в составе полученных данныхDon’t include user information: check this box if you’re not interested in seeing user information (user names) as part of the produced data
  • Exclude lists (Исключить списки). Для варианта сканирования «Modern list and library experience» (Современный интерфейс списков и библиотек) можно исключить списки, заблокированные только по причине OOBExclude lists: For the «Modern list and library experience» scan you can exclude lists that are only blocked due to an OOB reason
  • Export page details (Экспортировать сведения о странице). По умолчанию при сканировании не экспортируются подробные сведения о веб-части (свойства веб-части), так как этот набор данных может быть очень большим.Export page details: By default the scan isn’t exporting detailed web part information (web part properties) as that dataset can be huge. Установите этот флажок, если нужно получить полные данные о свойстве веб-части.Check this box if you would like to have the full web part option data
  • Don’t generate reports (Не создавать отчеты). По умолчанию вы получаете в качестве результатов сканирования информационные панели на основе Excel, но их можно пропустить, если вам нужны только исходные CSV-файлы.Don’t generate reports: by default you get Excel-based dashboards as scan output, but you can skip these if you’re only interested in the raw CSV files
  • Disable feedback (Отключить отзывы). Сканер отправляет в корпорацию Майкрософт отзывы, которые помогают улучшить сканер.Disable feedback: the scanner will send feedback to Microsoft to help improve the scanner. Если вы не хотите отправлять отзывы, снимите этот флажок.If you don’t like that, then feel free to check this box
  • Separator (Разделитель). Для создаваемого CSV-файла в качестве разделителя по умолчанию используется запятая, но вы можете при желании изменить его на точку с запятой.Separator: the default separator for the generated CSV files is a comma, but you can change this to semi-colon if you would prefer that
  • Data format (Формат даты). В создаваемом CSV-файле по умолчанию используется формат даты месяц-день-год.Date format: the default date format in the generated CSV files is month/day/year. При необходимости можно переключиться на формат день-месяц-годYou can optionally switch this to day/month/year

Этап 3 (дополнительный вариант). Запуск сканирования с помощью командной строкиStep 3 (alternative option): Launch a scan using command line

Приведенный ниже вариант представляет собой стандартное использование инструмента для большинства пользователей. Нужно указать режим, имя клиента, созданный идентификатор клиента и секрет:Below option is the default usage of the tool for most customers: you specify the mode, your tenant name, and the created client id and secret:

SharePoint.Modernization.Scanner.exe -t <tenant> -i <clientid> -s <clientsecret>

Пример из практики:A real life sample:

SharePoint.Modernization.Scanner.exe -t contoso -i 7a5c1615-997a-4059-a784-db2245ec7cc1 -s eOb6h+s805O/V3DOpd0dalec33Q6ShrHlSKkSra1FFw=

В приведенном выше способе использования запускаются все параметры сканирования, но вы можете также указать цель сканирования с помощью параметра Mode (-m):The above use will run all scanning options, but you can also target the scan via the Mode parameter (-m):

SharePoint.Modernization.Scanner.exe -m <mode> -t <tenant> -i <clientid> -s <clientsecret>

Пример из практики:A real life sample:

SharePoint.Modernization.Scanner.exe -m GroupifyOnly -t contoso -i 7a5c1615-997a-4059-a784-db2245ec7cc1 -s eOb6h+s805O/V3DOpd0dalec33Q6ShrHlSKkSra1FFw=

Поддерживаемые режимы сканераSupported scanner modes

РежимModeОписаниеDescription
FullБудут включены все компоненты, исключение параметра -m дает такой же результатAll components will be included, omitting -m has the same result
GroupifyOnlyИспользование только компонента «Microsoft 365 group connection readiness», который входит в состав каждого сканированияOnly use the Microsoft 365 group connection readiness component, this component is part of each scan
ListOnlyВключает подробное сканирование списка и компонент «Microsoft 365 group connection readiness»Includes a deep list scan + includes the Microsoft 365 group connection readiness component
HomePageOnlyВключает сканирование вики-страниц, домашних страниц и страниц веб-частей, а также компонент «Microsoft 365 group connection readiness»Includes a scan from wiki and web part pages home pages + includes the Microsoft 365 group connection readiness component
PageOnlyВключает сканирование вики-страниц и страниц веб-частей, а также компонент «Microsoft 365 group connection readiness»Includes a scan from wiki and web part pages + includes the Microsoft 365 group connection readiness component
PublishingOnlyВключает сканирование классического портала публикации на уровне сайта и сети, а также компонент «Microsoft 365 group connection readiness»Includes a classic publishing portal scan at site and web level + includes the Microsoft 365 group connection readiness component
PublishingWithPagesOnlyВключает сканирование классического портала публикации на уровне сайта, сети и страниц, а также компонент «Microsoft 365 group connection readiness»Includes a classic publishing portal scan at site, web and page level + includes the Microsoft 365 group connection readiness component
WorkflowOnlyВключает сканирование классического рабочего процесса и компонент «Microsoft 365 group connection readiness»Includes the classic workflow scan + includes the Microsoft 365 group connection readiness component
WorkflowWithDetailsOnlyВключает сканирование классического рабочего процесса с анализом готовности к миграции рабочих процессов и компонент «Готовность для подключения к группам Microsoft 365″Includes the classic workflow scan with workflow migration readiness analysis + includes the Microsoft 365 group connection readiness component
InfoPathOnlyВключает сканирование InfoPath и компонент «Microsoft 365 group connection readiness»Includes the InfoPath scan + includes the Microsoft 365 group connection readiness component
BlogOnlyВключает сканирование блога и компонент «Microsoft 365 group connection readiness»Includes the Blog scan + includes the Microsoft 365 group connection readiness component
CustomizedFormsOnlyВключает сканирование настраиваемых форм и компонент «Microsoft 365 group connection readiness»Includes the Customized Forms scan + includes the Microsoft 365 group connection readiness component

Обзор параметров командной строкиCommand-line parameter overview

SharePoint PnP Modernization scanner 2.19.0.0
Copyright (C) 2020 SharePoint PnP
==========================================================

See the sp-dev-modernization repo for more information at:
https://github.com/SharePoint/sp-dev-modernization/tree/master/Tools/SharePoint.Modernization

Let the tool figure out your urls (works only for SPO MT):
==========================================================
Using Azure AD app-only:
SharePoint.Modernization.Scanner.exe -t <tenant> -i <your client id> -z <Azure AD domain> -f <PFX file> -x <PFX file
password>
e.g. SharePoint.Modernization.Scanner.exe -t contoso -i e5808e8b-6119-44a9-b9d8-9003db04a882 -z conto.onmicrosoft.com
-f apponlycert.pfx -x pwd

Using app-only:
SharePoint.Modernization.Scanner.exe -t <tenant> -i <your client id> -s <your client secret>
e.g. SharePoint.Modernization.Scanner.exe -t contoso -i 7a5c1615-997a-4059-a784-db2245ec7cc1 -s
eOb6h+s805O/V3DOpd0dalec33Q6ShrHlSKkSra1FFw=

Using credentials:
SharePoint.Modernization.Scanner.exe -t <tenant> -u <your user id> -p <your user password>

e.g. SharePoint.Modernization.Scanner.exe -t contoso -u [email protected] -p pwd

Specifying url to your sites and tenant admin (needed for SPO with vanity urls):
================================================================================
Using Azure AD app-only:
SharePoint.Modernization.Scanner.exe -r <wildcard urls> -a <tenant admin site>  -i <your client id> -z <Azure AD
domain> -f <PFX file> -x <PFX file password>
e.g. SharePoint.Modernization.Scanner.exe -r "https://teams.contoso.com/sites/*,https://my.contoso.com/personal/*" -a
https://contoso-admin.contoso.com -i e5808e8b-6119-44a9-b9d8-9003db04a882 -z conto.onmicrosoft.com  -f apponlycert.pfx
-x pwd

Using app-only:
SharePoint.Modernization.Scanner.exe -r <wildcard urls> -a <tenant admin site> -i <your client id> -s <your client
secret>
e.g. SharePoint.Modernization.Scanner.exe -r "https://teams.contoso.com/sites/*,https://my.contoso.com/personal/*" -a
https://contoso-admin.contoso.com -i 7a5c1615-997a-4059-a784-db2245ec7cc1 -s
eOb6h+s805O/V3DOpd0dalec33Q6ShrHlSKkSra1FFw=

Using credentials:
SharePoint.Modernization.Scanner.exe -r <wildcard urls> -a <tenant admin site> -u <your user id> -p <your user
password>
e.g. SharePoint.Modernization.Scanner.exe -r "https://teams.contoso.com/sites/*,https://my.contoso.com/personal/*" -a
https://contoso-admin.contoso.com -u [email protected] -p pwd


  -i, --clientid                           Client ID of the app-only principal used to scan your site collections

  -s, --clientsecret                       Client Secret of the app-only principal used to scan your site collections

  -u, --user                               User id used to scan/enumerate your site collections

  -p, --password                           Password of the user used to scan/enumerate your site collections

  -z, --azuretenant                        Azure tenant (e.g. contoso.microsoftonline.com)

  -y, --azureenvironment                   (Default: Production) Azure environment (only works for Azure AD Cert
                                           auth!). Possible values: Production, USGovernment, Germany, China

  -f, --certificatepfx                     Path + name of the pfx file holding the certificate to authenticate

  -x, --certificatepfxpassword             Password of the pfx file holding the certificate to authenticate

  -a, --tenantadminsite                    Url to your tenant admin site (e.g. https://contoso-admin.contoso.com): only
                                           needed when your not using SPO MT

  -t, --tenant                             Tenant name, e.g. contoso when your sites are under
                                           https://contoso.sharepoint.com/sites. This is the recommended model for
                                           SharePoint Online MT as this way all site collections will be scanned

  -r, --urls                               List of (wildcard) urls (e.g.
                                           https://contoso.sharepoint.com/*,https://contoso-my.sharepoint.com,https://co
                                           ntoso-my.sharepoint.com/personal/*) that you want to get scanned. Ignored if
                                           -t or --tenant are provided.

  -o, --includeod4b                        (Default: False) Include OD4B sites in the scan

  -v, --csvfile                            CSV file name (e.g. input.csv) which contains the list of site collection
                                           urls that you want to scan

  -h, --threads                            (Default: 10) Number of parallel threads, maximum = 100

  -e, --separator                          (Default: ,) Separator used in output CSV files (e.g. ";")

  -m, --mode                               (Default: Full) Execution mode. Use following modes: Full, GroupifyOnly,
                                           ListOnly, PageOnly, HomePageOnly, PublishingOnly, PublishingWithPagesOnly,
                                           WorkflowOnly, WorkflowWithDetailsOnly, InfoPathOnly, BlogOnly or CustomizedFormsOnly. Omit or use
                                           full for a full scan

  -b, --exportwebpartproperties            (Default: False) Export the web part property data

  -c, --skipusageinformation               (Default: False) Don't use search to get the site/page usage information and
                                           don't export that data

  -j, --skipuserinformation                (Default: False) Don't include user information in the exported data

  -k, --skiplistsonlyblockedbyoobreaons    (Default: False) Exclude lists which are blocked due to out of the box
                                           reasons: base template, view type of field type

  -d, --skipreport                         (Default: False) Don't generate an Excel report for the found data

  -g, --exportpaths                        List of paths (e.g. c:\temp\636529695601669598,c:\temp\636529695601656430)
                                           containing scan results you want to add to the report

  -n, --disabletelemetry                   (Default: False) We use telemetry to make this a better tool...but you're
                                           free to disable that

  -q, --dateformat                         (Default: M/d/yyyy) Date format to use for date export in the CSV files. Use
                                           M/d/yyyy or d/M/yyyy

  -w, --storedcertificate                  (Default: ) Path to stored certificate in the form of
                                           StoreName|StoreLocation|Thumbprint. E.g.
                                           My|LocalMachine|3FG496B468BE3828E2359A8A6F092FB701C8CDB1

  --help                                   Display this help screen.

Сканер — компьютеры для добрых дел!

Режим работы на март 2021

Опубликовано: 05:23 3 марта 2021 г.

7-8 марта выходные. Остальные дни работаем в обычном режиме. С наступающим, наши красивые и любимые! …

Режим работы на февральские праздники

Опубликовано: 13:05 16 февраля 2021 г.

20 февраля работаем до 17.00

21-23 февраля выходные дни ⭐

Промокод на скидку в феврале 2021

Опубликовано: 13:09 2 февраля 2021 г.

Весна уже близко и это не может не радовать! А наш сервисный центр АйТерра, в свою очередь, весь февраль радует вас скидкой 10% на заправку картриджа по секретному промокоду. Для того, чтобы заправ…

Промокод на скидку в январе 2021

Опубликовано: 13:16 18 января 2021 г.

До конца января мы дарим скидку 15% на ремонт компьютерной и оргтехники в сервисном центре АйТерра. Для получения скидки необходимо при сдаче техники на ремонт сообщить менеджеру промокод «ЯНВАРЬ»* *…

 

 

Компания «Сканер» была образована в октябре 1993-го года и на сегодняшний день является лидером на корпоративном компьютерном рынке города Волжского, имеет сеть сервисных и торгующих подразделений в городах Волгоград и Волжский.

В сферу деятельности компании входит поставка разнообразных IT услуг клиентам, розничная и оптовая торговля оргтехникой, работа с региональными дилерами.

Наша компания — это команда профессионалов высокого уровня. Главное наше отличие от конкурентов — это высокая квалификация и компетенция наших сотрудников и их готовность всегда прийти вам на помощь в решении ваших задач.

5 причин быть нашим клиентом

1. Персональный подход к каждому клиенту. Гибкие цены и условия работы стали визитной карточкой нашей компании.

2. Интегрированный сервис. Взаимодействие с сетью собственных сервисных центров «АйТерра» удобно для наших клиентов.

3. Надежность. О надежности компании говорит срок ее существования на рынке региона, а это более 20 лет!

4. Компетентные сотрудники. Профессиональные и доброжелательные менеджеры всегда рады помочь с выбором.

5. Корпоративное сотрудничество. Мы поставляем комплексные решения для корпоративных клиентов.

наверх

по состоянию на
12 апреля 2021 г.

Единое время работы

Попросите Google повторно сканировать веб-сайт

Если вы недавно добавляли или вносили изменения на страницу своего сайта, вы можете запросить, чтобы Google повторно проиндексируйте свою страницу, используя любой из перечисленных здесь методов.

Общие правила

  • Сканирование может занять от нескольких дней до нескольких недель. Будьте терпеливы и следите за прогрессом используя индекс Отчет о состоянии или URL Инструмент для осмотра.
  • Все описанные здесь методы имеют примерно одинаковое время отклика.
  • Существует квота на отправку отдельных URL-адресов.
  • Если запросить повторное сканирование для одного и того же URL-адреса или карты сайта несколько раз, он не просканируется. Быстрее.

Методы запроса сканирования

Используйте инструмент проверки URL-адресов (всего несколько URL-адресов)

Примечание. Вы должны быть владельцем или полноправным пользователем свойства Search Console, чтобы иметь возможность запросить индексацию в инструменте проверки URL.

Используйте URL Инструмент проверки для запроса сканирования отдельных URL-адресов.Обратите внимание: если у вас большие числа URL-адресов, вам следует вместо этого отправить карту сайта.

Чтобы отправить URL в индекс:

  1. Прочтите общие рекомендации выше.
  2. Проверьте URL-адрес , используя URL-адрес Инструмент для осмотра.
  3. Выбрать Запросить индексирование . Инструмент запустит живую проверку URL-адреса, чтобы увидеть есть ли у него какие-либо очевидные проблемы с индексацией, и если нет, страница будет поставлена ​​в очередь для индексации.Если инструмент обнаружит проблемы со страницей, попробуйте их исправить.
Примечание. Запрос на сканирование не гарантирует, что включение в результаты поиска произойдет мгновенно или даже вообще. Наши системы отдают предпочтение быстрому включению высоких качественный, полезный контент.

Отправить карту сайта (сразу несколько URL)

Карта сайта — это важный способ для Google обнаружить URL-адреса на вашем сайте. Карта сайта также может включать дополнительные метаданные о версиях на других языках, видео, изображениях или новостные страницы.Узнайте, как создать карта сайта.

Если вы не меняли карту сайта с момента последнего сканирования Google, повторно отправьте карта сайта не принесет никакой дополнительной пользы. Если у вас есть обновленные страницы в карте сайта, отметьте их с помощью .

Вот несколько способов, которыми вы можете предупредить Google о своей карте сайта:

  • Отправьте карту сайта с помощью карты сайта отчет.
  • Используйте инструмент ping. Отправьте запрос GET в браузере или в командной строке на этот адрес, указав полный URL карты сайта. Убедитесь, что файл карты сайта доступен:
     http://www.google.com/ping?sitemap=  FULL_URL_OF_SITEMAP  

    Пример:

     http://www.google.com/ping?sitemap=https://example.com/sitemap.xml 
  • Вставьте следующую строку в любом месте файла robots.txt , указав путь к вашей карте сайта.Мы найдем его при следующем сканировании вашего сайта:
     Sitemap: http://example.com/my_sitemap.xml 

Как сканировать веб-сайт с помощью DeepCrawl

Частое целевое сканирование вашего веб-сайта является ключевой частью улучшения его технического состояния и повышения рейтинга в обычном поиске. В этом руководстве вы узнаете, как эффективно сканировать веб-сайт с помощью DeepCrawl. Шесть этапов сканирования веб-сайта включают:

  1. Настройка источников URL
  2. Понимание структуры домена
  3. Запуск тестового сканирования
  4. Добавление ограничений сканирования
  5. Тестирование ваших изменений
  6. Запуск сканирования


Шаг 1. Настройка источников URL-адресов

Есть шесть типов источников URL, которые вы можете включить в свои проекты DeepCrawl.

Стратегическое включение каждого из них — ключ к эффективному и всестороннему сканированию:

  1. Веб-сканирование: Сканирует только сайт, переходя по его ссылкам на более глубокие уровни.
  2. Карты сайта: Просканируйте набор карт сайта и URL-адреса в этих файлах. Ссылки на этих страницах не будут отслеживаться или сканироваться.
  3. Аналитика: Загрузите данные источника аналитики и просканируйте URL-адреса, чтобы обнаружить дополнительные целевые страницы на вашем сайте, ссылки на которые могут быть недоступны.Данные аналитики будут доступны в различных отчетах.
  4. Обратные ссылки: Загрузите данные источника обратных ссылок и просканируйте URL-адреса, чтобы обнаружить дополнительные URL-адреса с обратными ссылками на вашем сайте. Данные обратных ссылок будут доступны в различных отчетах.
  5. Списки URL-адресов: Сканирование фиксированного списка URL-адресов. Ссылки на этих страницах не будут отслеживаться или сканироваться.
  6. Файлы журнала: Загрузите сводные данные файла журнала из инструментов анализа файлов журнала, таких как Splunk и Logz.io.

В идеале веб-сайт должен сканироваться полностью (включая все связанные URL-адреса на сайте). Однако очень большие веб-сайты или сайты с множеством архитектурных проблем не могут быть сканированы полностью сразу. Может возникнуть необходимость ограничить сканирование определенными разделами сайта или ограничить определенные шаблоны URL (мы расскажем, как это сделать ниже).

Шаг 2. Понимание структуры домена

Перед сканированием рекомендуется лучше понять структуру домена вашего сайта:

Проверьте настройки домена с www / без www и http / https при добавлении домена.
Определите, использует ли сайт поддомены.
Если вы не уверены в поддоменах, отметьте опцию DeepCrawl «Сканирование поддоменов», и они будут автоматически обнаружены, если они связаны.


Шаг 3. Запуск тестового сканирования

Начните с небольшого «веб-сканирования», чтобы найти признаки того, что сайт не может просканировать.

Перед запуском сканирования убедитесь, что вы установили «Предел сканирования» на низкое значение. Это повысит эффективность ваших первых проверок, так как вам не придется долго ждать, чтобы увидеть результаты.

Проблемы, на которые следует обратить внимание, включают:

  • Большое количество URL-адресов, возвращающих коды ошибок, такие как 401 отказано в доступе.
    возвращенных URL-адресов не из правильного субдомена — проверьте правильность базового домена в разделе «Настройки проекта».
  • Очень мало найденных URL.
  • Большое количество неудачных URL-адресов (502, 504 и т. Д.).
  • Большое количество канонизированных URL-адресов.
  • Большое количество повторяющихся страниц.
  • Значительное увеличение количества страниц, найденных на каждом уровне.

Чтобы сэкономить время и немедленно проверить наличие очевидных проблем, загрузите URL-адреса во время сканирования:


Шаг 4. Добавление ограничений сканирования

Затем уменьшите размер сканирования, указав все, что можно исключить. Добавление ограничений гарантирует, что вы не будете тратить зря время (или кредиты) на сканирование URL-адресов, которые для вас не важны. Все следующие ограничения можно добавить во вкладке «Дополнительные настройки».

Удалить параметры

Если вы исключили какие-либо параметры из обходов поисковой системы с помощью инструментов параметров URL, таких как Google Search Console, введите их в поле «Удалить параметры» в разделе «Дополнительные настройки».”


Добавить пользовательские настройки robots.txt

Функция «Роботы перезаписи»

DeepCrawl позволяет вам определять дополнительные URL-адреса, которые можно исключить с помощью настраиваемого файла robots.txt, что позволяет вам проверить влияние отправки нового файла в рабочую среду.

Загрузите альтернативную версию файла роботов в разделе «Расширенные настройки» и выберите «Использовать переопределение роботов» при запуске сканирования:

Фильтровать URL-адреса и пути URL-адресов

Используйте поля URL-адреса «Включено / Исключено» в разделе «Дополнительные настройки», чтобы ограничить сканирование определенными интересующими областями.

Добавить ограничения сканирования для групп страниц

Используйте функцию «Группирование страниц» в разделе «Дополнительные настройки», чтобы ограничить количество просматриваемых URL-адресов для групп страниц на основе их шаблонов URL-адресов.

Здесь вы можете добавить имя.

В столбце «Соответствие URL страницы» можно добавить регулярное выражение.

Добавьте максимальное количество URL-адресов для сканирования в столбец «Ограничение сканирования».

Подсчитывается

URL, соответствующих указанному пути.По достижении пределов все последующие совпадающие URL-адреса попадают в отчет «Ограничения группы страниц» и не сканируются.


Шаг 5. Тестирование изменений

Запустите тест «Веб-сканирование», чтобы убедиться, что ваша конфигурация верна и вы готовы к полному сканированию.


Шаг 6. Запуск сканирования

Убедитесь, что вы увеличили «предел сканирования», прежде чем запускать более глубокое сканирование.

Рассмотрите возможность запуска сканирования с максимально возможным количеством источников URL-адресов, чтобы дополнить связанные URL-адреса XML-файлом Sitemap и Google Analytics, а также другими данными.

Если вы указали субдомен www в настройке «Базовый домен», такие субдомены, как блог или по умолчанию, сканироваться не будут.

Чтобы включить субдомены, выберите «Сканировать субдомены» на вкладке «Настройки проекта».

Установите «Расписание» для сканирования и отслеживайте свой прогресс.

Подсказки

Настройки для особых требований

Если у вас есть тестовый сайт или песочница, вы можете запустить «Сравнительное сканирование», добавив домен тестового сайта и данные аутентификации в «Расширенные настройки.”

Чтобы узнать больше о функции Test vs Live, ознакомьтесь с нашим руководством по сравнению тестового веб-сайта с действующим веб-сайтом.

Чтобы сканировать веб-сайт в стиле AJAX с помощью решения для экранированного фрагмента, используйте функцию «URL Rewrite», чтобы преобразовать все связанные URL-адреса в формат экранированного фрагмента.

Узнайте больше о наших функциях тестирования — «Тестирование изменений в разработке перед их внедрением».

Изменение скорости сканирования

Следите за проблемами производительности, вызванными поисковым роботом во время сканирования.

Если вы видите ошибки подключения или несколько ошибок типа 502/503, возможно, вам потребуется уменьшить скорость сканирования в разделе «Дополнительные настройки».

Если у вас есть надежное решение для хостинга, вы сможете сканировать сайт быстрее.

Скорость сканирования может увеличиваться, когда нагрузка на сайт снижается, например, в 4 часа утра.

Перейдите в «Расширенные настройки»> «Скорость сканирования»> «Добавить ограничение скорости».

Анализ исходящих ссылок

Сайты с большим количеством внешних ссылок, возможно, захотят убедиться, что пользователи не перенаправляются на мертвые ссылки.

Чтобы проверить это, выберите «Сканировать внешние ссылки» в разделе «Настройки проекта», добавив код состояния HTTP рядом с внешними ссылками в отчете.

Узнайте больше об аудитах исходящих ссылок, чтобы узнать об анализе и очистке внешних ссылок.

Изменить агент пользователя

Посмотрите на свой сайт глазами различных поисковых роботов (Facebook / Bingbot и т. Д.), Изменив пользовательский агент в «Расширенных настройках».

Добавьте настраиваемый пользовательский агент, чтобы определять реакцию вашего веб-сайта.


После ползания

Сбросьте «Настройки проекта» после сканирования, чтобы вы могли продолжить сканирование с примененными «реальными» настройками.

Помните, чем больше вы экспериментируете и ползете, тем ближе вы становитесь экспертом по сканированию.

Начните свое путешествие с DeepCrawl

Если вы хотите запустить сканирование с помощью DeepCrawl, ознакомьтесь с нашим диапазоном гибких планов или если вы хотите узнать больше о нашей платформе, просто напишите нам сообщение, и мы свяжемся с вами в ближайшее время.

Автор

Сэм Марсден

Сэм Марсден — менеджер по поисковой оптимизации и контенту DeepCrawl. Сэм регулярно выступает на маркетинговых конференциях, таких как SMX и BrightonSEO, и является автором отраслевых публикаций, таких как Search Engine Journal и State of Digital.

[Бесплатно] Поисковый робот для веб-сайтов и инструмент для сканирования сайтов

Бесплатный инструмент для сканирования веб-сайтов

В Sure Oak наша миссия — помочь воплотить в жизнь ваши мечты с помощью мощного SEO.Один из способов сделать это — предоставить вам бесплатный инструмент для сканирования веб-сайтов на основе браузера. Это отличный бесплатный способ проверить общую работоспособность SEO вашего сайта.

Как работает наш инструмент для сканирования сайтов?

Мы специально сделали наш онлайн-инструмент простым в использовании (и мы считаем, что это лучшее бесплатное программное обеспечение для сканирования, доступное на сегодняшний день). Просто скопируйте и вставьте URL-адрес своего веб-сайта в наш инструмент веб-сканера, дайте ему минуту или около того, чтобы сканировать и сканировать ваш сайт, и посмотрите, насколько дружелюбен ваш веб-сайт для поисковых систем, таких как Google.

После завершения сканирования и сканирования отобразится оценка SEO, показывающая, как работает ваш сайт с точки зрения SEO по шкале от 1 до 100. Вы увидите отчет по сайту по каждой странице SEO, в том числе:

  • Длина заголовка страницы — Если он слишком короткий, слишком длинный или правильный
  • Код статуса URL — особенно важно знать, не работает ли ссылка или требуется ли перенаправление. Если вас беспокоит только переадресация вашего сайта, воспользуйтесь нашим бесплатным инструментом проверки переадресации здесь.
  • Количество слов — Совершенно важно, чтобы на любой странице было достаточно контента, если вы хотите, чтобы она занимала место в Google.
  • Тип контента — Не весь контент создается одинаково и не одинаково просматривается Google. Посмотрите, где вы можете внести изменения, чтобы создать такой контент, который нравится поисковым системам.
  • Метаописание — Здесь вы точно увидите, что такое метаописание для каждой страницы, и если оно слишком короткое, слишком длинное или правильную длину в статусе описания.

Не знаете, как работает сканирование и индексирование? Узнайте о сканировании и индексировании здесь.

Инструмент проверки ссылок на ваш сайт

После завершения сканирования вы можете выполнить оптимизацию, необходимую для повышения рейтинга вашего веб-сайта в поисковых системах. Для этого онлайн-программного обеспечения загрузка не требуется. Просто вставьте свой URL-адрес и проверьте поисковую оптимизацию своего сайта с помощью сканирования. Это так просто!

Бесплатный обзор стратегии SEO

Еще один эффективный способ, которым мы работаем, чтобы воплотить ваши мечты в жизнь, — это бесплатный персонализированный обзор стратегии SEO.Мы разработаем стратегию специально для вашего бизнеса, чтобы привлечь больше трафика с помощью SEO. Если вам это нравится и вы думаете, что мы вам подойдем, мы будем рады сотрудничать с вами. Однако вы также можете воспользоваться нашей стратегией и попытаться реализовать ее самостоятельно. Это беспроигрышный вариант!

Сканирование веб-сайтов: руководство по всему, что вам нужно знать

Понимание сканирования веб-сайтов и того, как поисковые системы сканируют и индексируют веб-сайты, может сбивать с толку. Все делают это немного по-своему, но общие концепции одинаковы.Вот краткое описание того, что вы должны знать о том, как поисковые системы сканируют ваш сайт. (Я не вникаю в алгоритмы, ключевые слова или что-то в этом роде, просто в том, как поисковые системы сканируют сайты.)

Так что же такое сканирование веб-сайтов?

Сканирование веб-сайтов — это автоматическая загрузка веб-страниц с помощью программного процесса, цель которого — индексировать содержимое веб-сайтов, чтобы по ним можно было выполнять поиск. Сканер анализирует содержимое страницы в поисках ссылок на следующие страницы для выборки и индексации.

Какие типы сканирования бывают?

Двумя наиболее распространенными типами обходов контента с веб-сайта являются:

  • Сканирование сайта — это попытка сканирования всего сайта за один раз, начиная с домашней страницы. Он будет захватывать ссылки с этой страницы, чтобы продолжить сканирование сайта к другому содержанию сайта. Это часто называют «паучьим движением».
  • Сканирование страниц , которые представляют собой попытку поискового робота просканировать отдельную страницу или сообщение в блоге.

Существуют ли гусеницы разных типов?

Есть определенно разные типы краулеров. Но один из самых важных вопросов: «Что такое краулер?» Сканер — это программный процесс, который выходит на веб-сайты и запрашивает контент, как браузер. После этого процесс индексации фактически выбирает контент, который он хочет сохранить. Обычно индексируемым содержимым является любой текст, видимый на странице.
Различные поисковые системы и технологии используют разные методы получения контента веб-сайта с помощью поисковых роботов:

  • Сканирование может получить снимок сайта в определенный момент времени, а затем периодически повторно сканировать весь сайт.Обычно это считается подходом «грубой силы», поскольку поисковый робот каждый раз пытается повторно сканировать весь сайт. Это очень неэффективно по понятным причинам. Тем не менее, это позволяет поисковой системе иметь обновленную копию страниц, поэтому, если содержимое конкретной страницы изменится, это в конечном итоге позволит сделать эти изменения доступными для поиска.
  • Одностраничное сканирование позволяет сканировать или повторно сканировать только новый или обновленный контент. Есть много способов найти новый или обновленный контент. Сюда могут входить карты сайта, RSS-каналы, службы распространения и проверки связи или алгоритмы сканирования, которые могут обнаруживать новый контент без сканирования всего сайта.

Могут ли сканеры всегда сканировать мой сайт?

Это то, к чему мы стремимся в sovrn, но это не всегда возможно. Как правило, любые трудности при сканировании веб-сайта связаны больше с самим сайтом, а не с поисковым роботом, пытающимся его сканировать. Следующие проблемы могут вызвать сбой поискового робота:

  • Владелец сайта запрещает индексацию и / или сканирование с использованием файла robots.txt.
  • Сама страница может указывать на то, что она не индексируется и ссылки не переходят (директивы, встроенные в код страницы).Эти директивы представляют собой «метатеги», которые сообщают поисковому роботу, как ему разрешено взаимодействовать с сайтом.
  • Владелец сайта заблокировал определенный IP-адрес поискового робота или «агент пользователя».

Все эти методы обычно используются для экономии полосы пропускания для владельца веб-сайта или предотвращения доступа вредоносных программ-роботов к содержимому. Некоторые владельцы сайтов просто не хотят, чтобы их контент был доступен для поиска. Можно было бы поступить так, например, если бы сайт был в первую очередь личным сайтом и не предназначался на самом деле для широкой аудитории.
Я думаю, здесь также важно отметить, что robots.txt и метадирективы на самом деле являются просто «джентльменским соглашением», и нет ничего, что могло бы помешать сканированию по-настоящему невежливому роботу. Сканеры sovrn вежливы и не запрашивают страницы, заблокированные robots.txt или метадирективами.

Как оптимизировать мой веб-сайт, чтобы его было легко сканировать?

Есть шаги, которые вы можете предпринять, чтобы создать свой веб-сайт таким образом, чтобы поисковым системам было легче сканировать его и предоставлять лучшие результаты поиска.Конечным результатом будет увеличение посещаемости вашего сайта, что позволит вашим читателям более эффективно находить ваш контент.
Советы по доступности поисковых систем:

  • Наличие RSS-канала или каналов, чтобы при создании нового контента поисковая программа могла распознавать новый контент и быстрее сканировать его. sovrn использует каналы на вашем сайте как индикатор того, что у вас есть доступный новый контент.
  • Будьте избирательны при блокировке поисковых роботов с помощью файлов robots.txt или директив метатегов в вашем контенте.Большинство блог-платформ позволяют вам каким-либо образом настроить эту функцию. Хорошая стратегия — позволить поисковым системам, которым вы доверяете, и заблокировать те, которым вы не доверяете.
  • Создание согласованной структуры документа. Это означает, что когда вы создаете свою html-страницу, контент, который вы хотите сканировать, постоянно находится в одном и том же месте в одном и том же разделе контента.
  • Содержимое, а не только изображения на странице. Поисковые системы не могут найти изображение, если вы не предоставите текст или описание тега alt для этого изображения.
  • Постарайтесь (в рамках дизайна вашего сайта) иметь ссылки между страницами, чтобы поисковый робот мог быстро узнать, что эти страницы существуют. Если вы ведете блог, у вас может быть, например, страница архива со ссылками на каждое сообщение. Большинство платформ для ведения блогов предоставляют такую ​​страницу. Страница карты сайта — это еще один способ сообщить сканеру сразу о большом количестве страниц.

Чтобы узнать больше о настройке robots.txt и управлении им для своего сайта, посетите http://www.robotstxt.org/. Или свяжитесь с нами здесь, в sovrn.Мы хотим, чтобы вы были успешным блоггером, и понимание того, что сканирование веб-сайтов является одним из самых важных шагов.

Screaming Frog SEO Spider Поисковый робот

Об инструменте

The Screaming Frog SEO Spider — это быстрый и продвинутый инструмент для аудита сайтов SEO. Его можно использовать для сканирования как небольших, так и очень больших веб-сайтов, где ручная проверка каждой страницы будет чрезвычайно трудоемкой и где вы можете легко пропустить проблему с перенаправлением, мета-обновлением или дублированием страницы.Вы можете просматривать, анализировать и фильтровать данные сканирования по мере их непрерывного сбора и обновления в пользовательском интерфейсе программы.

SEO Spider позволяет экспортировать ключевые элементы SEO на месте (URL, заголовок страницы, мета-описание, заголовки и т. Д.) В электронную таблицу, чтобы его можно было легко использовать в качестве основы для рекомендаций SEO. Посмотрите наше демонстрационное видео выше.

Сканировать 500 URL бесплатно

«Облегченную» версию инструмента можно загрузить и использовать бесплатно. Однако эта версия ограничена сканированием до 500 URL-адресов за одно сканирование и не дает вам полного доступа к конфигурации, сохранению сканирований или расширенным функциям, таким как рендеринг JavaScript, пользовательское извлечение, интеграция с Google Analytics и многое другое.Вы можете сканировать 500 URL-адресов с одного и того же веб-сайта или столько веб-сайтов, сколько захотите, но сколько угодно раз!

Всего за 149 фунтов стерлингов в год вы можете приобрести лицензию, которая снимает ограничение на сканирование URL-адресов в 500, позволяет экономить сканирование и открывает параметры конфигурации и расширенные функции паука.

Или нажмите кнопку «купить лицензию» в SEO Spider, чтобы купить лицензию после загрузки и тестирования программного обеспечения.

Часто задаваемые вопросы и руководство пользователя

SEO Spider сканирует сайты, такие как робот Googlebot, обнаруживая гиперссылки в HTML, используя алгоритм в ширину.Он использует настраиваемый гибридный механизм хранения, способный сохранять данные в оперативной памяти и на диске для сканирования крупных веб-сайтов. По умолчанию он будет сканировать только необработанный HTML-код веб-сайта, но он также может отображать веб-страницы, используя Chromium без заголовка для обнаружения контента и ссылок.

Дополнительные инструкции и советы по использованию поискового робота Screaming Frog SEO —

Обновления

Будьте в курсе будущих выпусков, подписавшись на RSS-канал, наш список рассылки ниже и подписавшись на нас в Twitter @screamingfrog.

Поддержка и отзывы

Если у вас есть какие-либо технические проблемы, отзывы или пожелания по использованию SEO Spider, просто свяжитесь с нами через нашу службу поддержки. Мы регулярно обновляем SEO Spider и в настоящее время разрабатываем множество новых функций!

Как заставить Google мгновенно проиндексировать ваш новый веб-сайт

Хотите, чтобы на ваш сайт было больше обычного поискового трафика?

Готов поспорить, ответ будет положительным — мы все делаем!

Органический поисковый трафик имеет решающее значение для развития вашего веб-сайта и бизнеса.

Согласно некоторым исследованиям, около 53% трафика вашего сайта можно отнести к обычному поиску.

Но статистика не имеет большого значения, если ваш сайт вообще не отображается в результатах поиска.

Как вы индексируете свой новый сайт или блог в Google, Bing и других поисковых системах?

Что ж, у вас есть два варианта.

Вы можете использовать «черепаховый» подход — просто сядьте и подождите, пока это произойдет естественным образом, но это может занять недели или месяцы.

(Поверьте, я бывал там раньше — не весело.)

Или вы можете сделать это сейчас, давая вам больше времени и энергии для увеличения коэффициента конверсии, улучшения вашего социального присутствия и, конечно же, написания и продвижения отличного и полезного контента.

Не знаю, как вы, но я бы предпочел, чтобы мои сайты были проиндексированы как можно быстрее, потому что это дает мне больше времени для расширения моей аудитории.

Именно с помощью этих стратегий я увеличил количество посетителей этого блога до 600 000 в месяц так же быстро, как и я!

Хотите сделать то же самое?

Не сдавайтесь, потому что в этом пошаговом руководстве я рассказываю обо всем, что узнал о SEO и о том, как быстро проиндексировать ваш сайт!

Я расскажу, как заставить Google быстро проиндексировать наш веб-сайт, что приведет к увеличению органического поискового трафика и повышению рейтинга.

Приступим!

Зачем вам нужен Google для индексации вашего сайта?

Во-первых, очевидный ответ.

Если вы хотите, чтобы ваш сайт вообще отображался в результатах поиска, его необходимо проиндексировать.

Однако вы не хотите, чтобы ваш сайт индексировался только один раз. Вы хотите, чтобы поисковые системы продолжали переиндексировать ваш сайт.

Поисковые системы, такие как Google, не обновляются автоматически.

Они полагаются на пауков — маленькие кусочки компьютерного кода, которые каждая поисковая система отправляет, чтобы «сканировать» сеть (отсюда и «паук»).

Вам нужна эффективная частая скорость сканирования.

Работа паука — искать новые материалы в сети и обновлять уже проиндексированную версию вашего сайта. Этим «новым материалом» может быть новая страница на существующем сайте, изменение существующей страницы или совершенно новый сайт или блог.

Как только паук находит новый сайт или страницу, ему необходимо выяснить, о чем этот новый сайт или страница.

Еще на Диком Диком Западе ранней сети пауки поисковых машин были далеко не такими умными, как сегодня.Вы можете заставить паука проиндексировать и ранжировать вашу страницу, основываясь только на том, сколько раз конкретная поисковая фраза («ключевое слово») появлялась на странице.

Для сегодняшнего успеха контента нельзя полагаться на эти старые стратегии поисковой оптимизации.

Ключевое слово даже не обязательно должно быть в теле страницы. Многие люди оценивали торговую марку своего крупнейшего конкурента, просто вставляя десятки вариантов этой торговой марки в метатеги страницы!

К счастью для пользователей поиска Google и этичных владельцев веб-сайтов, те времена давно прошли.

Сегодня за наполнение ключевыми словами и метатегами вы будете наказаны, а не вознаграждены. А метатеги с ключевыми словами на самом деле вообще не являются частью алгоритма (хотя все же есть веские причины их использовать).

Если вы не будете осторожны, ваш сайт может вообще исключить из индекса — это означает, что ваш сайт вообще не будет ранжироваться ни по одному ключевому слову.

В наши дни Google больше заботится об общем опыте пользователей на вашем сайте и о намерениях пользователей, стоящих за поиском — i.д., хочет ли пользователь что-то купить (коммерческое намерение) или чему-то научиться (информационное намерение)?

Они даже сделали Page Experience фактором ранжирования.

Не поймите меня неправильно — ключевые слова по-прежнему имеют значение. По словам Брайана Дина из Backlinko, важны и другие факторы — всего до 200. К ним относятся такие вещи, как качественные входящие ссылки, социальные сигналы (хотя и не напрямую) и действительный код на всех ваших страницах.

Ничего из этого не будет иметь значения, если пауки не смогут определить поисковые системы, где находятся ваши страницы, то есть они не будут отображаться в результатах поиска.

Вот почему индексирование веб-сайтов так важно.

Проще говоря, индексирование — это способ паука собирать и обрабатывать все данные со страниц и сайтов во время их обхода по сети.

Частое индексирование улучшает результаты поиска.

Паук отмечает новые документы и изменения, которые затем добавляются в поисковый индекс, поддерживаемый Google. Эти страницы добавляются только в том случае, если они содержат качественный контент и не вызывают никаких тревог из-за таких сомнительных действий, как наполнение ключевыми словами или создание кучи ссылок из источников с сомнительной репутацией.

Когда паук видит изменение на вашем веб-сайте, он обрабатывает как контент (текст) на странице, так и те места на странице, где размещены условия поиска. Он также анализирует теги заголовков, метатеги и атрибуты alt для изображений.

Затем этот паук добавляет или «индексирует» этот контент в Google.

Вкратце об индексировании. Это важный инструмент для веб-мастеров.

Когда поисковый пользователь приходит в поисках информации, вводя ключевые слова для поиска, алгоритм Google начинает работать.Затем алгоритм решает, где оценить страницу по сравнению со всеми другими страницами, связанными с этими ключевыми словами.

Частота индексации вашего сайта может повлиять на вашу эффективность в результатах поиска. Вы хотите, чтобы весь ваш последний контент был всегда доступен для тех, кто ищет, и для пауков Google.

Это краткая и несколько упрощенная версия того, как Google находит, анализирует и индексирует новые сайты, подобные вашему.

Многие другие поисковые системы, такие как Bing или Yahoo, следуют аналогичным процедурам, хотя могут быть различия в специфике, поскольку каждая имеет свой собственный алгоритм.

Какие факторы индексации имеют значение?

Вам нужна эффективная индексная ставка для вашего веб-сайта.

Это означает, что вы хотите, чтобы пауки поисковых систем как можно быстрее находили ваш новый контент после того, как вы нажали кнопку «Опубликовать».

Вы можете проверить, как часто Google сканирует ваши страницы, войдя в Search Console.

Еще не настроили Google Search Console? Перейдите к шагу 2, чтобы узнать, как настроить свой веб-сайт.

В Search Console щелкните свой веб-сайт.Затем нажмите «Настройки»> «Статистика сканирования»> «Открыть отчет». Вы увидите следующие графики:

Первый график показывает, как часто Google сканирует ваш сайт.

График «Запросы сканирования» показывает, как часто Google сканирует мой сайт каждый день.

Как показывает практика, чем больше ползать, тем лучше.

Однако в некоторых случаях чрезмерное сканирование может перегрузить ресурсы сервера. Обычно это результат неправильной конфигурации сервера, а не проблемы с пауками Google.

Это очень редко, поэтому вам, вероятно, не стоит об этом беспокоиться. Google позволяет вам изменять скорость сканирования (только вниз, а не вверх), если это происходит с вами.

Итак, как мне увеличить скорость сканирования?

В последнее время я много публикую и обновляю старый контент, поэтому Google стремится получать все мои обновления и изменения как можно быстрее. Он учится чаще проверять меня.

Я также перешел на новый веб-хостинг в апреле, который намного быстрее, чем мой старый.

Чем быстрее загружается ваш сайт, тем быстрее Google может его проиндексировать!

Google хочет рекомендовать своим пользователям лучшие веб-сайты. Он ищет сайты, которые удобны для пользователей. Хотя это включает в себя множество факторов, очень важны качественный контент и скорость загрузки сайта.

Проще говоря:

Более быстрый сайт = лучший пользовательский опыт.

Лучший пользовательский опыт = более высокий рейтинг в результатах поиска.

Гораздо важнее, чем то, как часто Google индексирует ваш сайт, сколько страниц он индексирует.Вы хотите, чтобы как можно больше страниц вашего сайта было проиндексировано.

(Не волнуйтесь, ваша карта сайта позаботится об этом, о чем я подробно расскажу в шаге 7.)

Но сначала давайте начнем с самого начала. Следующие 18 шагов проведут вас через все, что вам нужно знать об индексировании вашего сайта.

Вам не обязательно делать все 18 шагов, чтобы иметь хорошо проиндексированный веб-сайт, но если вам интересно, как повысить рейтинг в Google, это единственное руководство, которое вам когда-либо понадобится!

Шаг 1. Мой сайт уже проиндексирован?

Если вы не создаете новый сайт, он, вероятно, уже проиндексирован.

Если вы не уверены, вот как это узнать.

Самый простой способ проверить это — выполнить поиск site: yourdomain.com в Google. Если Google знает, что ваш сайт существует и уже просканировал его, вы увидите список результатов, аналогичный тому, что был для NeilPatel.com на снимке экрана ниже:

Если Google еще не нашел ваш сайт, вы не получите никаких результатов, например:

Если ваш сайт уже проиндексирован, это хорошо, но, вероятно, его можно улучшить.

Остальные шаги в этом руководстве помогут вам убедиться, что ваш сайт проиндексирован в полной мере.

Шаг 2. Установка и настройка Google Analytics и Search Console

Если вы еще не знакомы с этими бесплатными инструментами Google, вот краткое описание.

Google Analytics: Измеряет статистику вашего веб-сайта, такую ​​как посетители, время, проведенное на сайте, какие страницы они просматривали, откуда они и т. Д.

Консоль поиска Google (ранее известная как Инструменты для веб-мастеров Google): Она позволяет отслеживать различные аспекты вашего веб-сайта, такие как время последнего сканирования, любые ошибки индексации, проблемы с безопасностью и т. Д.

Search Console также позволяет вам управлять некоторыми ключевыми аспектами вашего появления в результатах поиска и вручную отправлять карты сайта — все это я расскажу позже в этой статье.

Но сначала давайте приступим.

Если у вас уже есть Google Analytics и Search Console, нажмите здесь, чтобы перейти к Шагу 3: Создание стратегии контент-маркетинга.

Чтобы настроить Google Analytics, нажмите здесь и войдите в свою учетную запись Google.

Это может быть ваш @gmail.com или ваш адрес электронной почты @ mydomain.com, если вы используете сервис Google G Suite for Business.

Затем нажмите «Зарегистрироваться».

Введите имя и URL-адрес своего веб-сайта, затем нажмите «Получить идентификатор отслеживания» внизу страницы.

Вы увидите такую ​​страницу. Не паникуйте!

Есть несколько способов установить Google Analytics на свой веб-сайт.

Настройка Google Analytics

Если вы используете WordPress или другую систему управления контентом, которая запрашивает ваш идентификатор отслеживания Google Analytics, вам просто нужен номер в самом верху.В моем случае это UA-98962030-1.

Это не мой настоящий идентификатор отслеживания! Просто говорю, не размещайте это в Интернете! 😉

Плагин Google Analytics от MonsterInsights для WordPress действительно прост в настройке.

Просто скачайте его, загрузите плагин в WordPress, активируйте его, и вы увидите этот экран.

Нажмите синюю кнопку «Аутентифицировать», и она проведет вас через все остальное.

Для настройки плагина у вас должен быть уже создан профиль Analytics, что мы и сделали на предыдущем шаге.

Если вы не используете WordPress или хотите добавить код Google Analytics вручную, вот как это сделать.

Вам необходимо поместить этот код (в красном поле) на каждую страницу вашего веб-сайта.

Самый простой способ сделать это — создать один файл с кодом в нем, а затем создать строку кода на каждой странице вашего веб-сайта, которая будет загружать этот файл.

Кусок торта, правда?

Не волнуйтесь, вот как это сделать!

Для этого шага вам необходимо иметь доступ к файлам вашего веб-сайта на сервере вашей хостинговой компании.Обычно это делается через FTP.

Откройте свой FTP-клиент (FileZilla — отличный, бесплатный) и войдите на свой сервер. Если у вас нет этой информации, вы можете создать учетную запись FTP в cPanel своего веб-хостинга или просто обратиться к своему веб-хостеру, чтобы попросить их предоставить информацию.

Ваша регистрационная информация должна выглядеть примерно так:

После подключения вы увидите список подобных файлов и папок.

Откройте новый текстовый файл (для этого подойдут Блокнот для Windows или TextEdit для Mac).Убедитесь, что для него установлено значение «Только обычный текст».

В TextEdit вы нажимаете «Формат» -> «Сделать обычный текст», чтобы сделать это.

Это действительно важно, потому что текстовые процессоры, такие как Word, могут добавлять в код форматирование, которое может испортить код на вашем сайте. При работе с кодом всегда используйте обычный текст .

Когда у вас будет обычный текстовый документ, вставьте код Google Analytics. В итоге вы получите:

Сохраните файл как analyticstracking.php. Убедитесь, что у него есть расширение.php, а не .txt.

Если ваш текстовый редактор по какой-то причине сохранил его с именем «analyticstracking.php.txt», просто переименуйте файл на своем компьютере в «analyticstracking.php».

Загрузите этот файл в корневой каталог через FTP (первая папка вашего веб-сайта).

Вам нужно добавить одну строку кода для каждого шаблона страницы, который у вас есть. Это «вызывает» только что созданный файл и обеспечивает отслеживание каждой страницы вашего веб-сайта, использующей этот шаблон, в Google Analytics.

Для этого загрузите все файлы шаблонов PHP для своего веб-сайта и отредактируйте их.

Если у вас есть один с именем header.php, который загружается на каждой странице, вам нужно сделать это только один раз!

Загрузите header.php.

Затем откройте загруженный файл в текстовом редакторе.

Найдите тег и начало, например:

Вставьте одну строку кода сразу после тега.

Скопируйте этот код:

И вставьте сюда:

Сохраните файл header.php и повторно загрузите его на свой веб-сайт.

Готово!

Если у вас нет файла header.php, вам нужно повторить этот процесс для каждого шаблона страницы php, который есть на вашем веб-сайте, например index.php, blog.php и т. Д.

Если вы используете WordPress, вы определенно в выигрыше. Все, что вам нужно сделать, это установить плагин.

Хорошо, нужно настроить еще кое-что, и мы перейдем к шагу 3.

Настройка консоли поиска Google

Теперь, когда мы настроили Google Analytics, пора добавить наш веб-сайт в Google Search Console (ранее известный как Google Webmaster Tools).

Щелкните здесь, чтобы перейти в Search Console. Войдите в свою учетную запись Google.

Вы увидите этот экран:

Нажмите «Начать сейчас».

Затем вам нужно будет подтвердить, что вы являетесь владельцем этого домена. Есть несколько способов сделать это.

По умолчанию он может показать вам вариант подтверждения через ваш веб-хостинг.

Щелкните раскрывающееся меню, чтобы найти поставщика доменного имени.

Если вашего нет в списке, вы можете нажать «Другое» (внизу).

Search Console затем попросит вас создать запись TXT, которая включает изменение конфигурации вашего домена.

Это немного над головой? Не волнуйтесь, у меня есть способ попроще!

Если вы все же хотите добавить запись TXT, вот как это сделать.

Щелкните «Альтернативные методы» вверху.

Есть два простых способа подтвердить свой домен: с помощью Google Analytics или с помощью загрузки файла HTML.

Я расскажу о них обоих.

Чтобы подтвердить с помощью Google Analytics, просто выберите его и нажмите «Подтвердить».

Google проверит вашу учетную запись Google Analytics, чтобы убедиться, что вы являетесь тем, кем себя называете, и если это так, вы увидите сообщение об успешном завершении.Убедитесь, что вы используете тот же аккаунт Google для Search Console, что и для Analytics.

Процесс загрузки файлов HTML по-прежнему довольно прост.

Щелкните, чтобы загрузить файл на свой компьютер на шаге 1, затем снова откройте программу FTP. Загрузите HTML-файл Google в свой корневой каталог.

Затем перейдите по URL-адресу, который Google дал вам, чтобы убедиться, что файл там. В моем случае это https://neilpatel.com/googlefba739b2a6dd0306.html.

Если вы загрузили его правильно, вы увидите имя файла в окне браузера.

Вернитесь в Search Console и нажмите «Подтвердить» внизу.

Вот и все!

Не забудьте оставить HTML-файл на вашем сервере. Это гарантирует, что ваш сайт будет оставаться подтвержденным в Search Console.

Есть еще две действительно важные вещи, которые вам нужно сделать сейчас:

  • Добавьте обе версии своего домена neilpatel.com и www.neilpatel.com
  • Установите предпочтительный домен

Зачем вам это нужно, спросите вы?

Это может вызвать ошибки сканирования, которых мы пытаемся избежать!

Добавить другую версию вашего URL-адреса просто — повторите тот же процесс, который я только что объяснил.В приведенном выше примере я подтвердил свой домен neilpatel.com. Поэтому я бы пошел в Search Console и проделал те же шаги, но вместо этого использовал бы neilpatel.com.

После того, как вы добавили в Search Console и yourdomain.com, и www.yourdomain.com, вам нужно установить предпочтительный домен.

Для этого нажмите на свой веб-сайт в Search Console.

В правом верхнем углу щелкните значок шестеренки и выберите Параметры сайта.

Выберите, хотите ли вы, чтобы ваши URL отображались с префиксом www.»Или без.

Я собираюсь показать вам все удивительные вещи, которые вы можете делать с помощью Search Console, позже в этой статье, так что держите эту вкладку открытой!

Но теперь нам нужно вернуться к основам маркетинга и поговорить о создании стратегии SEO для вашего контента.

Шаг 3. Создание стратегии контент-маркетинга

В ваших интересах иметь письменную стратегию контент-маркетинга, ориентированную на результаты поиска.

Но не верьте мне на слово.

От Института контент-маркетинга:

«Те, у кого есть задокументированная стратегия контент-маркетинга:

  • С гораздо большей вероятностью считают себя эффективными в контент-маркетинге
  • Чувствуют себя значительно менее сложными во всех аспектах контент-маркетинга
  • Считают себя более эффективными в использовании всех тактик контент-маркетинга и каналов социальных сетей
  • Могут оправдать расходы более высокий процент их маркетингового бюджета на контент-маркетинг »

Все это абсолютно верно.Что касается меня, я чувствую себя намного лучше, когда у меня есть письменный план действий, на который я могу ссылаться и отслеживать свой успех.

Мои блоги и многочисленные предприятия не росли бы так быстро, как они, без письменного плана.

Помимо того, что вы сосредотачиваетесь на своих целях, документированная стратегия содержания также помогает вам индексировать страницы вашего сайта, создавая новые страницы содержания.

Согласно отчету HubSpot «Not Another State of Marketing Report 2020», 60% контент-маркетологов заявили, что контент очень важен или чрезвычайно важен для их общей стратегии.

Одно исследование показало, что у компаний, использующих контент-маркетинг, коэффициент конверсии в шесть раз выше.

Делать все возможное, чтобы публиковать ценный, интересный и полезный контент, а затем делать все возможное, чтобы ваши потенциальные клиенты видели его.

Вот пример.

Когда я создаю и публикую на своем сайте профессиональную инфографику, и она публикуется на другой веб-странице со ссылкой на мою страницу, я получаю «кредит» контент-маркетинга за оба сообщения.

Поскольку это инфографика, у меня больше шансов привлечь аудиторию на обоих сайтах.

Инфографика

имеет один из самых высоких показателей вовлеченности читателей. Доказано, что большинство людей тратят больше времени на просмотр инфографики, чем на чтение текста на странице.

Но вы все это читаете, верно ?!

Инфографика распространяется в социальных сетях примерно в 3 раза чаще, чем любым другим типом контента.

Когда вы разрабатываете свою стратегию контент-маркетинга, блоггинг обязательно должен быть в списке.

Но вам также необходимо учитывать контент, который вы будете публиковать на других веб-сайтах. Это не только помогает увеличить ваш трафик, но также помогает повысить скорость индексации и получить входящие ссылки.

Вот несколько примеров внешнего контента, который можно включить в ваш план:

  • Гостевые посты на других сайтах в вашей нише
  • Пресс-релизы, отправленные на сайты, которые публикуют такой контент
  • Статьи на сайтах высококачественных каталогов статей (Примечание: здесь будьте осторожны — подавляющее большинство каталогов статей , а не высокое качество и может нанести вред вашему бренду, репутации и поисковой оптимизации.)
  • Некоторые авторитетные каталоги — это Medium и HubPages.
  • Видео, размещенные на Vimeo или на вашем канале YouTube

Конечно, любой контент , на котором вы размещаете свое имя или бренд, должен быть высокого качества и опубликован на авторитетном сайте с хорошей репутацией.

В противном случае вы нарушите цель поисковой оптимизации и нанесете ущерб своему трафику и бренду.

Контент, опубликованный на сайтах со спамом и имеющий обратную ссылку на ваш сайт, подсказывает результатам поиска Google, что ваш сайт также является спамом.

Примерами сайтов с хорошей репутацией, на которых можно публиковать гостевые сообщения, могут быть Forbes, Entrepreneur, Smashing Magazine и т. Д. Это известные веб-сайты с репутацией качественного контента, а это именно то, что вы хотите ассоциировать со своим брендом.

Не очень хорошие места для публикации? Сайты, полные некачественных красных флажков: загроможденные рекламой, с множеством грамматических или орфографических ошибок или неизвестные в той отрасли, на которую вы пытаетесь настроить таргетинг.

Я не хочу называть здесь никаких имен, но вашего здравого смысла должно хватить, чтобы сказать вам, что такое сайт, рассылающий спам.Например, сайт под названием neilsbestmarketingadvice101.tumblr.com, вероятно, мало что вам даст, верно?

Хорошо продуманный план контент-маркетинга поможет вам избежать безумной спешки по публикации большего количества контента. Это ставит вас на место водителя поисковой оптимизации, поэтому вы можете сосредоточиться на привлечении потенциальных клиентов и повышении коэффициента конверсии.

Создание стратегии письменного контента не должно быть трудным.

Вот фреймворк, который я использую для своего:

  • Каковы ваши цели? Укажите цели SMART и то, как вы будете оценивать свой прогресс (т.е., метрики).
  • Кто ваша целевая аудитория? Профили клиентов или их личности важны для понимания вашей аудитории и того, что они хотят / в чем они нуждаются.
  • Какие типы контента вы будете создавать? Вы должны быть уверены, что доставляете контент, который хочет видеть ваша целевая аудитория.
  • Где это будет опубликовано? Конечно, вы будете размещать свой собственный контент на своем веб-сайте, но вы также можете обратиться к другим сайтам или использовать такие платформы, как YouTube, LinkedIn и Slideshare.
  • Как часто вы будете публиковать свой контент? Гораздо лучше последовательно выпускать одну хорошо написанную и качественную статью в неделю, чем публиковать каждый день в течение недели, а затем ничего не публиковать в течение месяца. Последовательность — ключ к успеху.
  • Какие системы вы выберете для публикации своего контента? Системы — это в основном повторяемые процедуры и шаги для выполнения сложной задачи. Они помогут вам сэкономить время и быстрее писать контент, чтобы вы могли не отставать от графика.Все, что помогает вам публиковать контент за меньшее время, не жертвуя качеством, улучшит вашу прибыль.
  • Какие инструменты вы будете использовать? Укажите инструменты и технологии ведения блогов / контента, которые вы будете использовать, и то, как они вписываются в вашу систему.

После того, как вы задокументируете свой план контент-маркетинга, вам станет проще публиковать качественный контент по согласованному графику. Это поможет быстрее проиндексировать новые веб-страницы вашего сайта.

Шаг 4. Начните вести блог

Зачем нужен блог?

Это просто: блоги — это трудолюбивые SEO-машины.Контент блога сканируется и индексируется быстрее, чем статические страницы.

Блоги также привлекают больше трафика. Компании, которые ведут блог, регулярно привлекают на свои сайты на 55% больше посетителей, чем те, которые этого не делают.

Блоги подходят для любого бизнеса, отрасли или ниши, а также почти для всех бизнес-моделей — даже для сайтов B2C и электронной коммерции.

Не бойтесь вести блог.

Да, это требует постоянных усилий. Вы действительно должны регулярно писать (или передавать на аутсорсинг) качественные подробные сообщения в блог.

Награды, как я выяснил, того стоят.

Если у вас есть сайт электронной торговли, ведение блога не должно быть очень сложным или трудным.

Например, когда вы создаете страницу нового продукта, напишите и опубликуйте в блоге сообщение о новом продукте. Добавьте качественные изображения товара и ссылку на страницу товара. Это помогает поисковым системам быстрее индексировать страницу продукта.

Еще одна отличная стратегия ведения блога для электронной коммерции — писать пост каждый раз, когда покупатель задает вам вопрос.

Для более ориентированной на продажи стратегии поделитесь ссылкой на этот пост в блоге с другими блоггерами и влиятельными лицами, чтобы известить о них. Возможно, они захотят разместить ваш продукт в своих блогах, которые, опять же, являются отличным источником ссылок и трафика и положительно повлияют на вашу скорость сканирования.

Шаг 5. Используйте внутренние ссылки на своем веб-сайте

Внутренние ссылки, то есть ссылки на страницы вашего собственного веб-сайта, — еще один отличный способ быстро проиндексироваться и повысить свою позицию в обычных результатах поиска.

Одним из очевидных источников внутренних ссылок является навигация по вашему сайту.

Важно структурировать навигацию по веб-сайту так, чтобы она была понятна Google.

Ваша навигация должна следовать предсказуемому потоку, например, Домашняя страница -> Категория -> Дополнительная страница.

Очевидно, что все элементы должны быть связаны. Итак, если вы веб-дизайнер, ваша навигация может выглядеть так.

Домашняя страница -> Услуги веб-дизайна -> Дизайн WordPress

Видите, как все это связано и имеет смысл?

Еще одним ключевым фактором является правильная структура ваших URL-адресов.Эмпирическое правило Google — сделать их максимально простыми и понятными.

Так что, если это имеет смысл для вас, человека, это должно иметь смысл и для Google.

Еще один отличный способ ссылаться на ваш контент — это сообщения в блогах.

Люди обычно связывают фразы в своих блогах с соответствующими темами, например, если бы я хотел предложить вам дополнительную информацию о структурировании URL-адресов.

Или я мог бы создать такую ​​строку:

Связано: Имеет ли значение структура URL-адреса? Ответ, управляемый данными

Создает ссылки, которые заставляют пауков Google возвращаться и сканировать эти страницы снова.Кроме того, это положительно улучшает пользовательский опыт. Ваши читатели оценят дальнейшие ресурсы.

Не забывайте всегда помнить об удобстве использования. Это идет рука об руку с SEO. У Google есть все эти правила и способы работы, потому что он пытается предоставить своим пользователям наилучшие результаты и дать им ответы, которые они ищут.

Вы должны сосредоточиться на одном и том же!

Шаг 6. Продвигайте публикацию вашего контента в социальных сетях

Естественно, заставить людей делиться вашим контентом в социальных сетях — это хорошо.Совершенно уверен, что мне не нужно убеждать вас в этом!

Он открывает доступ к вашему контенту новым людям, привлекает их на ваш сайт, и это тот контент, который люди хотят видеть больше всего.

Но публикация ваших сообщений в социальных сетях также имеет преимущества для SEO, поскольку создает обратные ссылки на ваш контент.

Что, если вы внимательно … говорит паукам Google проиндексировать ваш сайт

бонусных балла, если вы уже догадались.

Сейчас ведутся споры о том, насколько ссылки в социальных сетях влияют на ранжирование в обычном поиске.

Google высказал неоднозначные мнения по этому поводу, заявив, что сначала в 2015 году они вообще не учитывали публикации в социальных сетях для ранжирования в органическом поиске, а затем заявили, что они сделали это.

«Да, мы используем это как сигнал. Он используется как сигнал в нашем органическом рейтинге и рейтинге новостей. Мы также используем его, чтобы сделать наши новости универсальными, отмечая, сколько людей поделились статьей ».

Мэтт Каттс, бывший известный Google, сказал несколько лет назад:

Я снял видео еще в мае 2010 года, где сказал, что мы не использовали «социальные сети» в качестве сигнала, и в то время мы не использовали это как сигнал, но сейчас мы снимаем это на пленку в декабре. 2010 г., и мы используем это как сигнал.

Bing, с другой стороны, очень четко дал понять, как он использует ссылки социальных сетей в рейтинге результатов поиска, известные как «социальные сигналы».

Многие маркетологи считают, что социальные сигналы являются важным фактором ранжирования, и я один из них.

Обмен в соцсетях помог мне значительно расширить мой блог. Когда я основал NeilPatel.com, я начал с нуля и быстро увеличил свою аудиторию до 60 000 читателей в месяц за 2 месяца.

Сейчас у меня в среднем более 20 миллионов посещений в месяц.

Я приписываю большую часть своего успеха социальному обмену и положительному росту SEO, который я получил благодаря социальным сигналам, ссылкам и повышенной скорости индексации страниц.

В любом случае социальный обмен имеет много других преимуществ для вашего веб-сайта, так что просто сделайте это!

Шаг 7. Добавьте плагин Sitemap, чтобы Google проиндексировал ваш сайт

Во-первых, давайте поговорим о том, что такое карта сайта.

Вы, несомненно, видели слово «карта сайта» раньше, но, возможно, вы никогда не знали, что именно оно означает и как оно соотносится с поисковой оптимизацией.

Карта сайта — это файл, который сообщает Google о файлах на вашем веб-сайте, в том числе о том, как они соотносятся друг с другом. Это упрощает сканирование и индексирование вашего сайта Google.

Карта сайта — это в основном список (в формате XML) всех страниц вашего сайта . Его основная функция — сообщать поисковым системам, когда что-то изменилось — будь то новая веб-страница или изменения на определенной странице — а также то, как часто поисковая система должна проверять наличие изменений.

Влияют ли карты сайта на ваш поисковый рейтинг? Могут, но ненамного.

Они действительно помогают вашему сайту быстрее индексироваться с более эффективной скоростью сканирования.

В современном мире поиска существует множество мифов о поисковой оптимизации, которых следует опасаться. Но одно остается неизменным: при прочих равных, отличный контент поднимется наверх, как сливки.

Карты сайта

помогают сканировать и индексировать ваш контент, чтобы он мог быстрее подняться на вершину поисковой выдачи, согласно блогу Google для веб-мастеров.

По словам Google, «отправка файла Sitemap помогает убедиться, что Google знает об URL-адресах на вашем сайте.”

Это гарантия, что ваш сайт будет немедленно проиндексирован? Нет. Но это определенно эффективный инструмент для веб-мастеров, который помогает в этом процессе.

Кейси Генри задался вопросом, насколько карты сайта повлияют на скорость сканирования и индексирование, поэтому он решил провести небольшой эксперимент.

Кейси поговорил с одним из своих клиентов, который вел довольно популярный блог, используя как WordPress, так и плагин Google XML Sitemaps Generator для WordPress (подробнее об этом ниже).

С разрешения клиента Кейси установил скрипт отслеживания, который отслеживал действия робота Googlebot на сайте.Он также отслеживал, когда бот обращался к карте сайта, когда она была отправлена, и каждую страницу, которая была просканирована. Эти данные хранились в базе данных вместе с отметкой времени, IP-адресом и пользовательским агентом.

Клиент просто продолжил свой обычный график публикации (около двух или трех сообщений в неделю).

Кейси назвал результаты своего эксперимента не чем иным, как «поразительными» с точки зрения поисковой оптимизации.

Но судите сами: когда карта сайта не была отправлена, Google потребовалось в среднем 1375 минут, чтобы найти, просканировать и проиндексировать новый контент.

Когда была отправлена ​​карта сайта? Это среднее значение упало до 14 минут.

Как часто вы должны сообщать Google, чтобы он проверял наличие изменений, отправляя новую карту сайта? Не существует твердого правила.

Однако некоторые виды контента требуют более частого сканирования и индексации.

Например, если вы добавляете новые продукты на сайт электронной торговли, и у каждого из них есть собственная страница продукта, вам нужно, чтобы Google часто проверял их, увеличивая скорость сканирования.То же самое верно и для сайтов, которые регулярно публикуют горячие или свежие новости, которые постоянно конкурируют в запросах поисковой оптимизации.

Но есть гораздо более простой способ создать и отправить карту сайта. Если вы используете WordPress, просто установите и используйте плагин Google XML Sitemaps.

Его настройки позволяют указать плагину, как часто карта сайта должна создаваться, обновляться и отправляться в поисковые системы. Он также может автоматизировать процесс для вас, так что всякий раз, когда вы публикуете новую страницу, карта сайта обновляется и отправляется.

Другие инструменты карты сайта, которые вы можете использовать, включают Генератор XML-карт сайта, онлайн-инструмент, который должен работать для любого типа веб-сайтов.

Когда у вас есть карта сайта, вы хотите отправить ее в Google Search Console, о чем мы поговорим дальше.

Шаг 8. Отправьте файл Sitemap в Search Console

Очень важно, чтобы ваша карта сайта была актуальной для Google Search Console. Я люблю заходить раз в 2 недели или, по крайней мере, ежемесячно, и обновлять его.

Еще не зарегистрированы в Google Search Console? Вернитесь к шагу 2, чтобы узнать, как это сделать.

Щелкните URL-адрес, чтобы перейти на панель управления для этого сайта. Слева в разделе «Индекс» нажмите «Карты сайта». Вы увидите уже отправленные в Google карты сайта, а также добавите новую карту сайта.

Для следующего шага вам понадобится URL-адрес вашей карты сайта. Если вы используете плагин для WordPress, эта информация будет доступна в его настройках.

Обычно это URL-адрес yourdomain.ru / sitemap.xml.

Как я упоминал выше, вы также можете использовать веб-сайт, такой как XML-Sitemaps.com, для его создания. Для этого просто введите свой URL и выберите периодичность изменения.

Частота изменения просто говорит Google, как часто он должен индексировать ваш сайт. Это всего лишь предложение Google, и паук должен определить, когда он вернется, чтобы снова проиндексировать ваш сайт.

Как только он предоставит вам файл sitemap.xml, загрузите его на свой веб-сайт через FTP.

Получив URL-адрес карты сайта, введите его в Google Search Console.

После отправки вы увидите это внизу страницы.

Когда Google завершит его индексирование, столбец «Обработано» изменится с «Ожидание» на дату, когда он был проиндексирован.

Как видите, только 294 из 473 моих веб-страниц были проиндексированы! Будем надеяться, что за это время паук подберет их больше. Однако не беспокойтесь, если вы увидите похожую статистику — некоторые из этих страниц, вероятно, вы и не хотите индексировать (подробности см. В шаге 17!).

Возьмите за привычку отправлять новую карту сайта не реже одного раза в месяц.

Вы также можете использовать Инструменты Bing для веб-мастеров, чтобы сделать то же самое с Bing. Хорошо бы охватить все ваши базы, тем более что Bing — вторая по популярности поисковая система после Google!

Шаг 9. Создайте каналы социальных сетей

Есть ли у вас профили в социальных сетях для вашего сайта или блога? Если нет, то сейчас самое время.

Почему? Потому что, как мы узнали на шаге 6, один из компонентов поисковой оптимизации — это внимание к социальным сигналам.

Эти сигналы могут побудить поисковые системы сканировать и индексировать ваш новый сайт.

Более того, социальные сигналы помогут вам повысить рейтинг ваших страниц в результатах поиска.

К настоящему времени очевидно, что надежный маркетинговый план в социальных сетях помогает SEO. Но социальные профили на вашем веб-сайте также дают вам другое место для добавления ссылок на ваш сайт или блог.

профилей Twitter, страниц Facebook, профилей LinkedIn или страниц компаний, профилей Pinterest, каналов YouTube и особенно профилей или страниц Google+ — все это легко создать и является идеальным местом для добавления ссылок, указывающих на ваш веб-сайт.

Если вы не хотите создавать новые профили на социальных сайтах для своего нового сайта или блога, вы также можете просто добавить ссылку нового сайта к своим существующим профилям, чтобы увеличить скорость сканирования.

Однако я настоятельно рекомендую создавать новые профили для проектов. Помимо того, что это хорошо для SEO, это также отлично подходит для брендинга.

Это, вероятно, само собой разумеется, но если вы создаете эти каналы в социальных сетях, будьте готовы также регулярно обновлять их, добавляя новый контент.

Шаг 10. Используйте robots.txt

Если вы не являетесь опытным программистом или разработчиком, возможно, вы видели файл robots.txt в файлах своего домена и задавались вопросом, что это такое и для чего он нужен.

Часть «что это такое» очень проста. Это простой текстовый файл, который должен находиться в корневом каталоге вашего домена. Если вы используете WordPress, он будет в корневом каталоге вашей установки WordPress.

Часть «что он делает» немного сложнее.По сути, robots.txt — это файл, который дает строгие инструкции для роботов поисковых систем о том, какие страницы они могут сканировать и индексировать — и от каких страниц следует держаться подальше.

Когда поисковые роботы находят этот файл в новом домене, они читают содержащиеся в нем инструкции, прежде чем делать что-либо еще.

Если они не находят файл robots.txt, поисковые роботы предполагают, что вы хотите просканировать и проиндексировать каждую страницу.

Теперь вы можете спросить: «С какой стати мне нужно, чтобы поисковые системы , а не , индексировали страницу на моем сайте?» Это хороший вопрос!

Короче говоря, это потому, что не каждую страницу, существующую на вашем сайте, следует считать отдельной страницей для результатов поиска.(Подробнее об этом позже!)

Ваш первый шаг — убедиться, что на вашем новом сайте есть файл robots.txt. Вы можете сделать это либо по FTP, либо щелкнув свой файловый менеджер через CPanel (или аналогичный, если ваша хостинговая компания не использует CPanel).

Если его там нет, вы можете легко создать его с помощью обычного текстового редактора, такого как Блокнот.

Примечание: Очень важно использовать только текстовый редактор, а не что-то вроде Word или WordPad, которые могут вставлять невидимые коды в ваш документ, что действительно испортит ситуацию.

WordPress-блоггеры могут оптимизировать свои файлы robots.txt с помощью надежного плагина WordPress, такого как плагин Yoast SEO.

Формат файла robots.txt довольно прост. В первой строке обычно указывается пользовательский агент, который представляет собой просто имя поискового бота — например, Googlebot или Bingbot. Вы также можете использовать звездочку (*) в качестве идентификатора подстановочного знака для всех ботов. Этот тип плагина WordPress — эффективный инструмент для веб-мастеров.

Далее идет строка разрешающих или запрещающих команд.Они сообщают поисковым системам, какие части они должны сканировать и индексировать («Разрешить»), а какие — игнорировать («Запрещать»).

Эти правила гарантируют, что только те страницы, которые вы хотите проиндексировать, попадут в результаты поиска.

Итак, напомним: функция robots.txt заключается в том, чтобы сообщать поисковым системам, что делать с контентом / страницами на вашем сайте. Но помогает ли это проиндексировать ваш сайт?

Суровый Агравал из ShoutDreams Media говорит:

Да.

Он смог проиндексировать сайты в течение 24 часов, используя комбинацию стратегий, включая роботов.txt и методы SEO на странице.

При этом важно быть очень осторожным при редактировании файла robots.txt, потому что легко ошибиться, если вы не знаете, что делаете.

Неправильно настроенный файл может скрыть весь ваш сайт от поисковых систем. Это полная противоположность тому, что вы хотите! Вы должны понимать, как правильно редактировать файл robots.txt, чтобы не снизить скорость сканирования.

Вы можете нанять опытного разработчика, который позаботится об этой работе, и оставить его в покое, если вам не нравится риск навредить вашему SEO.

Если вы действительно хотите попробовать это самостоятельно, вы можете использовать инструмент Google robots.txt, чтобы убедиться, что ваш файл правильно закодирован.

Шаг 11. Проиндексируйте свой сайт с помощью других поисковых систем

Вы также можете воспользоваться прямым подходом и отправить URL своего сайта в поисковые системы.

Прежде чем вы это сделаете, вы должны знать, что существует множество разногласий по поводу ручной отправки URL сайта как метода его индексации.

Некоторые блоггеры полагают, что это как минимум ненужно, если не вредно.

В большинстве случаев, если ваш сайт работает дольше недели, поисковые системы его уже нашли. Отправлять вручную бессмысленно, а платить компаниям за вас — это кража.

Ручная отправка в поисковую систему также может быть вредной, когда вы размещаете свой сайт на сайтах бесплатной отправки, которые предлагают разместить ваш сайт в нескольких поисковых системах. Эти ссылки могут быть некачественными и негативно сказаться на вашем SEO.

Видите все эти случайные каталоги и веб-сайты, куда будет отправлен ваш сайт?

Если эти сайты рассматриваются Google как спам, наличие с них ссылок на ваш сайт повредит вашему SEO-рейтингу.Google накажет вас за «привязанность» к этим сайтам.

Поскольку есть и другие методы, которые работают эффективно, большинство блоггеров и владельцев сайтов игнорируют этот шаг.

С другой стороны, это не займет много времени и не повредит вашему SEO, если вы просто отправляете данные в Google, Bing, Yahoo или другие очень уважаемые веб-сайты.

Чтобы отправить URL-адрес вашего сайта в Google, просто попросите Google повторно просканировать ваши URL-адреса с помощью обновления карты сайта или используйте инструмент проверки URL-адресов.

Примечание. Раньше Google позволял вам напрямую отправлять URL-адреса для индексации, но теперь этого не делает.

Шаг 12. Поделитесь своим контентом на агрегаторах

Агрегаторы контента — это веб-сайты, которые действуют как поисковая система для контента, отправленного пользователями.

Это означает, что люди отправляют свой контент на эти сайты, а затем посетители могут искать и находить контент от людей со всего мира. Это огромные сети с доступным для поиска контентом.

Хорошо известные примеры — Reddit и Medium.

Размещение вашего контента на агрегаторах — отличный источник ссылок и новых контактов, как и социальные сети.

Некоторые другие агрегаторы, на которых вы можете поделиться своим контентом:

Medium — также отличное место для публикации вашего контента. Для получения более подробной информации ознакомьтесь с моим полным руководством по увеличению посещаемости вашего веб-сайта с помощью Medium.

Шаг 13: Повсюду делитесь ссылкой на свой веб-сайт

Еще один простой способ получить ссылки на ваш новый сайт или блог — это обновления вашего собственного социального статуса.

Конечно, эти ссылки будут nofollow, но они все равно будут учитываться для целей оповещения об индексировании, поскольку мы знаем, что Google и Bing, по крайней мере, отслеживают социальные сигналы с веб-страниц.

Старая поговорка «ваша сеть — это ваш собственный капитал» также применима здесь. Если вы только начинаете, вашими первыми клиентами могут стать члены семьи, друзей или знакомых, поэтому не стесняйтесь делиться своим новым сайтом в своих личных аккаунтах в социальных сетях.

Если вы используете Pinterest, выберите высококачественное изображение или снимок экрана со своего нового сайта.

Добавьте URL-адрес и оптимизированное описание (т.е. убедитесь, что вы используете подходящие ключевые слова для своего сайта) и закрепите его либо на существующей доске, либо на новой, которую вы создаете для своего сайта.

Мне нравится, как Whole Foods использует Pinterest для взаимодействия со своей целевой аудиторией (например, гурманами и любителями натуральных рецептов). У них есть доски для каждой темы, включая текущие праздники и сезонные тенденции.

Если вы на YouTube, проявите творческий подход! Запишите короткий видеоролик, представляющий ваш сайт и подчеркивающий его особенности и преимущества. Затем добавьте URL-адрес в описание видео.

Social Media Examiner предлагает поместить ваш URL в первую строку описания.

Я также рекомендую использовать правильные ключевые слова в заголовке и описании.

Если у вас есть существующий список рассылки из другой компании, относящейся к той же нише, что и ваш новый сайт, вы можете разослать по всему списку рассылку, представляя ваш новый сайт и включая ссылку.

Джон Морроу, известный Copyblogger, сделал это со своим новым сайтом Unstoppable.me. Он составил список адресов электронной почты тысяч людей из своих многочисленных предприятий и успешно использовал его для привлечения трафика на свое новое предприятие.

Когда он опубликовал свой первый пост, он разослал электронное письмо своим подписчикам с других своих веб-сайтов, чтобы сообщить им о своем новом сайте.

Он также использовал раздел биографии на своем сайте SmartBlogger, чтобы привлечь внимание к своему новому блогу.

Его первый пост на Unstoppable.me собрал более 60 000 репостов в Facebook и 3 000 репостов в Twitter всего за первый месяц.

Наконец, не забывайте о своей личной учетной записи электронной почты. Добавьте свой новый URL-адрес и имя сайта в подпись электронной почты.Это просто, но работает.

Шаг 14. Настройка RSS-канала

Что такое RSS?

RSS — это автоматический канал содержания вашего веб-сайта, который обновляется, когда вы публикуете новое сообщение в блоге. Это расшифровывается как Really Simple Syndication или Rich Site Summary и подходит как для пользователей, так и для владельцев сайтов.

Как это влияет на индексирование и сканирование?

Что ж, прежде чем мы перейдем к этому, давайте проясним одну вещь: многие думают, что RSS мертв.

Число пользователей неуклонно снижается с тех пор, как Google убил Google Reader в 2013 году.Я думаю, что RSS развивается, а не умирает.

RSS обычно помогает увеличить читаемость и коэффициент конверсии, но он также может помочь проиндексировать ваши страницы .

Для пользователей RSS-каналы предоставляют гораздо более простой способ получить большой объем контента за более короткий промежуток времени.

Пользователи могут подписаться на ваш RSS-канал в своей любимой программе для чтения RSS и автоматически получать ваши новые сообщения. Популярные программы чтения RSS — Feedly и Feeder.

Как владелец сайта, вы получаете мгновенное распространение нового контента и возможность для читателей подписаться на вас, не отказываясь от своего адреса электронной почты, что не нравится некоторым людям.

Хотя вы по-прежнему хотите сосредоточить большую часть своих усилий на создании списка адресов электронной почты, предложение подписки на RSS-канал улучшает пользовательский опыт, предоставляя людям, заботящимся о конфиденциальности, еще один вариант подписки на вас.

Рассматривая RSS-канал, вы должны следовать нескольким рекомендациям:

  • Решите, хотите ли вы показывать полное содержание сообщения или отрывки. Если вы пишете длинный контент (более 2 000 слов), вам, скорее всего, следует выбрать в своем RSS-канале только отрывки.
  • Убедитесь, что ваш канал включает изображения , иначе ваши подписчики могут упустить ценную инфографику или другую графику, необходимую для понимания сообщения.

Настройка RSS-канала с помощью Feedburner (собственный инструмент Google для управления RSS) помогает уведомить Google о том, что у вас есть новое сообщение в блоге или страница, готовые для сканирования и индексации.

Чтобы создать RSS-канал для своего сайта, перейдите на Feedburner. Войдите в свой аккаунт Google.

Введите свой URL-адрес в поле и нажмите Далее.

Дайте своему каналу заголовок и URL-адрес Feedburner (это будет публичный адрес вашего RSS-канала).

После этого вы увидите сообщение об успешном использовании нового URL-адреса Feedburner. Чтобы заставить людей подписаться на него, просто укажите ссылку на этот URL.

Например, у вас может быть кнопка на вашем веб-сайте с надписью «Подписаться через RSS» и ссылкой на этот URL.

Шаг 15: Добавьте свой веб-сайт в каталоги

Вы, вероятно, уже знаете, что размещение вашего нового URL в каталогах блогов может помочь вашему сайту «быть найденным» новыми потенциальными пользователями.Разве я не говорил тебе не делать этого несколько шагов назад?

Дело в том, что ваш веб-сайт можно проиндексировать быстрее, если вы все сделаете правильно.

Давным-давно бесплатные каталоги блогов засоряли цифровой ландшафт. Существовали буквально сотни — если не тысячи — этих сайтов, и большинство из них практически не представляли никакой ценности для читателей блогов.

Проблема качества стала настолько серьезной, что в 2012 году Google удалил многие бесплатные каталоги сайтов из своего индекса, должным образом снизив рейтинг веб-страниц с низкой ценностью контента.

Moz изучил проблему, проанализировав 2678 каталогов, и в итоге пришел к выводу, что «из 2678 каталогов только 94 были забанены — не так уж и плохо.

Однако было еще 417 дополнительных каталогов, которые избежали блокировки, но были наказаны ».

Так что же ответ?

Если вы собираетесь отправлять в каталоги, убедитесь, что вы отправляете только в авторитетные каталоги с достойным рейтингом.

Списки лучших каталогов, составленные отраслевыми и авторитетными блогами, могут помочь вам отделить хорошее от плохого, но убедитесь, что список, который вы используете, актуален.

Например, этот от Harsh Agrawal был обновлен совсем недавно, в 2019 году.

Другие варианты, которые вы, возможно, захотите изучить, — это TopRank, на котором есть огромный список сайтов, на которые вы можете отправить свой RSS-канал и блог; Technorati, который является одним из лучших каталогов блогов; и — после того, как вы опубликовали приличное количество высококачественного контента — субдомен Alltop для вашей ниши или отрасли.

Отправка на высококачественные сайты с приличными рейтингами авторитета домена может не только открыть ваш контент для совершенно новой аудитории, но также предоставить входящие ссылки, которые могут подтолкнуть поисковые системы к сканированию и индексации вашего сайта.

Самый простой способ разместить свой сайт сразу в нескольких каталогах — воспользоваться бесплатным сервисом Ping O Matic.

Ping O Matic уведомляет каталоги о том, что ваш веб-сайт изменился и что они должны его проиндексировать. Это займет около 30 секунд, и вот как это сделать.

Введите название вашего блога, URL-адрес домашней страницы и URL-адрес RSS (если он у вас есть), как это. В разделе Services to Ping выберите каталоги, которые подходят для вашего сайта:

Нажмите «Отправить пинг», и все готово.

Шаг 16. Часто проверяйте ошибки сканирования Google

Этот шаг действительно важен для поддержания частоты индексирования. Я люблю проверять свои веб-сайты на наличие ошибок сканирования хотя бы раз в месяц.

Чтобы проверить наличие ошибок сканирования, откройте Search Console.

Слева нажмите «Настройки»> «Статистика сканирования»> «Открыть отчет».

На странице статистики сканирования вы можете узнать, как часто Google индексирует ваш веб-сайт, и это определенно то, за чем нужно следить.

Например, если мои результаты растут, это означает, что Google теперь индексирует меня чаще — это хорошо. Но если ваш график имеет тенденцию к снижению, это может быть признаком того, что вам нужно опубликовать больше контента или отправить новую карту сайта.

Затем посмотрите в разделе «Индекс» и нажмите «Покрытие».

На этом экране отображаются все ошибки, с которыми робот Googlebot столкнулся при сканировании вашего сайта, например ошибки 404.

Вот то, что вам следует отслеживать хотя бы раз в месяц:

  • Ошибки сканирования
  • Среднее время отклика
  • Статистика сканирования

Еще один замечательный инструмент, которым можно воспользоваться, — это тестер структурированных данных.Google использует структурированные данные, чтобы лучше понять, о чем ваш сайт.

Структурированные данные в основном означают, что вы предоставляете Google релевантную информацию, чтобы помочь ответить на вопросы пользователей.

Вот пример. Я искал концерты рядом со мной.

Этот веб-сайт использовал структурированные данные, чтобы сообщить Google, что эти списки будут полезны для меня, и они отображаются под своим обычным заголовком и описанием страницы SEO.

Так как вы это тоже получили?

Он довольно продвинутый, так что это может быть еще один элемент, который вы захотите передать на аутсорсинг разработчику.

Вы можете увидеть все варианты структурированных данных в галерее поиска Google.

У Google также есть упрощенный инструмент, который помогает людям, не являющимся разработчиками, добавлять структурированные данные на свои сайты. Перейдите в Помощник по разметке структурированных данных и введите информацию о своем веб-сайте.

Затем вам просто нужно выделить элемент на веб-странице, который вы хотите преобразовать в структурированные данные.

Из всплывающего меню вы можете добавить такие атрибуты, как Автор, Дата публикации, Изображение, URL-адрес, Тело статьи и т. Д.

Если вы внедрили структурированные данные, вы можете использовать инструмент тестирования для их проверки.

Опять же, это довольно сложный процесс, поэтому, если вы не разработчик, вероятно, лучше всего нанять профессионала, который позаботится об этом за вас.

Шаг 17. Убедитесь, что страницы, которые не следует индексировать, не соответствуют

Есть некоторые страницы, которые вы не хотите, чтобы Google или другие поисковые системы индексировали. Вот страницы, которые вы не хотите показывать в поиске:

Страницы с благодарностью: Обычно это страницы, на которые кто-то попадает после подписки на ваш список рассылки или загрузки электронной книги.Вы же не хотите, чтобы люди проходили мимо очереди и сразу переходили к товарам! Если эти страницы будут проиндексированы, вы потеряете потенциальных клиентов, заполнивших форму.

Повторяющееся содержание: Если какие-либо страницы вашего сайта имеют повторяющееся содержание или немного отличаются друг от друга, например, страница, для которой вы проводите A / B-тест, вы не хотите, чтобы это индексировалось.

Скажем, например, у вас есть две страницы с одинаковым содержанием на вашем сайте. Возможно, это связано с тем, что вы проводите сплит-тестирование визуальных элементов своего дизайна, но содержание двух страниц совершенно одинаково.

Дублированный контент, как вы, наверное, знаете, потенциально может стать проблемой для SEO. Итак, одно из решений — использовать файл robots.txt, чтобы поисковые системы игнорировали один из них.

Вот как сделать так, чтобы страницы, которые вы хотите исключить, не индексировались.

Вариант 1. В вашем файле robots.txt

Помните тот файл robots.txt, который мы создали на шаге 10? Вы можете добавить в него директивы, чтобы поисковые системы не индексировали файл или весь каталог. Это может быть удобно, если вы хотите, чтобы целый раздел вашего сайта оставался неиндексированным.

Чтобы добавить это, откройте файл robots.txt.

См. Шаг 10, чтобы узнать, как это сделать, если вам нужно напомнить.

Чтобы заблокировать индексирование страницы, введите этот код в файл robots.txt.

Запретить: / nameoffolder /

Блокирует все в этой папке. В качестве альтернативы вы можете просто заблокировать один файл.

Запрещено: /folder/filename.html

Сохраните его, повторно загрузите на свой сервер и все. Для получения дополнительной информации о robots.txt, посетите robotstxt.org.

Вариант 2. Используйте ссылки nofollow или noindex

Этот вариант очень прост. Когда вы создаете ссылку на своем сайте, просто добавьте тег nofollow или noindex к ссылке .

Во-первых, давайте рассмотрим, что они означают.

Nofollow: Указывает Google не сканировать ссылки на этой странице.

Это означает, что если я перейду на ваш веб-сайт с neilpatel.com и использую ссылку nofollow, ни одна из моих ссылок (или авторитетности домена) не будет передана вам.

Noindex: Указывает Google не индексировать страницу, даже если паук ее видит. Он не будет добавлен в результаты поиска.

Вы можете использовать оба одновременно.

Вот пример.

Если вы делаете ссылку на специальную целевую страницу мероприятия, которое проводите только для VIP-персон, и не хотите, чтобы эта страница отображалась в результатах поиска, вы должны указать ссылку на нее с помощью тега noindex.

Это будет выглядеть так: Посмотрите мой супер крутое событие .

Даже если люди будут искать в Google «супер крутое мероприятие Нейла», эта страница не появится.

(Вы, однако, получите много вариантов концертов, посвященных памяти Нила Даймонда.)

Чаще всего вам понадобится тег noindex. Обычно вы хотите использовать nofollow только для партнерских ссылок, ссылок, за создание которых вам кто-то заплатил, или для которых вы получаете комиссию. Это потому, что вы не хотите «продавать ссылки».

Когда вы добавляете nofollow, он сообщает Google не передавать полномочия вашего домена этим источникам.По сути, он защищает Интернет от повреждений, когда дело доходит до ссылок.

Если вы хотите, чтобы вся страница была исключена из результатов поиска из всех источников, вместо того, чтобы просто включать теги nofollow или noindex в ваши ссылки, выполните следующие действия.

Сначала откройте HTML-код страницы.

Если вы используете CMS (систему управления контентом), такую ​​как WordPress, вы можете отредактировать этот файл с помощью Yoast, чтобы добавить тег noindex.

Если у вас нет такой CMS, как WordPress, вы можете загрузить страницу, которую нужно отредактировать, через FTP.

Не знаете, как использовать FTP? Вернитесь к шагу 2, где я это объясню!

Нажмите на страницу, которую хотите исключить из результатов поиска, и загрузите ее.

Откройте его в текстовом редакторе. Блокнот для Windows или TextEdit на Mac отлично подходят для этого. Найдите тег, например:

Прямо перед этим тегом вы хотите вставить ОДИН из следующих фрагментов кода.

Если вы хотите, чтобы страница была исключена из результатов поиска, но по-прежнему переходила по ссылкам на странице, используйте:

Если вы хотите, чтобы страница включалась в результаты поиска, но чтобы Google не переходил по ссылкам на странице, используйте:

И, если вы хотите, чтобы страница была исключена из поиска И чтобы Google не переходил по ссылкам, используйте:

Как это:

Шаг 18. Составьте план обновления старого содержимого

Итак, что мы узнали об индексировании?

Каждый раз, когда вы обновляете свой веб-сайт, Google хочет сканировать его чаще.

Отличный способ заработать на этом — составить план регулярного обновления старого контента.

Именно этим я сейчас и занимаюсь с этим мега-сообщением!

Этот пост был первоначально опубликован в 2015 году, и я стараюсь обновлять его по крайней мере каждые несколько месяцев или, когда происходят серьезные изменения в Google, чтобы поддерживать его в актуальном состоянии.

Информация быстро устаревает, особенно в быстро меняющемся мире маркетинга. Каждый месяц я составляю список своих старых постов и выбираю несколько, чтобы обновить их свежей информацией и советами.Редактируя хотя бы несколько сообщений в месяц, я гарантирую, что мой контент останется актуальным и полезным.

Для наилучшего влияния на скорость индексации старайтесь обновлять свой веб-сайт не реже трех раз в неделю. Этими тремя вещами могут быть публикация одного нового сообщения в блоге и обновление содержимого двух старых сообщений.

Обновление по крайней мере три раза в неделю говорит Google, что лучше проверять у вас почаще, чтобы убедиться, что на нем установлена ​​последняя версия вашего сайта.

Вся эта индексация и новая информация означает, что обновление ваших старых сообщений может увеличить ваш органический поисковый трафик на 111%!

Вот несколько простых способов обновить старый контент.

Проверить устаревшие факты или термины: Например, в этом сообщении упоминались Инструменты Google для веб-мастеров, которые теперь называются Search Console.

Ссылка на свежие источники информации: Если вы написали сообщение о SEO в 2013 году и использовали данные того же года в своем сообщении, тогда это нормально, но не в 2017 году. Обновите свои оценки и вспомогательную информацию, чтобы они были свежими.

Неработающие ссылки / новые ссылки: Проверьте неработающие ссылки и исправьте их, или при необходимости измените любые ссылки в вашем сообщении на более качественные источники.Например, я могу перенаправить старые ссылки на свежий, новый контент на моем собственном сайте.

Ссылка на другой ваш контент: Включите ссылки на новые сообщения или соответствующий контент, который вы опубликовали после исходного сообщения. Большинство блогеров делают это так:

Связано: SEO мертв?

Обновите свои точки зрения: Это важно. Просмотрите старые сообщения и обновите свои рекомендации до более актуальных, если необходимо. Вещи меняются! То же самое должно быть с решениями, которые вы предлагаете людям.

Заключение

Надеюсь, вам понравилось это подробное руководство по индексации вашего сайта!

Я знаю, что это очень важно. Я и половины этого не знал, когда начал вести блог.

В моем первом блоге я установил Google Analytics, и все!

Конечно, тогда у нас не было такого количества возможностей для улучшения нашего SEO-рейтинга или индексации, и это не управлялось сложным алгоритмом, как сейчас.

Вот почему я написал это руководство.При запуске нового веб-сайта так важно изучить SEO и индексацию, особенно в условиях всей конкуренции.

Можно занять место на первой странице и «победить больших парней», но для этого требуется много работы и исследований.

Лучший совет, который у меня есть:

Продолжайте учиться и будьте в курсе новостей отрасли. Все меняется так быстро, особенно когда дело касается поисковых систем.

Изучите SEO и перепроверьте любой новый предложенный метод с помощью собственного независимого исследования, прежде чем пробовать его.

Убедитесь, что вы часто обновляете свой сайт — не только с новым содержанием, но и с обновлением старых сообщений. Это заставляет Google возвращаться, чтобы часто сканировать ваш сайт, и сохраняет эти сообщения актуальными для новых посетителей.

Затем составьте план цифрового маркетинга.

Запишите свой план контент-маркетинга, включая то, как вы будете отслеживать индексирование, аналитику и как вы будете обновлять старую информацию на своем сайте. Для меня не было бы возможности расти так быстро, как я, без письменного плана.

Наконец, получите профессиональную помощь в области SEO, если она вам нужна. Не у всех владельцев бизнеса есть время, чтобы оставаться на вершине маркетинга, тем более, что он так быстро меняется. Профессионал часто может получить результаты намного быстрее — и фактически сэкономить ваши деньги в долгосрочной перспективе.

Какие тактики сканирования и индексирования вы пробовали? Каковы были ваши результаты?

Узнайте, как мое агентство может привлечь огромное количество трафика на ваш веб-сайт

  • SEO — разблокируйте огромное количество SEO-трафика.Смотрите реальные результаты.
  • Контент-маркетинг — наша команда создает эпический контент, которым будут делиться, получать ссылки и привлекать трафик.
  • Paid Media — эффективные платные стратегии с четкой окупаемостью.

Заказать звонок

Как заставить Google сканировать ваш сайт для улучшения результатов поиска

Если вы обновили свой сайт Google или личный веб-сайт, вы можете запросить, чтобы Google «просканировал» ваш сайт.

Сканирование — это программный процесс, который делает полный снимок всего содержимого определенной веб-страницы. Этот снимок используется поисковыми системами для направления пользователей на ваш сайт. Это означает, что если вы внесли значительные изменения в свой веб-сайт, но Google еще не собрал самый последний снимок, люди не будут перенаправлены на ваш новый контент.

Повторное сканирование — это автоматизированный процесс, но вы также можете попросить компанию переиндексировать ваш сайт. Есть два способа попросить Google повторно просканировать ваш сайт. Этот процесс может занять до нескольких недель без существенной разницы в продолжительности каждого метода.Отправка нескольких запросов также не ускорит повторную индексацию вашего сайта.

После отправки запроса Google предлагает отслеживать ход сканирования с помощью отчета об индексировании или инструмента проверки URL. Инструмент проверки URL-адресов рекомендуется пользователям Сайтов Google и тем, кто хочет, чтобы Google сканировал несколько отдельных URL-адресов. Если у вас больше URL-адресов, отправьте вместо этого карту сайта.

Если вам нужно, чтобы Google сканировал ваш обновленный сайт, вот как это сделать.

Как заставить Google сканировать ваш сайт

1. Откройте консоль поиска Google.

2. Введите URL-адрес вашего сайта Google в поле «Префикс URL».

Используйте опцию префикса URL, чтобы Google проверил, где находится ваш сайт.Вивиан МакКолл / Business Insider

3. Подтвердите право собственности на сайт для Google одним из следующих способов:

  • HTML-файл
  • HTML-тег
  • Google Analytics
  • Диспетчер тегов Google
  • Провайдер доменного имени

Примечание: Вы не можете добавлять метатеги или HTML-файлы на новые сайты Google, поэтому мы предлагаем создать учетную запись Google Analytics для относительно быстрого и легкого процесса проверки.

4. После завершения выбранного вами процесса консоль поиска Google должна подтвердить, что ваш сайт был автоматически подтвержден.

5. В окне подтверждающего сообщения нажмите «Перейти к ресурсу».

6. Выберите инструмент «Инспектор URL-адресов» в левом столбце.

7. Скопируйте и вставьте URL-адрес своего сайта в поле поиска инструмента вверху страницы.

Панель поиска автоматически появится вверху страницы инспектора URL-адресов.Вивиан МакКолл / Business Insider

8. После завершения процесса поиска нажмите «Проверить действующий URL» в верхнем левом углу панели управления.

Это шаг, прежде чем вы сможете запросить у Google индексирование вашего сайта.Вивиан МакКолл / Business Insider

9. Выберите «Запросить индексирование».

.