Рубрики
Без рубрики

10 советов, чтобы избежать заблокированного во время соскрытия веб-сайтов

Скрепление данных – это то, что должно быть сделано вполне ответственно. Вы должны быть очень осторожны в … Теги с базой данных, безвесочны, соскабливанием, Python.

Скрепление данных – это то, что должно быть сделано вполне ответственно. Вы должны быть очень осторожны по поводу веб-сайта, который вы соскабливаете. У него могут быть негативные эффекты на сайте. На рынке есть бесплатные веб-скребки, которые могут плавно просматривать любой веб-сайт без заблокированного. Многие веб-сайты в Интернете не имеют анти-соскобного механизма, но некоторые веб-сайты делают блок скребки, потому что они не верят в открытый доступ к данным. Одна вещь, которую вы должны иметь в виду, – это быть приятной и следить за соскребными политиками сайта, но если вы создаете веб-скребки для вашего проекта или компании, вы должны следовать этим 10 советам, прежде чем даже запустить любой веб-сайт.

  1. Robots.txt Прежде всего, вы должны понимать, что такое файл Robots.txt и какова его функциональность. Таким образом, в основном он рассказывает поисковые программы, которые страницы или файлы могут или не могут запросить с вашего сайта. Это используется в основном, чтобы избежать перегрузки любого сайта с запросами. Этот файл предоставляет стандартные правила о соскании. Многие веб-сайты позволяют Google позволить им соскрести свои веб-сайты. Можно найти файл Robots.txt на веб-сайтах – http://example.com/robots.txt. . Иногда у некоторых веб-сайтов есть пользовательский агент: * или запретить:/в их файле Robots.txt, что означает, что они не хотят, чтобы вы соскресли свои веб-сайты. В основном противоскользящий механизм работает в фундаментальном правиле: это бот или человек? Для анализа этого правила он должен следовать определенным критериям, чтобы принять решение. Очки, упомянутые анти-соскобным механизмом: Если вы соскабливаете страницы быстрее, чем человеком, возможно, вы попадете в категорию под названием «Bots». После того же образца при сострании. Как например, вы проходите через каждую страницу этого целевого домена только для сбора изображений или ссылок. Если вы соскабливаетесь с использованием одного и того же IP в течение определенного периода времени. Агент пользователя отсутствует. Может быть, вы используете безголовый браузер, как браузер TOR Если вы удерживаете эти точки в виду, соскребая веб-сайт, я уверен, что вы сможете скрепить любой веб-сайт в Интернете.

  2. Вращение IP Это самый простой способ для противоскользящих механизмов, чтобы поймать вас с красными руками. Если вы продолжаете использовать тот же IP для каждого запроса, который вы будете заблокированы. Таким образом, для каждого успешного запроса скрепления вы должны использовать новый IP для каждого запроса. У вас должен быть пул не менее 10 IPS, прежде чем сделать HTTP-запрос. Чтобы избежать заблокированного, вы можете использовать службы вращения прокси, такие как ScrapingDog или любые другие прокси-услуги. Я помещаю небольшой фрагмент кода Python, который можно использовать для создания пула нового IP-адреса, прежде чем сделать запрос.

Это обеспечит вам ответ JSON с тремя свойствами, которые являются IP, порт и страной. Этот прокси API предоставит IPS в соответствии с кодом страны. Вы можете найти код страны здесь. Но для веб-сайтов, которые имеют расширенный механизм обнаружения бота, вы должны использовать мобильные или жилые прокси. Вы можете снова использовать ScrapingDog для таких услуг. Количество IPS в мире исправлено. Используя эти услуги, вы получите доступ к миллионам IPS, которые могут быть использованы для скрепления миллионов страниц. Это самое лучшее, что вы можете сделать, чтобы успешно соскрести в течение более длительного периода времени.

  1. Пользовательский агент Заголовок запроса пользовательского агента – это строка символов, которая позволяет серверам и нотам Network определить приложение, операционную систему, поставщику и/или версию запросного пользовательского агента. Некоторые веб-сайты блокируют определенные запросы, если они содержат пользовательский агент, который не принадлежит к основным браузере. Если агенты пользователей не установлены, многие веб-сайты не позволят просматривать их контент. Вы можете получить свой пользовательский агент, набрав, что такое мой пользовательский агент в Google. Вы также можете проверить свою пользовательскую строку здесь: http://www.whatsmyuseragent.com/ Несколько ту же методика используется анти-соскобным механизмом, который они используют при запрете IPS. Если вы используете тот же пользовательский агент для каждого запроса, вы будете запрещены в кратчайшие сроки. Каково решение? Ну, решение довольно простое, вы должны либо создать список пользователей или, возможно, использовать библиотеки, такие как поддельные пользователи. Я использовал обе методы, но для целей эффективности, я призываю вас использовать библиотеку. Строка пользовательского агента, списка для запуска, можно найти здесь: http://www.useragentstring.com/pages/useragentstring.php https://developers.whatismybrowser.com/useragents/explore/

  2. Сделайте соскабливание медленнее, сохраните случайные интервалы между Как вы знаете, скорость ползающих веб-сайтов людьми и ботами очень отличается. Боты могут просматривать веб-сайты в очень быстром темпе. Сделать быстрые ненужные или случайные запросы на веб-сайт не для всех. Благодаря этой перегрузке запросов на сайт может снижаться. Чтобы избежать этой ошибки, сделайте свой бот в программном стиле между процессами соска. Это заставит ваш бот выглядеть более человеком для механизма против соска. Это также не повредит веб-сайту. Скрепите наименьшее количество страниц за раз, делая одновременные запросы. Положите тайм-аут от 10 до 20 секунд, а затем продолжайте соскоб. Как я уже сказал ранее уважаю файл Robots.txt. Используйте автоматические механизмы дросселирования, которые автоматически включают скорость вспышки на основе нагрузки как на пауке, так и на веб-сайте, который вы ползаете. Отрегулируйте паук на оптимальную вспышку после нескольких пробных испытаний. Делайте это периодически, потому что окружающая среда со временем меняется.

  3. Изменение в стиральном рисунке и обнаружение изменить сайт Как правило, люди не выполняют повторяющиеся задачи, поскольку они просматривают сайт со случайными действиями. Но веб-соскажание боты будут ползти в том же образце, потому что они запрограммированы, чтобы сделать это. Как я уже говорил ранее, некоторые веб-сайты имеют отличные противоскользящие механизмы. Они поймают ваш бот и будут запрещать его навсегда. Теперь, как вы можете защитить свой бот от того, чтобы быть пойманным? Это может быть достигнуто путем включения некоторых случайных щелчков на страницу, движения мыши и случайных действий, которые сделают паук, как человек. Теперь еще одна проблема – многие веб-сайты меняют свои макеты по многим причинам, и из-за этого ваш скребок не сможет принести данные, которые вы ожидаете. Для этого у вас должна быть идеальная система мониторинга, которая обнаруживает изменения в их макетах, а затем предупреждает вас с сценарием. Тогда эта информация может использоваться в вашем скребке, чтобы работать соответственно. Один из моих друзей работает в большом интернет-туристическом агентстве, и они ползут в Интернете, чтобы получить цены на их конкуренты. Поэтому у них есть система мониторинга, которая отправляет их каждые 15 минут о состоянии их макетов. Это держит все на пути, и их скребок никогда не нарушается.

  4. Заголовки Когда вы делаете запрос на сайт из вашего браузера, он отправляет список заголовков. Использование заголовков, веб-сайт анализирует о вашей личности. Чтобы ваш скребок выглядел более человеком, вы можете использовать эти заголовки. Просто скопируйте их и вставьте их в свой объект заголовка внутри вашего кода. Это сделает ваш запрос похоже, что это приходит из настоящего браузера. Кроме того, использование IP и вращения пользовательского агента сделают ваш скребок неручимым. Вы можете Scrape любой веб-сайт, является ли он динамичным или статическим. Я почти уверен, что используете эти методы, которые вы сможете побить 99,99% противоскользящих механизмов. Сейчас есть заголовок «Репортаж». Это заголовок HTTP-запроса, который позволяет сайту знать, из какого вами сайта вы получаете. Как правило, это хорошая идея, чтобы настроить это так, чтобы она выглядела так, будто вы поступаете из Google, вы можете сделать это с заголовком: «Резервью»: « https://www.google.com/» Вы можете заменить его на https://www.google.co.uk или Google.in Если вы пытаетесь пролить сайты на базе в Великобритании или Индии. Это сделает ваш запрос более подлинным и органическим. Вы также можете посмотреть самые распространенные рефереры на любой сайт, используя инструмент, похожий на https://www.similarweb.com. Часто это будет сайте социальных сетей, как YouTube или Facebook.

  5. Безголовый браузер Сайты отображают свой контент на основе которого вы используете браузер. Некоторые отображаются по-разному на разных браузерах. Давайте возьмем пример поиска Google. Если браузер (идентифицированный пользовательским агентом), имеет расширенные возможности, сайт может представить «богаче» содержимого – что-то более динамичное и стиль, которое может иметь тяжелую зависимость от JavaScript и CSS. Проблема с этим заключается в том, что при выполнении какого-либо веб-соскабливания содержимое отображается кодом JS, а не Raw HTML-ответ на сервер доставляет. Чтобы соскрести эти веб-сайты, вам может потребоваться развернуть свой собственный браузер без головы (или иметь ScrapingDog Сделай это для тебя!). Браузеры автоматизации, такие как Selenium или CUCPETEER, предоставляют API для управления браузерами и Scrape динамические веб-сайты. Должен сказать, что многие усилия идут за создание этих браузеров неосторожны. Но его самый эффективный способ соскрести на сайт. Вы даже можете использовать некоторые услуги в браузере, чтобы открыть экземпляр браузера на своих серверах, а не увеличивая нагрузку на ваш сервер. Вы можете даже открыть более 100 экземпляров одновременно на своих услугах. Итак, все и все это благотворительное для соскобной промышленности.

  6. Служба для решения CAPTCHA Многие веб-сайты используют recaptcha из Google, который позволяет пройти тест. Если тест проходит успешно в течение определенного периода времени, то он считает, что вы не бот, а настоящий человек. F Вы соскабливаете веб-сайт в большом масштабе, веб-сайт в конечном итоге заблокирует вас. Вы начнете видеть страницы CAPTCHA вместо веб-страниц. Есть услуги, чтобы пройти последние ограничения, такие как ScrapingDog , 2CAPTCHA или ANTICAPTCHA. Обратите внимание, что некоторые из этих услуг для решения CAPTCHA – это довольно медленные и дорогие, поэтому вам может потребоваться рассмотреть вопрос о том, все еще экономически жизнеспособны, чтобы скорректировать сайты, которые требуют непрерывного решения CAPTCHA со временем.

  7. Ловушки на хонепоре Есть невидимые ссылки для обнаружения взлома или веб-соска. На самом деле это приложение, которое имитирует поведение реальной системы. Определенные веб-сайты установили в своих системе, которые невидимыся обычным пользователем, но можно увидеть ботами или веб-скрещими. Вам необходимо выяснить, имеет ли ссылку «дисплей: none» или «видимость: скрытые» набор свойств CSS, и если они избегают по этой ссылке, в противном случае сайт сможет правильно идентифицировать вас в качестве программного скребка, отпечатки пальцев Свойства ваших запросов и блокируют вас довольно легко. Honeypots являются одним из самых простых способов для Smart WebMasters для обнаружения ползунков, поэтому убедитесь, что вы выполняете эту проверку на каждой странице, которую вы просматриваете.

  8. Google Cache Теперь, когда-нибудь Google сохраняет кэшированную копию некоторых веб-сайтов. Таким образом, вместо того, чтобы сделать запрос на этот сайт, вы также можете сделать запрос на него кэшированную копию. Просто предшествуйте ” http://webcache.googleusercontent.com/search?q=cache:” до начала URL. Например, чтобы соскрести документацию ScrapingDog. Вы можете соскрести « http://webcache.googleusercontent.com/search?q=cache:http://www.scrapingdog.com/documentation” Отказ Но одна вещь, которую вы должны иметь в виду, это то, что эта методика должна использоваться для веб-сайтов, которые не имеют конфиденциальной информации, которая также продолжает меняться. Как например, LinkedIn рассказывает Google не кэшировать свои данные. Google также создает кэшированную копию веб-сайта в определенный интервал времени. Это также зависит от популярности сайта. Надеюсь, вы узнали новые советы с сосками, прочитав эту статью. Я должен напомнить вам, чтобы уважать файл Robots.txt. Кроме того, постарайтесь не делать большие запросы на меньшие сайты, потому что у них не может быть бюджета, что имеют крупные предприятия. Не стесняйтесь комментировать и спросите меня что-нибудь. Вы можете следовать за мной на Twitter и Medium. Спасибо за чтение и пожалуйста, нажмите кнопку «Нравится»! 👍.

Дополнительные ресурсы И есть список! На данный момент вы должны чувствовать себя комфортно, написав свой первый веб-скребок, чтобы собрать данные с любого веб-сайта. Вот несколько дополнительных ресурсов, которые вы можете найти полезным во время вашего веб-путешествия Scraping:

Список веб-сервисы Scraping Proxy Web Scraping Tool Документация BeautifulSoup ScrapingDog Документация Руководство к Интернету соскоб

Оригинал: “https://dev.to/scrapingdog/10-tips-to-avoid-getting-blocked-while-scraping-websites-ncf”