Рубрики
Без рубрики

Интернет с помощью Python BeautifulSoup и запросов

В Интернете скрещивание с Python, BeautifulSoup и запрашивает библиотеки. С тегом Python, BeautifulSoup, запросов, паутины.

Это обзор сообщения в блоге, который я недавно писал о том, как вырезать веб -страницы, используя Python BeautifulSoup и запрашивает библиотеки.

Что такое сеть:

В Интернете – это процесс автоматической извлечения информации с веб -сайта. Скрепинг веб -сайта или соскоб данных полезен для исследователей, маркетологов и аналитиков, заинтересованных в компиляции, фильтрации и переупаковки данных.

Слово осторожности: всегда уважайте политику конфиденциальности веб -сайта и проверяйте robots.txt, прежде чем очистить. Если веб -сайт предлагает API взаимодействовать со своими данными, лучше использовать это вместо очистки.

Счетчика в Интернете с Python и Beautifulsoup:

Скраинг в Python – это бриз. Есть количество способов получить доступ к веб -странице и отказаться от его данных. Я использовал Python и BeautifulSoup для этой цели.

В этом примере я скрещивал данные футболиста колледжа с сайта ESPN.

Процесс:

  • Установить запросы и библиотеки Beautifulsoup
  • Принесите веб -страницу и храните ее в объекте BeautifulSoup.
  • Установите анализатор, чтобы проанализировать HTML на веб -странице. Я использовал по умолчанию html.parser
  • Извлеките имя игрока, школу, город, игровое положение и класс.
  • Добавил данные в список, который будет записан в файл CSV на более позднем этапе.

Код:

Подробный пост в блоге доступен здесь.

Оригинал: “https://dev.to/kashaziz/web-scraping-with-python-beautifulsoup-and-requests-2n71”