Интернет с помощью Python BeautifulSoup и запросов

Это обзор сообщения в блоге, который я недавно писал о том, как вырезать веб -страницы, используя Python BeautifulSoup и запрашивает библиотеки.

Что такое сеть:

В Интернете – это процесс автоматической извлечения информации с веб -сайта. Скрепинг веб -сайта или соскоб данных полезен для исследователей, маркетологов и аналитиков, заинтересованных в компиляции, фильтрации и переупаковки данных.

Слово осторожности: всегда уважайте политику конфиденциальности веб -сайта и проверяйте robots.txt, прежде чем очистить. Если веб -сайт предлагает API взаимодействовать со своими данными, лучше использовать это вместо очистки.

Счетчика в Интернете с Python и Beautifulsoup:

Скраинг в Python – это бриз. Есть количество способов получить доступ к веб -странице и отказаться от его данных. Я использовал Python и BeautifulSoup для этой цели.

В этом примере я скрещивал данные футболиста колледжа с сайта ESPN.

Процесс:

Установить запросы и библиотеки Beautifulsoup
Принесите веб -страницу и храните ее в объекте BeautifulSoup.
Установите анализатор, чтобы проанализировать HTML на веб -странице. Я использовал по умолчанию html.parser
Извлеките имя игрока, школу, город, игровое положение и класс.
Добавил данные в список, который будет записан в файл CSV на более позднем этапе.

Код:

Подробный пост в блоге доступен здесь.

Оригинал: “https://dev.to/kashaziz/web-scraping-with-python-beautifulsoup-and-requests-2n71”

Что такое сеть:

Счетчика в Интернете с Python и Beautifulsoup:

Процесс:

Код:

Читайте ещё по теме: