Это обзор сообщения в блоге, который я недавно писал о том, как вырезать веб -страницы, используя Python BeautifulSoup и запрашивает библиотеки.
Что такое сеть:
В Интернете – это процесс автоматической извлечения информации с веб -сайта. Скрепинг веб -сайта или соскоб данных полезен для исследователей, маркетологов и аналитиков, заинтересованных в компиляции, фильтрации и переупаковки данных.
Слово осторожности: всегда уважайте политику конфиденциальности веб -сайта и проверяйте robots.txt, прежде чем очистить. Если веб -сайт предлагает API взаимодействовать со своими данными, лучше использовать это вместо очистки.
Счетчика в Интернете с Python и Beautifulsoup:
Скраинг в Python – это бриз. Есть количество способов получить доступ к веб -странице и отказаться от его данных. Я использовал Python и BeautifulSoup для этой цели.
В этом примере я скрещивал данные футболиста колледжа с сайта ESPN.
Процесс:
- Установить запросы и библиотеки Beautifulsoup
- Принесите веб -страницу и храните ее в объекте BeautifulSoup.
- Установите анализатор, чтобы проанализировать HTML на веб -странице. Я использовал по умолчанию html.parser
- Извлеките имя игрока, школу, город, игровое положение и класс.
- Добавил данные в список, который будет записан в файл CSV на более позднем этапе.
Код:
Подробный пост в блоге доступен здесь.
Оригинал: “https://dev.to/kashaziz/web-scraping-with-python-beautifulsoup-and-requests-2n71”