Рубрики
Без рубрики

Введение в сеть соскабливание с помощью Python

Содержание Что такое Python? Что такое веб-соскреб? В чем разница между … Tagged с Python, Web, Scraping, Script.

Оглавление

  • Что такое питон?
  • Что такое веб-соскреб?
  • В чем разница между «Web Scraping» и «Web Cloking»?
  • Что мне нужно сделать веб-соскабливание с Python?
  • Как мне это сделать сейчас!?

Что такое питон?

Таким образом, Python – это удивительный язык программирования. Некоторые характеристики языка:

  • Интерпретировать
  • Объектно-ориентированный
  • Высокий уровень
  • Динамическая семантика
  • Нет полумилонов

Python обычно используется для веб-соскабливания, искусственных интеллектуальных и научных проектов данных. Когда у вас есть время на практике этого языка программирования, вы будете экспериментировать приятное и радостное время, если вы не реализуете окончательный проект с 24 часами, чтобы закончить его. Вот ссылка на Официальная страница.

Что такое веб-соскреб?

Вы можете найти объяснение Википедии здесь. Но держать его короткой, это методика, используемая для извлечения информации с веб-страниц. У него есть другие имена, такие как: «Урожай веб-данных», «Добыча веб-данных».

В чем разница между «Web Scraping» и «Web Cloking»?

Некоторые люди относятся к этим двум терминам, как если бы они были равны, но есть пара различий. Web Scraping Обычно, когда вы принимаете одну страницу и ломаю информацию из нее. Веб ползет Является более сложным и сложным процессом, где вы идете на сайт и продвигаетесь через ссылки на этой странице, ползая в последствиях всех мест, которые пользователи могут пойти. Не стесняйтесь не согласны и пришлите мне комментарии.

Что мне нужно сделать веб-соскабливание с Python?

Прежде всего, нам нужно установить Python 3. Чтобы сделать этот первый шаг, у вас есть пара вариантов: – Перейти к Python.org и следуйте этим шагом. – Следуйте за Realpython.com Guide. Прохладный. Теперь, когда у вас установлено, нам нужно еще две вещи. Нам необходимо установить следующие две пакеты: Запросы и красивый суп. Чтобы установить их, вы можете запустить эти две команды:

  $ pip install requests
  $ pip install bs4

Как мне это сделать сейчас?

Отлично, теперь, когда вы завершили все предыдущие шаги, которые вы готовы начать хорошие вещи. Давайте создадим сценарий Python, который дает нам последний экзистенциальный комический текст ALT. Псевдо код будет идет что-то вроде этого:

  • Импортируйте библиотеки для выполнения запроса и анализа сайта.
  • Сделайте запрос на страницу.
  • Когда запрос был завершен.
  • Затем анализировать страницу HTML в чем-то, что мы можем легко использовать.
  • Найдите нужный HTML-элемент и храните его в переменной.
  • После этого мы распечатаем текст Alt в консоли.
  • ВЫПОЛНЕНО!!!
  import requests
  from bs4 import BeautifulSoup

  # I decided to put it in a method just to re-use it later
  def get_upcoming_questions( url ):
    # print('Starting the request')
    req = requests.get( url )
    # print('Request completed')
    soup = BeautifulSoup( req.text, 'html.parser' )
    questions_raw = soup.find( 'div')
    questions = questions_raw.find( 'img',{'class':'comicImg'} )
    print( questions['alt'] )
  example_url = 'http://existentialcomics.com/'
  get_upcoming_questions( example_url )

Почему мне это нужно?

Теперь каждый раз, когда вы слишком заняты, чтобы пойти и проверить удивительные комиксы из экзистенциальности, вы можете просто запустить новый сценарий, и вы получите ежедневную дозу философского юмора. Вы знаете, что вам нужно.

Оригинал: “https://dev.to/grekz/introduction-to-web-scraping-using-python-36g5”