Ух ты! Скачка содержимого Википедии с 10 линейкой кода!

« Хакеры любят использовать соскабливание для данных сбора урожая. ~ Ankit Dobhal » Оригинальный блог здесь -> блог

Добро пожаловать в мой блог

Здравствуйте, мой компьютер Geek Work !! Это блог о соскребении содержания Википедии с помощью Python & Bs4 (модуль Python), так Что именно Web Scraping & откуда приходит этот термин? Давайте попробуем понять !! Веб-соскоб -: Веб-соскребник – это процесс соскабливания данных, используемый для извлечения данных с веб-сайтов. Веб-соскоб может быть выполнен вручную пользователем программного обеспечения, термин обычно относится к автоматизированным процессам, реализованным с использованием бота или веб-сканера. Это приходит, когда родился World Wide Web. Большую часть времени поисковая система, такая как Google использует процесс ползания в результате поиска.

Скачка с Python -: Веб-соскоб и ползание можно сделать с помощью некоторых программных памятников, но в наши дни Python набирает свой попугарти в поле веб-соскоба и ползания, и, как мы все знаем, Python является одним из самых известных и мощных языков сценариев, как правило, для хакеров и кодеры раковины. У Python есть несколько удивительных и мощных модулей и библиотек, которые делают этот процесс соскабливания настолько легко и полезны, их два важных модуля в Python One – Запросы & другое – Beautifulsoup Отказ

У меня есть базовое понимание того, как сделать запрос на сайты, используя Python, поэтому, прежде всего, я открытую мой VSCode Редактор и создание имени файла как Wikipy.py .Потом Импорт Sys Библиотека ( Аргумент командной строки ), Запросы Библиотека ( Для загрузки и получения метода Wikipedia ), & моя любимая библиотека BeautifulSoup как BS4 ( Для извлечения контента от Wikipedia Page ). Теперь его время использовать метод получения, чтобы запросить данные с сервера Wikipedia, но ждать Я хочу создать поисковик Wikipedia, который будет соскрести данные в соответствии с аргументом моей командной строки. Итак, давайте создадим имя переменной как res Чтобы сохранить метод получения Wikipedia Search URL и добавьте его с аргументом моей командной строки. ПРИМЕЧАНИЕ. Я использую метод ROING_FOR_STATATUS () Если их представляет собой любой код ошибки и код состояния, поэтому этот метод будет поднять, что весь сценарий будет прекращаться. res Загрузите всю страницу, но она усложняется, чтобы извлечь данные со страницы Bacuase, она показывает данные HTML-формата, поэтому теперь настало время использовать Beautifulsoup Чтобы извлечь данные. Так что я создаю имя переменной как Вики Чтобы извлечь данные. Примечание. Как вы можете в вариабе Wiki, я использую красивую функцию супа с двумя параметрами, Так что же они именно? Давайте понять. RES.Text – это текстовый формат страницы, который загружается с помощью переменных RES и HTML.Parser – анализатор, который поможет мне структурировать данные в формат HTML.

Я хочу царапать контент метки p в соответствии с аргументом командной строки, поскольку весь текстовый контент страницы Wikipedia находится внутри метки P, вы можете проверить это с помощью инструментов разработчика Chrome & Firefox. Теперь я использую .Выберите () Функция, чтобы выбрать P TAG & для цикла, чтобы зацикливаться через него, затем, наконец, печатайте текстовые элементы внутри P-мега P TAGE STECTTETTEXT ().

Да, мы сделали это всего за 10 линий кода Bravo !!! Пришло время запустить скрипт с аргументом командной строки >>

Спасибо всем за посещение моего блога, вы также можете проверить мой подарок для сценария Wikipy Ссылка ниже !! Wiki.py Следуйте за мной на Github & Linkedlin для более захватывающих блогов и сценариев! Этот блог в основном цитируется из моего веб-сайта блога Посетите оригинальный блог-> https://ankitdobhal.github.io/posts/2019/10/Scraping%20Wikipedia%20With%20Python/

Оригинал: “https://dev.to/ankitdobhal/wow-scraping-wikipedia-content-with-10-line-of-code-327l”

Добро пожаловать в мой блог

Читайте ещё по теме: