Автор оригинала: rashi07-hub.
Здравствуйте, Dev Masters Как вы дадите добро пожаловать здесь с другим разделом веб-соскабливания здесь, у меня есть или уже заполняют 3 раздела здесь, и давайте наслаждаться этим 4-м.
2.Scrapy Framework
Скапись на первый взгляд!
SCRAPY – это Web Scraping Framework of Python. Scrapy лучше всего наилучшего, если вам нужно построить веб-скандров для больших потребностей в Интернете. Scrapy использует пауки, которые являются самоуверенные сотрясения, которые дают полный набор инструкций. В Scrapy гораздо проще построить и масштабировать большие ползучие проекты, позволяя разработчикам повторно использовать свои коды. Scrapy также предоставляет веб-вспущенную оболочку, известную как «Scraphy Shell», что разработчик может использовать для проверки всех предположений на поведении веб-сайта.
Прежде всего, вам нужно установить следующие пакеты, которые я привел.
Я бы предложил вам использовать платформу Linux вместо других, и я также объясню вас о Webdriver Selenium.
Запустите эти команды на свой терминал.
Для установки SCRAPY SUDO APT Установите Python-Scrapy.
Чтобы установить PUP Sudo APT-Get Update Update && Sudo APT-Get Установите Python-Pip.
Чтобы установить Selenium Sudo PIP Установить Selenium.
Чтобы установить Chrome Webdriver.
$ sudo apt-get install chromium-chromedriver
$ sudo ln -s/usr/lib/chromium-browser/chromedriver/usr/bin/chromedriver
$ sudo apt-get install libxi6 libgconf-2-4
Теперь вам нужно сделать: –
- Создание нового сцепного проекта.
- Напишите паук, чтобы сканировать сайт и извлечь данные.
- Экспорт соскобных данных с использованием командной строки.
Чтобы создать свой первый проект Откройте терминал и измените каталог, в котором вы установили SCRAPY, а затем запустите следующую команду >>> Scrapy StartProject Project_name
Это создаст каталог, который выглядит так:
название проекта/
Scrapy.cfg # Развернуть файл конфигурации Project_name/# модуль Python Phython Вы импортируете свой код отсюда в этом .py items.py # Предметы проекта Файл определения Middlewares.py # Проект File Hedimwares Pipelines.py # Проектные трубопроводы Файл settings.py # Настройки проекта Файл пауки/# каталог, где вы позже позже поставьте Ваши пауки в этом .py
Написание нашего первого паука
Все пауки в SCRAPY – это не что иное, как классы Python, что SCRAPY использует, чтобы получить всю информацию с веб-сайта. Все классы (пауки) должны наследовать с помощью сцепной. Паук и определите первоначальный запрос, чтобы сделать. Это означает, как следует следовать ссылкам на страницах, как получить данные с PARSED страниц, как разбирать данные и т. Д. Надеюсь, вам будет понятно, если не просто предположим, что это класс, в котором мы делаем разные функции, и каждая функция используется для анализа URL-адресов.
Теперь мы будем кодировать наш первый паук. Сохраните его в файле с именем test.py или вы можете назвать его что-нибудь с помощью .py Dicreend в каталоге Project_Name/Spiders в вашем проекте:
Спасибо за чтение этой надежды, вам понравится, я продолжу эту серию здесь, удачи всем.
Оригинал: “https://dev.to/rashi07hub/web-scrapping-part-4-professionally-1262”