1) Создайте виртуальную среду Python
C:\Users\Owner> cd desktop C:\Users\Owner\desktop> py -m venv scrap C:\Users\Owner\desktop> cd scrap C:\Users\Owner\desktop\scrap> Scripts\activate (scrap)C:\Users\Owner\desktop\scrap>
2) Установите сценарию
(scrap)C:\Users\Owner\desktop\scrap>pip install scrapy
3) Создать сцепное проект
scrapy startproject myproject
4) Создать базовый паук Создайте файл с именем Spider1.py в папке MyProjects> Spiders. Добавьте подкласс, имя, start_urls и получите весь текст в .readmore
ярлык.
import scrapy class ReviewSpider(scrapy.Spider): name = "quicken" start_urls = [ "https://www.creditkarma.com/reviews/mortgage/single/id/quicken-loans-mortgage/", ] def parse(self, response): reviews = response.css('.readmoreInner p::text').getall() yield {"text" : reviews}
5) Запустите паук
(scrap) C:\Users\Owner\Desktop\code\scrap\myproject\myproject\spiders>scrapy crawl quicken
6) сохранить данные
(scrap) C:\Users\Owner\Desktop\code\scrap\myproject\myproject\spiders>scrapy crawl quicken -o reviews.json
Руководство для начинающих к Scrapy для Python
Оригинал: “https://dev.to/ordinarycoders/how-to-scrape-websites-using-python-28pp”