Bing Web Scraping (7 серии деталей)
Содержание: вступление, импорт, то, что будет скранировано, процесс, код, ссылки, outro.
вступление
Этот пост в блоге является продолжением сериала Bing’s Web Scraping. Здесь будет показано, как соскрести связанные вопросы из результатов поиска Bing с использованием Python.
Импорт
from bs4 import BeautifulSoup import requests import lxml from serpapi import GoogleSearch import os # for creating environment variable
Что будет соскреблено
Процесс
Все ниже было сделано с помощью Selectorgadget Расширение хрома.
Выбор контейнера CSS
Селектор с необходимыми данными
Выбор вопроса CSS
селектор
Выбор фрагмента CSS
селектор
Выбор заголовка CSS
селектор
Выбор титула URL CSS
селектор
Выбор отображаемого URL CSS
селектор
Код
from bs4 import BeautifulSoup import requests, lxml headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582" } html = requests.get('https://www.bing.com/search?q=lion king&hl=en', headers=headers) soup = BeautifulSoup(html.content, 'lxml') for related_question in soup.select('#relatedQnAListDisplay .df_topAlAs'): question = related_question.select_one('.b_1linetrunc').text snippet = related_question.select_one('.rwrl_padref').text title = related_question.select_one('#relatedQnAListDisplay .b_algo p').text link = related_question.select_one('#relatedQnAListDisplay .b_algo a')['href'] displayed_link = related_question.select_one('#relatedQnAListDisplay cite').text print(f'{question}\n{snippet}\n{title}\n{link}\n{displayed_link}\n') # part of the output: ''' What kind of game is The Lion King? Jump on top of giraffe's head and eat bugs in this awesome classic platformer game. The Lion King is a classic 1994 platformer video game based on the multi-award winning animated film of the same name. The game takes place after the death of Simba's father where Simba was told a lie and forced to hide. The Lion King - Play Game Online - ArcadeSpot.com https://arcadespot.com/game/the-lion-king/ arcadespot.com/game/the-lion-king/ '''
Использование вопросов, связанных с Bing, API
Serpapi – это платный API с бесплатным испытанием 5000 обысков.
from serpapi import GoogleSearch params = { "api_key": "YOUR_API_KEY", "engine": "bing", "q": "lion king" } search = GoogleSearch(params) results = search.get_dict() for result in results['related_questions']: question = result['question'] snippet = result['snippet'] title = result['title'] link = result['link'] displayed_link = result['displayed_link'] print(f'{question}\n{title}\n{link}\n{displayed_link}\n{snippet}\n') # part of the output: ''' Is the Lion King a circle of life? Disney THE LION KING | Award-Winning Best Musical https://www.lionking.com/ www.lionking.com/ Circle of Life in 360 - Experience THE LION KING like never before - WATCH IT NOW Quite Simply, Stunning. -TimeOut New York A Deeply Felt Celebration of Life. '''
Ссылки
Код в онлайн -IDE • Bing, связанные с вопросами API
Опередить
Если у вас есть какие -либо вопросы или что -то не работает правильно или вы хотите написать что -нибудь еще, не стесняйтесь бросить комментарий в разделе комментариев или через Twitter в @serp_api Анкет
Ваш, Dimitry и остальная часть команды Serpapi.
Bing Web Scraping (7 серии деталей)
Оригинал: “https://dev.to/dimitryzub/scrape-bing-related-questions-using-python-2jk”