Я люблю очищать данные.
Я могу написать сценарий, который через несколько секунд может извлечь данные с сайта, отфильтровать все теги HTML и JavaScript Mumbo Jumbo и выплюнуть точные данные, которые я хочу в красивом, полезном формате (предпочтительно JSON).
Без сетью, это займет у меня часы копирования и вставки.
Одна из разочаровывающей частью в сети состоит в том, что, как правило, владельцы сайтов не хотят, чтобы вы соскребали их сайт. Что совершенно справедливо.
Тем не менее, если вы все еще чертовски склонны к сети, вы можете использовать так называемый «прокси», чтобы скрыть свой IP -адрес.
Это заставляет веб -сайтов намного труднее остановить их соскребание.
Прокси работает путем туннелирования всех ваших запросов через отдельный сервер.
Для владельца сайта, похоже, это отдельный сервер, который делает запрос, и они есть. Но тогда они передают эту просьбу прямо вам, Sneaky!
Сегодня я собираюсь показать вам, как использовать любой коммерческий VPN (NORDVPN, ExpressVPN и т. Д.) С библиотекой запросов в Python для выравнивания вашей игры Web Scraping.
Во -первых, мы собираемся импортировать библиотеки, которые хотим использовать. В этом уроке мы просто собираемся использовать библиотеку запросов.
import requests
Использование прокси с библиотекой запросов выполняется со следующей структурой;
requests.get(url, proxies=proxy)
Вот и все. Как это чертовски легко!
Итак, что это за объект «прокси», который мы передали в функцию GET?
Прокси -объект представляет собой словарь, который отображает каждый протокол (HTTP, HTTPS, FTP и т. Д.) с конкретным прокси в следующем формате;
proxy = { 'http': "username:password@host", 'https': "username:password@host" }
Теперь нам просто нужно заполнить пробелы здесь. Я использую NORDVPN, но любая популярная служба VPN будет работать (ExpressVPN, Surfshark и т. Д.).
Ваше имя пользователя и пароль будут такими же, как и то, что вы используете для входа в свой VPN.
Обратите внимание на прокси -строку, символы: и @ используются для разделения имени пользователя, пароля и хоста. Если у вас есть эти символы в вашем имя пользователя или пароля, переводчик будет запутаться, а прокси не сработает.
По этой причине нам нужно кодировать наше имя пользователя и пароль, больше информации можно найти на этом Здесь Анкет Для справки, @ становится %40 и: становится % 3A.
Теперь нам просто нужно заполнить «хост» часть строки.
Навигация на веб -сайт поставщиков VPN, должен быть раздел, в котором перечислены все их серверы, с Nordvpn На домашней странице есть ссылка «серверов», которая дает вам всю необходимую информацию;
Используя приведенную выше информацию, хост, который мы собираемся использовать, это AU473.nordvpn.com
.
Так что наш полный прокси -объект становится;
proxy = { 'http': "tom%40gmail.com:password123@au473.nordvpn.com", 'https': "tom%40gmail.com:password123@au473.nordvpn.com" }
Это не мои настоящие детали входа, но вы это знали.
Собираем все это вместе, мы получаем;
import requests proxy = { 'http': "tom%40gmail.com:password123@au473.nordvpn.com", 'https': "tom%40gmail.com:password123@au473.nordvpn.com" } requests.get('https://google.com',proxies=proxy)
И это все! Теперь все запросы, которые вы делаете, будут выглядеть так, как будто они приезжают из Nordvpn, Cool Huh!
Нам удалось превратить любую службу VPN в прокси с несколькими короткими строками кода.
Надеюсь, вы узнали что -то новое сегодня:)
Если вы хотите быть еще более скрытным при соскобке в Интернете, я напишу больше статей здесь на тему, поэтому обязательно следуйте за мной, чтобы оставаться в курсе!
Оригинал: “https://dev.to/thughes24/how-to-turn-your-vpn-into-a-proxy-using-python-28ag”