Обо мне
Я профессиональный разработчик Python в W3sols Кто построил сложные скребники данных, Python Backends для мобильных и веб-приложений. Я работаю над технологией AI и ML Tech в наши дни и планирую прогрессировать свою карьеру как профессиональный инженер AI и ML.
Проблема, которую я хотел решить
Я создал этот скрипт соскабливания данных для одного из моих клиентов, которые хотели автоматизировать процесс сбора и анализа данных ставок на ставки и анализа, в противном случае клиент будет выполнять его вручную, проверяя на разных веб-сайтах, а затем вкладывая данные в Excel для анализа. Мне было поручено сделать это в Python3. Будучи веб-разработчиком и работающим в основном на Frontend Technologies, таких как JavaScript и HTML, CSS, я был новым в Python. Я должен был узнать это, а также реализовать сценарий скребка для клиента.
Что такое сценарий соскабливания данных в Python3?
Сценарий соскабливания данных в основном тянет данные, которые есть на веб-странице. Как мы все знаем, что данные – это новое «нефть», каждый находится в гонке, чтобы владеть большим количеством данных в их соответствующих отраслях, а Интернет – это сокровище данных. Имеет виды данных, но обычно неструктурированы. В сбоях данных мы стараемся вытащить это неструктурированные данные с веб-сайтов и структуру, что данные для будущего исследования и анализа.
Tech Stack.
Для этого данного Scraping веб-приложение я использовал:
- Python 3 для Backend Scripting и его библиотек, таких как (BeautifulSoup4, запросы, панды)
- Django для создания API
- Угловые 8 для разработки интерфейса
Процесс стирального скрипта данных построения данных в Python3
Веб-сайты, которые я соскаблинул, были известные сайты для спортивных ставок и большая задача была структурой каждого сайта. Все сайты имели другую структуру. Я просматривал 2 веб-сайта, и у обоих была другая структура. Мне потребовалось когда-нибудь, чтобы проанализировать структуру каждого сайта и понять, как данные были заполнены на любой веб-странице.
После того, как я решил, что следующая задача была обходной логин на каждом веб-сайте. Обе сайты сделали данные доступными только после входа в систему и что, если этот логин выполнен с браузером, а не соскобным ботом 😅 и к моему удивлению было так легко с Python3 только 6 строк кода и сделано только 6 линий кода.
Далее была задача потянуть данные, и это было легко с помощью BrasineSoup4 и запрашивает библиотеку, доступную в Python3.
Теперь у меня был скрипт Scraping данных, еще одна задача состояла в том, чтобы сохранить данные в MongoDB и к моему удивлению, эта база данных NoSQL очень проста в использовании 😄.
Данные сохранены !!!!! Время для анализа данных. Мой клиент предоставил некоторые формулы для расчета различных вероятностей и о том, как преобразовать данные шансов из европейского в американскую форму. Используемые эти формулы и созданные API, которые можно назвать от Frontend, чтобы заполнить приборную панель.
БАМ !!!! 🤩 Почти закончился !!!!!
Сейчас это было время для какой-то фасады. Я использовал угловую 8, чтобы создать приборную панель, которая называла API от Backend и заполняет данные на приборной панели.
ЭТО ОНО !!!!! 😄.
Вся работа автоматизирована!
Проблемы я столкнулся
Несмотря на то, что у меня был опыт работы на разных языках программирования, такими как JavaScript, Swift 4, Nodejs и т. Д. Но всякий раз, когда вы за что-то новое и большое, есть некоторые проблемы, которые можно столкнуться с.
В целом процесс я столкнулся с проблемой понимания того, как настроить правильную среду для работы в этом веб-приложении, но в конце концов все набор и закончен 👍🏻
Назначение ключей
Я выучил целый новый технологический стек во всем этом процессе:
- Python3.
- Django
- Монгодб
- Угловой 8.
И, конечно же, искусство скрепления данных !!!!
Советы и советы
Для тех, кто хочет понять, какие данные соскабливают и как эффективно сделать это в Python3, я бы посоветовал начать с базового соскабливания, такими как Scrape Wikipedia URL-адреса и начните легко с BowowsSoup4 и запрашивать библиотеку.
Не прыгайте непосредственно к жесткой части, такой как соскреб, используя фреймворки, такие как сценария, селен и т. Д.
Окончательные мысли и следующие шаги
Конечные мысли: делайте вещи самостоятельно. Он понадобится время и исследования, и большинство всех усилий, но в конце концов, вы в конечном итоге узнаете что-то новое, что вы можете чувствовать гордость !!!! 😄.