Рубрики
Без рубрики

Как и почему я создал: Проект веб-очистки для машинного обучения и визуализации данных

Введение для начинающих – Веб-скребок для машинного обучения/BIG

Автор оригинала: Renan Catan.

Обо мне

Я инженер-механик, увлеченный данными, машинным обучением, наукой о данных, искусственным интеллектом, визуализацией данных.

Проблема, которую я хотел решить

Эта модель была построена для того, чтобы решить проблему при определении действительно хорошей (или даже безопасной) модели франшизы для инвестирования.

Что такое проект веб-очистки для машинного обучения и визуализации данных?

  1. Я создал проект веб-скребка для машинного обучения и визуализации данных, поэтому в основном я сделал веб-скребок на веб-сайте франшизы.
  2. Затем я применил машинное обучение, чтобы проверить, в какую модель франшизы стоит инвестировать.
  3. Поэтому, наконец, я сделал визуализацию данных в power bi, чтобы проанализировать все в диаграммах.

Технический стек

  1. Python: отличный инструмент для многих вещей, таких как веб-скребок, построение моделей машинного обучения и т. Д.

  2. HTML/CSS: Трудно сделать глубокий веб-скребок, не имея знаний в обоих.

  3. Power BI: В настоящее время лучшее программное обеспечение для визуализации данных на рынке.

Процесс создания проекта веб-скребка для машинного обучения и визуализации данных

Это может показаться глупым вопросом, хотя у нас есть много применений для веб-скребка, поэтому я разберусь по пунктам:

  1. Компания или личные интересы.

  2. МЛ

  3. БИ

  4. Компания: Этот первый пункт, очевидно, слишком общий, но давайте сделаем упражнение на воображение. Что делать, если бы у каждой компании была возможность правильно собирать тонны данных из Интернета, например: компания электронной коммерции точно знает, как работает система amazon, это, безусловно, будет большим преимуществом перед ее конкурентами, конечно, это зависит от сектора, в котором работает компания.

Личный интерес: Представьте, что вы хотите купить дешевый авиабилет в Лондон, как узнать лучшую цену, в какой день или час он будет доступен для продажи?

  1. Определив цель/компанию/веб-сайт, вы можете построить свою модель на основе полученных данных и ответов, а также открыть мир ML.

  2. Зачем использовать BI-Business Intelligence после всей работы по очистке, созданию модели ML (или даже запуску ее в производство) и доработке модели? В большинстве случаев, конечно, если это не личный проект, вам придется показать, что вы сделали своему боссу или тому, кого вы пытаетесь убедить, что ваша модель или идея хороши. Итак, здесь у нас есть несколько хороших вариантов визуализации данных, таких как power bi, looker, tableau и т. Д. Я рекомендую power bi, так как у него больше всего призов в соревнованиях “data viz”.

Проблемы, с которыми я столкнулся

сайты часто имеют плохую конструкцию и структуру html, потому что они обычно не планируются, строительство происходит с необходимостью (как и города). Так много тегов, классов и т. Д. Управляются плохо, поэтому при веб-очистке этих тегов, классов или чего-либо внутри HTML вы столкнетесь с множеством проблем.

Например, веб-сайт с определенным продуктом может содержать четыре данные, например: 1 ) Цена 2) Запас 3) Цвет 4) Отзывы

Если тег запаса не заполнен, иногда у вас может быть вывод “нет в наличии”, но иногда у вас может быть “Нет”, потому что нет ничего похожего на продукт, который никогда не существовал (только для целей html). Нет для тегов, вызывающих ошибки в фреймворках, и это только первый шаг сложности.

Во всяком случае, в этом случае вы можете решить с помощью Try/Except в python.

Основные уроки

Веб-скребок очень полезен для роста компаний, любой, кто использует его разумно, безусловно, может иметь большие преимущества перед конкурентами, но его можно использовать и по личным причинам, например, просто купить самый дешевый билет на самолет.

Советы и рекомендации

Если вы начинаете с веб-скребка, машинного обучения или визуализации данных, я рекомендую сначала попробовать изучить python или power bi, а затем перейти к моделям веб-скребка/ML.

Потому что при веб-скребке вам требуется, по крайней мере, среднее знание python.

Заключительные мысли и следующие шаги

Первая часть этого проекта-очистка веб-страниц. Второй – машинное обучение, и, наконец, третий – визуализация с помощью power bi.

Так что я продолжу заниматься этим проектом.