Обо мне
Я инженер-механик, увлеченный данными, машинным обучением, наукой о данных, искусственным интеллектом, визуализацией данных.
Проблема, которую я хотел решить
Эта модель была построена для того, чтобы решить проблему при определении действительно хорошей (или даже безопасной) модели франшизы для инвестирования.
Что такое проект веб-очистки для машинного обучения и визуализации данных?
- Я создал проект веб-скребка для машинного обучения и визуализации данных, поэтому в основном я сделал веб-скребок на веб-сайте франшизы.
- Затем я применил машинное обучение, чтобы проверить, в какую модель франшизы стоит инвестировать.
- Поэтому, наконец, я сделал визуализацию данных в power bi, чтобы проанализировать все в диаграммах.
Технический стек
Python: отличный инструмент для многих вещей, таких как веб-скребок, построение моделей машинного обучения и т. Д.
HTML/CSS: Трудно сделать глубокий веб-скребок, не имея знаний в обоих.
Power BI: В настоящее время лучшее программное обеспечение для визуализации данных на рынке.
Процесс создания проекта веб-скребка для машинного обучения и визуализации данных
Это может показаться глупым вопросом, хотя у нас есть много применений для веб-скребка, поэтому я разберусь по пунктам:
Компания или личные интересы.
МЛ
БИ
Компания: Этот первый пункт, очевидно, слишком общий, но давайте сделаем упражнение на воображение. Что делать, если бы у каждой компании была возможность правильно собирать тонны данных из Интернета, например: компания электронной коммерции точно знает, как работает система amazon, это, безусловно, будет большим преимуществом перед ее конкурентами, конечно, это зависит от сектора, в котором работает компания.
Личный интерес: Представьте, что вы хотите купить дешевый авиабилет в Лондон, как узнать лучшую цену, в какой день или час он будет доступен для продажи?
Определив цель/компанию/веб-сайт, вы можете построить свою модель на основе полученных данных и ответов, а также открыть мир ML.
Зачем использовать BI-Business Intelligence после всей работы по очистке, созданию модели ML (или даже запуску ее в производство) и доработке модели? В большинстве случаев, конечно, если это не личный проект, вам придется показать, что вы сделали своему боссу или тому, кого вы пытаетесь убедить, что ваша модель или идея хороши. Итак, здесь у нас есть несколько хороших вариантов визуализации данных, таких как power bi, looker, tableau и т. Д. Я рекомендую power bi, так как у него больше всего призов в соревнованиях “data viz”.
Проблемы, с которыми я столкнулся
сайты часто имеют плохую конструкцию и структуру html, потому что они обычно не планируются, строительство происходит с необходимостью (как и города). Так много тегов, классов и т. Д. Управляются плохо, поэтому при веб-очистке этих тегов, классов или чего-либо внутри HTML вы столкнетесь с множеством проблем.
Например, веб-сайт с определенным продуктом может содержать четыре данные, например: 1 ) Цена 2) Запас 3) Цвет 4) Отзывы
Если тег запаса не заполнен, иногда у вас может быть вывод “нет в наличии”, но иногда у вас может быть “Нет”, потому что нет ничего похожего на продукт, который никогда не существовал (только для целей html). Нет для тегов, вызывающих ошибки в фреймворках, и это только первый шаг сложности.
Во всяком случае, в этом случае вы можете решить с помощью Try/Except в python.
Основные уроки
Веб-скребок очень полезен для роста компаний, любой, кто использует его разумно, безусловно, может иметь большие преимущества перед конкурентами, но его можно использовать и по личным причинам, например, просто купить самый дешевый билет на самолет.
Советы и рекомендации
Если вы начинаете с веб-скребка, машинного обучения или визуализации данных, я рекомендую сначала попробовать изучить python или power bi, а затем перейти к моделям веб-скребка/ML.
Потому что при веб-скребке вам требуется, по крайней мере, среднее знание python.
Заключительные мысли и следующие шаги
Первая часть этого проекта-очистка веб-страниц. Второй – машинное обучение, и, наконец, третий – визуализация с помощью power bi.
Так что я продолжу заниматься этим проектом.