Рубрики
Без рубрики

5 Идеи проекта данных по данным, чтобы поставить на ваше резюме

Фото Sigmund на Unsplash Все признаки указывают на благоприятное будущее для разработки данных. Ди … Помечено наукой данных, карьеры, начинающими, Python.

Фото Сигмунд на Бессмысленно

Все признаки указывают на благоприятное будущее для разработки данных.

Доклад о технологии Tech Dice 2020 года цитирует инжиниринг данных как самая быстрая растущая работа в 2020 году. Увеличение ошеломляющим 50%, в то время как научные роли данных увеличились только на 10%. Вы можете быть уверены, что наплыв датной инженерии не будет регрессировать в ближайшее время. Чтобы поддержать это предположение, международная группа данных (IDG) прогнозирует, что пятилетнее составное рост роста (CAGR) утилизации данных с 2021 до 2024 года перевешивает общее создание данных, охватывающую все последние тридцать лет. Да, вы слышали, что правильно, тридцать лет, датируются далеко от истоков как Facebook, YouTube и Amazon.

Источник

Если вы до сих пор не продан на перспективе разработки данных, давайте посмотрим на потенциал зарабатывания. По состоянию на 9 мая 2021 года, причем более восьми тысяч заработной платы, действительно указывает на то, что инженеры данных зарабатывают на 10 000 долларов больше в год, чем ученые. Кроме того, преимущества инженерных данных не останавливаются на оплате в одиночку, исследование из нового стека указывает на то, что существует меньше конкуренции для ролей инженерных данных, чем другие технологические позиции.

Новый стек обнаружил, что для LinkedIn и действительно задания должностей, для каждой открытой науки о науке на науке были 4,76 жизнеспособных претендентов, в то время как данные инженерных ролей опыта работают только 2,53 подходящих конкурентов на открытие работы. Почти, удваивая шансы на получение роли инженерной техники для применимых кандидатов.

Мы установили, что данные для данных – это хорошо оплачиваемая позиция, в одной из самых быстрорастущих технологических полей, с относительно низкой конкуренцией. Что не любить?

Тем не менее, просто выпускник только от относительного поля не будет квалифицировать вас для инженерной позиции данных.

Вам понадобится связанный опыт реального мира, чтобы точно настроить свои тяжелые навыки. Что касается вашего поиска в будущем, одним из лучших способов разработки и передачи этих навыков, является благодаря кондиционированию данных по техническому обслуживанию данных. В этой статье мы рассмотрим пять потенциальных идей проекта с источниками данных. Прежде чем мы охватываем проекты, вам нужно знать навыки, которые вы должны включать в потенциальные проекты. Для этого мы рассмотрим наиболее востребованные навыки для инженеров данных.

Что вы должны искать в проекте по данным?

Когда вы ищете создать проект по разработке данных, есть несколько ключевых областей, на которых вы должны сосредоточиться.

  • Несколько типов источников данных (API, веб-страницы, CSV, JSON и т. Д.)
  • Проглатывание данных
  • Хранилище данных
  • Визуализация данных (так что у вас есть что показать для ваших усилий).
  • Использование нескольких инструментов (даже если некоторые инструменты могут не быть идеальным решением, почему бы не экспериментировать с кинезером или искрой, чтобы понять с ними?)

Каждая из этих областей поможет вам в качестве инженера-данных улучшить ваши навыки и понять конвейер данных в целом. В частности, создавая какой-то конец Visual, особенно если он включает в себя создание основного веб-сайта для размещения, это может быть забавный способ показать свои проекты.

Но достаточно разговоров, давайте копаемся в некоторые идеи для ваших данных инженерных проектов.

Скреткие запасы и данные Twitter с использованием Python, Kafka и Spark

Проект 1.

С расширением обменов криптовалютов и роста и падения акций Gamestop, запасы стали горячей проблемой, набираем значительный интерес по аутсайде.

Если вы также разработали Zeal для торговых рынков, я бы предложил разработать проект, похожий на Cashtag, проект, который был разработан инженером, который в настоящее время работает в Reddit. Целью этого проекта было разработать «большой паспортный конвейер для анализа пользовательских настроений на фондовом рынке США». Короче говоря, этот проект соскребает социальные сети с намерением прогнозировать, как люди могут почувствовать особые акции в режиме реального времени. Ниже приведено представление рабочего процесса, используемого в этом проекте.

Источник

Этот проект хорошо задокументирован и может быть использован в качестве базы вдохновения для вашего проекта, который вы можете привлечь целеустремлять, чтобы удовлетворить свой интерес.

Scrape недвижимость недвижимости с Python и создать приборную панель с Это

Проект 2

Для участия с некоторыми новыми технологиями вы должны попробовать проект, такой как 20 минут проекта датчика данных SPPAETI. Целью данного проекта является разработка инструмента, который можно использовать для оптимизации выбора недвижимости в доме/аренду.

Этот проект собирает данные, используя веб-инструменты Scraping, такие как красивый суп и сценапию. Создание сценариев Python, которые взаимодействуют с HTML, это то, что вы должны подвергаться воздействию в качестве инженера данных, а веб-соскоб – отличный способ учиться. Интересно, что этот проект охватывает как дельта-озеро, так и Кубебени, которые на данный момент являются горячие темы. Наконец, хороший проект инжиниринга данных не завершен, не имея чистого пользовательского интерфейса, чтобы показать свою работу. Этот проект погружает в визуализацию данных с SuperSet, и все организовано вместе с Дагстером. Известный разнообразие инструментов, используемых в этом проекте, делает его идеальным для портфолио.

Сосредоточиться на аналитике с данными Stackoverflow

Идея проекта 3

Что, если вы могли бы проанализировать все или, по крайней мере, некоторые из публичных репос для GitHub. Какие вопросы вы бы спросили?

Фелипе Хоффа уже сделал некоторые работы по этому типу проекта, где он Проанализированы терабайты данных по нескольким статьям от коллекции Google BigQuery Data.

Но с таким большим количеством данных есть много возможностей для работы по какой-то форме аналитического проекта. Фелипе, например, анализировал концепции, такие как:

  • Вкладки против пробелов?
  • Какие языки программирования делают разработчики в выходные дни?
  • Анализируя REPOS GitHUB для комментариев и вопросов

Есть так много разных углов, которые вы можете взять на этот проект, и он предоставляет вам, вы, инженер данных много творчества в том, как вы думаете о данных.

Вы можете проанализировать исходный код 2,8 миллиона проектов.

Может быть, вы можете написать статью, такую как Какие фрагменты кода Stackoverflow мы можем найти в Github?

Кроме того, эта идея проекта также должна указать, что есть много интересных наборов данных, которые вы можете использовать там, которые существуют на платформах, таких как GCP и AWS Отказ Таким образом, если вы не чувствуете, что вы можете скреплять данные из API, вы всегда можете работать над своими аналитическими отбивающими отбивными сотнями данных, которые предлагают эти два облачных поставщиков.

Вместо запасов Прогнозировать политику и финансовые события с прогнозитом

Проект 4

Расширение вне прогноз на складе, прогнозирование делает рыночные данные доступными через API. Если вы не знакомы с прогнозом, это новый рынок прогнозирования в области прогнозирования на основе Zealand, который предлагает обмены для глобальных политических и финансовых мероприятий. Вы можете быть знакомы с сообщенными ставками последнего выборочного цикла, когда эти цифры сообщают, что они ссылаются на рынки, аналогичные прогнозу.

Используя данные их Live API, вы можете пересечь эталонные шипы с новостью потенциально, связывая в Scraped данные из социальных сетей. Как проект Cashtag ранее обсуждался. Вы можете найти способ связать онлайн политический болтовня до долларовой стоимости.

Конечно, зачем останавливаться там? Почему бы не попытаться создать систему хранения данных, используя что-то вроде BigQuery и добавить в другие данные, такие как Tweets, News, и так далее?

Затем проводите время нормализуя эти данные и пытаясь создавать таблицы, которые представляют собой соединения между всеми этими разобщенными источниками данных.

Теперь это было бы забавно и сложно проект по разработке данных.

Скрепление данных инфляции и разработка модели с данными из Cashcrawl

Проект 5.

Еще один интересный проект был проведен доктором Усама Хуссеином, где он измерил уровень инфляции путем отслеживания изменений цены товаров и услуг в Интернете. Учитывая, что BBC сообщает, что Соединенные Штаты видели наибольшую часть инфляции с 2008 года, это важная тема.

В этом проекте автор использовал петабайты данных веб-страницы, содержащиеся в Common Crawl Отказ

Я также думаю, что это еще один отличный пример вкладывания и отображения проекта по инженерии данных. Одной из проблем, которые я часто ссылаюсь, насколько усердно можно было показывать свои данные инженерной работы.

Но проект доктора Хусеина документирован таким образом, чтобы выяснить, какая работа была сделана и навыки, которые у него есть, без необходимости копаться во всем коде.

Доктор Хуссейн описывает конвейер данных ниже.

Заключение

Когда дело доходит до выбора проекта, лучший проект – это тот, который поражает баланс между интересами промышленности и личного интереса. Нужно ли вам это или нет, личный интерес предоставляется по теме, которую вы выбираете, поэтому важно найти проект, который вам нравится. Если ваш интерес включал, акции, недвижимость, недвижимость, политика или какая-то другая ниша, вы можете использовать проекты, перечисленные выше как план, который может быть применен к теме вашего интереса.

Спасибо за прочтение! Если вы хотите узнать больше о консалтинг данных, больших данных и науке данных, затем нажмите ниже.

Создание вашего первого трубопровода данных: Как построить задачу в Luigi Part 1 1

Greylock VC и 5 компаний аналитики данных это инвестирует В

5 Концепции SQL Вы должны знать перед следующими следующими данными или инженерным интервью данных

Как улучшить свою стратегию, ориентированную на данные

Что в мире – Дремио И почему это ценится в 1 миллиарда долларов?

Ошибки, которые разрушают вашу стратегию, ориентированную на данные

5 Отличные библиотеки для управления большими данными с Python

Оригинал: “https://dev.to/seattledataguy/5-project-ideas-for-data-engineering-to-put-on-your-resume-m47”