Рубрики
Без рубрики

Наука науки обучения дорожной карте на 2021

Автор оригинала: Harshit Tyagi.

Хотя ничего не меняется, но дата, новый год наполняет всех надеждой на стартовую вещей. Если вы добавите в небольшой планировке, некоторые благополучие целы и обучающий дорожный карман, у вас будет большой рецепт на год, полный роста.

Этот пост намеревается укрепить ваш план, предоставляя вам Структура обучения, ресурсы и идеи проекта Чтобы помочь вам построить солидный портфель рабочего специалистов в науке о данных.

Просто примечание: Я подготовил эту дорожную карту на основе моего личного опыта в науке о данных. Это не все-таки и конечный план обучения. Вы можете адаптировать эту дорожную карту, чтобы лучше соответствовать любому конкретному домену или области изучения, которое вас интересует. Кроме того, это было создано с учетом Python, когда я лично предпочитаю это.

Что такое обучающая дорожная карма?

Учебная дорожная карта является расширением учебной программы. Он графикирует многоуровневую карту навыков с деталями о что Навыки, которые вы хотите отточить, Как Вы будете измерять результат на каждом уровне, и Техника для дальнейшего осваивания каждого навыка.

Моя дорожная карта назначает веса каждому уровню на основе сложности и общности его применения в реальном мире. Я также добавил предполагаемое время для новичка для завершения каждого уровня с упражнениями и проектами.

Вот пирамида, которая изображает навыки высокого уровня в порядке их сложности и применения в отрасли.

Это отметит базу наших рамх. Теперь нам придется глубоко погружаться в каждой из этих слоев, чтобы завершить наши рамки с более конкретными, измеримыми деталями.

Специфика приходит от изучения критических тем в каждом слое и ресурсах, необходимых для освоить эти темы.

Мы сможем измерить знания, полученные, применяя изученные темы к ряду реальных проектов. Я добавил несколько проектных идей, порталов и платформ, которые вы можете использовать для измерения вашего знания.

Давайте глубоким погрузимся в каждую из этих слоев, начиная с дна.

1. Как узнать о программировании или разработке программного обеспечения

(Ориентировочное время: 2-3 месяца)

Во-первых, убедитесь, что у вас есть надежные навыки программирования. Каждое описание работы науки о данных попросит экспертизу по программированию хотя бы на один языков.

Конкретные темы программирования, которые необходимо знать:

  • Общие структуры данных (типы данных, списки, словари, наборы, кортежи), функции записи, логические, контрольные потоки, поисковые и сортировки алгоритмов, объектно-ориентированные программирование и работа с внешними библиотеками.
  • SQL Scripting: Запрос баз данных с использованием соединений, агрегаций и подзапросов
  • Комфорт с помощью терминала, контроль версий в Git и с помощью GitHub

Ресурсы для изучения Python:

  • duductpython.org [бесплатно] – бесплатный ресурс для начинающих. Он охватывает все основные темы программирования с нуля. Вы получаете интерактивную оболочку, чтобы практиковать темы бок о бок.
  • Kaggle [бесплатно] – бесплатное и интерактивное руководство по изучению Python. Это короткое руководство, охватывающее все важные темы для науки о данных.
  • Сертификаты Python на FreeCodecamp [Free] – FreeCodeCamp предлагает несколько сертификатов, основанных на Python, таких как научные вычисления, анализ данных и изучение машины.
  • Курс Python от FreeCodecamp на YouTube [бесплатно] – это 5-часовой курс, который вы можете следовать за практикой основных концепций.
  • Промежуточный Python [бесплатно] – еще один бесплатный курс Patrick, представленный на FreeCodeCamp.org.
  • Coursera Python для всех специализация [Плата] – Это специализация, охватывающая концепции новичков, структур данных Python, сбора данных из сети и с использованием баз данных с Python.

Ресурсы для изучения Git и GitHub

  • Руководство для git и Github [Free]: Заполните эти учебники и лаборатории, чтобы разработать фирменный контроль версий. Это поможет вам в дополнение к проектам с открытым исходным кодом.
  • Вот a Git и Github Carm Course На канале FreeCodecamp YouTube

Ресурсы для обучения SQL

Измерьте свой опыт, решение многих проблем и построение как минимум 2 проекта:

  • Решить много проблем здесь: HackeRrank (новичок) и Лецкод (решить легкие или средние вопросы)
  • Извлечение данных из конечных точек веб-сайта/API – попробуйте написать сценарии Python из извлечения данных из веб-страниц, которые позволяют соскобят как soundcloud.com. Храните извлеченные данные в файл CSV или базу данных SQL.
  • Игры, такие как Rock-Paper-Scissor, вращают пряжу, Hangman, Dice Rolling Simulator, Tic-Tac-Toe и так далее.
  • Простые веб-приложения, такие как на YouTube Video Downloader, блокировщик веб-сайта, музыкальный игрок, проверка плагиат и так далее.

Разверните эти проекты на страницах GitHub или просто продвигайте код на GitHub, чтобы вы научились использовать Git.

2. Как узнать о сборе данных и Wrangling (очистка)

(Ориентировочное время: 2 месяца)

Значительная часть работы науки Data сосредоточена вокруг обнаружения данных APT, которые могут помочь вам решить вашу проблему. Вы можете собирать данные из разных законных источников – Scraping (если веб-сайт позволяет), API, базы данных и общедоступные репозитории.

После того, как у вас есть данные в руке, аналитик часто найдет их очистки данных, работающих с многомерными массивами, используя описательные/научные вычисления, а также манипулирование DataFrames для агрегированных данных.

Данные редко чистыются и отформатированы для использования в «реальном мире». Pandas и Numpy – это два библиотека, которые в вашем распоряжении, чтобы перейти от грязных данных на готовые к анализу данных.

Когда вы начинаете чувствовать себя комфортно написание программ Python, не стесняйтесь принимать уроки на использование библиотек, таких как Пандас и numpy Отказ

Ресурсы, чтобы узнать о сборе и уборке данных:

Идеи проекта сбора данных:

  • Соберите данные с веб-сайта/API (открыть для общественного расхода) на ваш выбор и преобразовывать данные для хранения его из разных источников в агрегированный файл или таблицу (DB). Пример API включает TMDB , quandl , Twitter API , и так далее.
  • Выберите Любой общедоступный набор данных И определите набор вопросов, которые вы хотели бы преследовать после поиска наборе данных и домена. Разрушите данные, чтобы узнать ответы на эти вопросы, использующие Pandas и Numpy.

3. Как узнать о разведочном анализе данных, бизнес Acumen и рассказывании историй

(Ориентировочное время: 2-3 месяца)

Следующий слой для мастера – анализ данных и историй. Рисование понимания от данных, а затем обмениваться то же самое для управления в простых условиях и визуализациях является основной ответственностью аналитика данных.

Ссылальная часть, требует, чтобы вы были опытными с визуализацией данных вместе с отличными навыками связи.

Специфические исследования анализа данных и темы рассказывания историй включают в себя:

  • Исследовательский анализ данных – Определение вопросов, обрабатывающих недостающие значения, выбросы, форматирование, фильтрацию, одноместный и многомерный анализ.
  • Визуализация данных – построение данных с использованием библиотек, таких как Matplotlib, Meanborn и Trengly. Знайте, как выбрать правильную график, чтобы сообщить о результатам данных.
  • Развивающиеся приборные панели – хороший процент аналитиков используют только Excel или специализированный инструмент, такой как Power BI и Tableau для создания приборных панелей, которые суммируются/совокупные данные, чтобы помочь управлению принимать решения.
  • Бизнес Acumen: Работайте над заданием правильных вопросов ответить, которые на самом деле нацеливаются на бизнес метрики. Практикуйте написание ясных и лаконичных отчетов, блогов и презентаций.

Ресурсы, чтобы узнать больше о анализе данных:

Идеи проекта анализа данных

4. Как узнать о технике данных

(Расчетное время: 4-5 месяцев)

Техника Data поддерживает команды R & D, сделав чистые данные, доступные для исследовательских инженеров и ученых на больших фирмах, управляемых данными. Это поле сам по себе, и вы можете решить пропустить эту часть, если вы хотите сосредоточиться на стороне статистической алгоритмы проблем.

Обязанности инженера данных включают в себя повышение эффективной архитектуры данных, оптимизации обработки данных и поддержание крупномасштабных систем данных.

Инженеры используют оболочку (CLI), SQL и Python/Scala, чтобы создать трубопроводы ETL, автоматизировать задачи файловых систем и оптимизировать операции базы данных, чтобы сделать их высокопроизводительными.

Еще одним важным навыком является реализация этих архитектур данных, которые требуют навыки поставщиков облачных услуг, таких как AWS, Google Cloud Platform, Microsoft Azure и другие.

Ресурсы для изучения техники данных:

Инженерные данные проекта/сертификаты для подготовки к:

  • AWS Certified Машинное обучение (300 USD) – Продобированный экзамен, предлагаемый AWS, добавляет вес в ваш профиль (хотя не гарантирует ничего, хотя), требует достойного понимания услуг AWS и ML.
  • Профессиональный инженер-инженер – Сертификация, предлагаемая GCP. Это также пробковый экзамен и оценивает ваши способности для разработки систем обработки данных, развертывания моделей машинного обучения в производственной среде и обеспечения качества и автоматизации.

5. Как узнать о прикладной статистике и математике

(Расчетное время: 4-5 месяцев)

Статистические методы являются центральной частью науки о данных. Почти все интервью науки о данной науке преимущественно сосредоточены на описательной и выписной статистике.

Люди часто начинают кодирующие алгоритмы обучения машины без четкого понимания основных статистических и математических методов, которые объясняют работу этих алгоритмов. Это, конечно, не лучший способ пойти об этом.

Темы вы должны сосредоточиться на прикладной статистике и математике:

  • Описательная статистика – Чтобы иметь возможность суммировать данные – это мощный, но не всегда. Узнайте о оценках местоположения (среднего, медиана, режима, взвешенной статистики, отделкой статистики) и изменчивость для описания данных.
  • Расходная статистика – проектирование тестов гипотезы, тесты A/B, определяющие бизнес-метрики, анализ собранных данных и результатов эксперимента, используя интервал доверия, P-значения и значений альфа.
  • Линейная алгебра, одиночный и многократный исчислений Чтобы понять функции потери, градиента и оптимизаторы в машинном обучении.

Ресурсы, чтобы узнать о статистике и математике:

  • Узнайте статистику уровня колледжа В этом бесплатном 8-часовом курсе на канале FreeCodeCamp YouTube
  • [Книга] Практическая статистика для науки о данных (очень рекомендую) – Тщательное руководство по всем важным статистическим методам вместе с чистыми и лаконичными приложениями/примерами.
  • [Книга] Голая статистика – нетехническое, но подробное руководство по пониманию влияния статистики на наших обычных событиях, спортивных, системах по рекомендациям и многим другим случаям.
  • Статистическое мышление в Python – курс фундамента, который поможет вам начать думать статистически. Также есть вторая часть для этого курса.
  • Введение в описательную статистику – Предлагается UDAMIC. Состоит из видео лекций, объясняющих широко используемые меры расположения и изменчивости (стандартное отклонение, дисперсия, медианное абсолютное отклонение).
  • Выделенная статистика, удобность – Курс состоит из видео лекций, которые обучают вас на рисовании выводов от данных, которые могут быть не сразу очевидно. Он ориентирован на развитие гипотез и использовать общие тесты, такие как T-тесты, Анова и регрессия.
  • И вот a Руководство по статистике для науки о данных Чтобы помочь вам начать правый путь.

Идеи проекта статистики:

  • Решите упражнения, представленные в курсах выше, а затем попытайтесь пройти несколько общественных наборов данных, где вы можете применить эти статистические концепции. Задать вопросы, такие как «Есть ли достаточные доказательства, чтобы сделать вывод, что средний возраст матерей, родившихся в Бостоне, составляет более 25 лет на уровне значения 0,05»?
  • Попробуйте разработать и запустить небольшие эксперименты со своими сверстниками/группами/классами, попросив их взаимодействовать с приложением или ответить на вопрос. Запустите статистические методы на собранных данных, как только у вас будет хорошее количество данных после периода времени. Это может быть очень трудно снять, но должно быть очень интересно.
  • Анализировать цены на акции, криптовалютуры и гипотезу дизайна вокруг среднего возврата или любой другой метрики. Определите, сможете ли вы отклонить нулевую гипотезу или не выполнить это, используя критические значения.

6. Как узнать о машинном обучении и AI

(Расчетное время: 4-5 месяцев)

После того, как вы нагреваете себя и проходите все основные вышеупомянутые концепции, теперь вы должны быть готовы начать с модными алгоритмами ML.

Есть три основных типа обучения:

  1. Контролируемое обучение – включает регрессионные и классификационные проблемы. Изучите простую линейную регрессию, множественную регрессию, полиномиальную регрессию, наивные байлы, логистические регрессии, KNNS, модели деревьев, моделей ансамбля. Узнайте о метриках оценки.
  2. Неснесенное обучение – Снижение кластеризации и размерности – это два широко используемых применения неповторимого обучения. Погрузитесь глубоко в PCA, K-означает кластеризацию, иерархическую кластеризацию и гауссовые смеси.
  3. Усиление укрепления (Может пропустить *) – помогает вам строить самообеспеченные системы. Научитесь оптимизировать награды, используя библиотеку TF-Agents, создавая глубокие q-сети и так далее.

Большинство проектов ML должны овладеть ряд задач, которые я объяснил в Этот блог Отказ

Ресурсы, чтобы узнать о машинном обучении:

Глубокая специализация обучения по Deplearning.ai

Для тех из вас, кто заинтересован в дальнейшем погружении в глубокое обучение, вы можете начать, заполнив эту специализацию, предлагаемую Deplearning.ai и рук – на книгу. Это не так важно от перспективы науки о данных, если вы не планируете решить компьютерное зрение или проблему NLP.

Глубокое обучение заслуживает специальной дорожной карты самостоятельно. Я создам это со всеми фундаментальными концепциями в ближайшее время.

Отслеживать свой прогресс обучения

Я также создал учебный трекер для вас на понятие. Вы можете настроить его в свои потребности и использовать его для отслеживания вашего прогресса, иметь легкий доступ ко всем ресурсам и вашим проектам.

Найти учебник здесь Отказ

Кроме того, вот видео версия этого блога:

Наука данных с Гершитом

Это просто обзор высокого уровня широкого спектра науки о данных. Вы можете потребовать глубокого погружения в каждую из этих тем и создать концептуальный план низкого уровня для каждой из категорий.

Не стесняйтесь отвечать на этот блог или комментировать видео, если вы хотите, чтобы я добавил новую тему или переименовать что-нибудь. Также дайте мне знать, какую категорию вы хотите, чтобы я провел учебные пособия проекта.

Вы можете подключиться со мной на Twitter или LinkedIn Отказ