Рубрики
Без рубрики

Как стать ученым данных

Автор оригинала: FreeCodeCapm Team.

Хосе Marcial Portilla

Привет! Я Хосе Портилла, и я инструктор по удемаю с более чем 250 000 студентов, зачисленных на различные курсы На Python для науки о науке и машине, R программирование для науки о данных, Python для больших данных и многое другое.

Почти каждый день студент спросит мне некоторую форму этого вопроса:

В этом посте я сделаю все возможное, чтобы помочь ответить на этот вопрос и указать на ресурсы, которые могут помочь вам ответить, также, надеюсь, этот пост служит тому, что я могу быстро ссылаться на моих учеников:)

Прежде чем мы начнем, я сейчас преподаю данные науки о Python и R на Удемию. Вы можете проверить эти курсы ниже и получить скидку для использования этих ссылок:

Для Python:

Python для науки о данных и машинном обучении bootcamp Узнайте, как использовать Numpy, Pandas, Meanborn, Matplotlib, Trugly, Scikit-Sulect, машинное обучение, Tensorflow и многое другое! www.udemy.com.

Для R:

Наука и машинное обучение Bootcamp с R Узнайте, как использовать язык программирования R для науки и машинного обучения и визуализации данных! www.udemy.com.

Теперь до остальной части этого поста. Я сломал шаги в некоторые ключевые темы и обсудили полезные детали для каждого.

Путешествие

Если вы заинтересованы в том, чтобы стать ученым данных, лучший совет – начать готовиться к поездке сейчас. Набирая время, чтобы понять основные концепции, будут не только очень полезны, как только вы проводили интервью, но это также поможет вам решить, действительно ли вы действительно заинтересованы в этой области.

Прежде чем начать на пути к тому, чтобы стать ученым данных, важно, чтобы вы были честны с собой о том, почему вы хотите сделать это. Возможно, есть несколько вопросов, которые вы должны задать себе:

  • Вам нравится статистика и программирование? (Или, по крайней мере, что вы узнали на них до сих пор?)
  • Вам нравится работать в поле, где вам нужно постоянно учиться о новейших техниках и технологиях в этом пространстве?
  • Вы заинтересованы в том, чтобы стать ученым данных, даже если он просто заплатил среднюю зарплату?
  • Вы в порядке с другими названиями работы (например, аналитик данных, бизнес-аналитик и т. Д.)?

Задайте себе эти вопросы и будьте честны с собой. Если вы ответили «Да», то вы находитесь на своем пути, чтобы стать ученым данных.

Путь к тому, чтобы стать ученым данных, скорее всего, потребуется вам некоторое время, в зависимости от вашего предыдущего опыта и вашей сети. Используя эти два, могут помочь вам поставить вас в роль ученых данных, но будьте готовы всегда учиться. Давайте теперь перейдем к обсуждениям на некоторые более ощутимые темы.

Математика

Основные темы, касающиеся математики, которые вы должны ознакомиться с тем, если вы хотите перейти в науку на данных, являются вероятностью, статистикой и линейной алгеброй. Как вы узнаете больше о других тем, таких как статистическое обучение (машинное обучение), эти основные математические основы будут служить базой для вас, чтобы продолжить обучение. Давайте кратко опишем каждое и дать вам несколько ресурсов, чтобы узнать у!

Вероятность

Вероятность – это мера вероятности того, что событие будет происходить. Многие науки данные основаны на попытке измерить вероятность событий, все от шансов на щелчок рекламы, к вероятности сбоя для части на линии сборки.

Для этой классической темы я рекомендую собираться с книгой, такой как Первый курс по вероятности Шелдон Росс или Теория вероятностей E.t. Джейнс. Так как это учебники, они могут быть довольно дорогими, если вы покупаете новое напрямую от Amazon, поэтому я предлагаю смотреть на использованные копии онлайн или в версиях PDF, чтобы спасти себя немного денег!

Если вы предпочитаете изучать формат видео, вы также можете проверить видео серии Khan Academy по вероятности. Вы также можете проверить лекции MIT OpenCourseware по вероятности и статистике. Оба могут быть найдены легко бесплатно на YouTube простым поиском.

Статистика

После того, как у вас есть твердый понять по теории вероятностей, вы можете перейти к изучению статистики, которая является общим отделением математики, которая занимается анализом и интерпретацией данных. Имея полное понимание методов, используемых в статистике, требует, чтобы вы поняли вероятность и вероятность!

Опять же, я больше учебника, и к счастью, есть два отличных онлайн учебников, которые полностью бесплатны для вас, чтобы ссылаться на ссылку:

Если вы предпочитаете более старые учебники, мне нравится Статистика Дэвидом Фридман. Я бы предложил использовать эту книгу в качестве основной базы, а затем проверить другие ресурсы, перечисленные здесь, чтобы более глубокие погружения в другие темы (например, Anova).

Для проблем практики мне очень понравилось использовать серию контуров Schaum (вы можете найти книги в этой серии как для вероятности вероятностей, так и для статистики).

Если вы предпочитаете видео, проверьте отличные серии Brandon Holtz по статистике на Youtube!

Линейная алгебра

Это ветвь математики, которая охватывает изучение векторных расстояний и линейного отображения между этими пробелами. Он использовался в значительной степени в обучении машины, и если вы действительно хотите понять, как работают эти алгоритмы, вам нужно будет построить базовое понимание линейной алгебры.

Я рекомендую проверить Линейная алгебра и его приложения Strang, его отличный учебник, который также используется в курсе MIT линейной алгебры, вы можете получить доступ через OpenCourseware! С этими двумя ресурсами вы должны быть в состоянии создать прочную основу в линейной алгебре.

В зависимости от вашей позиции и рабочего процесса вам, возможно, не нужно погружаться очень глубоко в некоторые из более сложных деталей линейной алгебры, как только вы получите более знакомые с программированием, вы увидите, что некоторые библиотеки, как правило, обрабатывают много линейной алгебры. Задачи для вас. Но все еще важно понимать, как работают эти алгоритмы!

Программирование

Сообщество данных науки в основном приняло R и Python в качестве основных языков для программирования. Используются другие языки, такие как Julia и Matlab, но R и Python, безусловно, самые популярные в этом пространстве.

В этом разделе я собираюсь описать некоторые основные основные темы программирования и науки о данных, а затем указать на основные библиотеки, используемые как для R и Python!

Органы развития

Это тема, которая чрезвычайно зависима от ваших личных предпочтений, я просто собираюсь кратко описывать некоторые из более популярных вариантов для среды развития (IDE) для науки о данных с R и Python.

Python – Поскольку Python является общим языком программирования, многие варианты доступны! Вы можете просто использовать простой текстовый редактор, такой как Возвышенный текст или Атом А потом настройте свое собственное вкусно, я лично использую этот подход для более крупных проектов. Еще один популярный IDE для Python Пычарм От Jetbrains, которые предоставляют бесплатное издание сообщества, которое имеет много функций для большинства пользователей. Моя любимая среда для Python должна быть Jupyter ноутбук Ранее, ранее известный как ноутбуки iPython, эта среда ноутбука использует ячейки для распределения вашего кода и обеспечивает мгновенный вывод, поэтому вы можете легко взаимодействовать с кодом и визуализациями! Ноутбук Jupyter поддерживает множество ядер, включая Scala, R, Julia и многое другое. Python, безусловно, лучше всего поддержан из всех этих, хотя другие языки улучшаются все время! Ноутбуки Jupyter чрезвычайно популярны в области науки и машины и машины. Я использую это для всех моих курсов Python, и большинство студентов действительно наслаждались этим. В то время как вероятно, не лучшее решение для более крупных проектов, которые необходимо развернуть, его фантастическое для обучения.

Что касается получения Python на вашем компьютере, вы всегда можете использовать официальный источник – Python.org, но я обычно предлагаю использовать Анаконда Распределение, которое поставляется со многими пакетами, я буду обсуждать в этом разделе!

R – Rstudio Вероятно, самая популярная среда развития для R. Она имеет отличное сообщество позади него, его основная полная версия совершенно бесплатная. Он хорошо отображает визуализации, дает вам много вариантов для настройки опыта и намного больше. Это в значительной степени мой ходи для чего-либо с R! Ноутбуки Jupyter также поддерживают r ядер, и пока я их использовал, я нашел опыт, не имеющий возможности по сравнению с возможностями ноутбука Jupyter с Python.

Анализ данных

Python – Для анализа данных два библиотеки являются основными рабочих аптеками Python: Numpy и Пандас Отказ Numpy – это численный научный вычислительный пакет, который служит основой для практически всех других пакетов Python в экосистеме Python Data Ecosystem. Pandas – это библиотека анализа данных, которая встроена непосредственно от NUMPY, которая предназначена для подражания многих встроенных функций или R, таких как DataFrames! Вы можете подумать об этом как о супер версии Excel, который позволяет быстро чистить и анализировать данные. Если вы станете ученым данных, который использует Python, Pandas быстро станет одним из ваших основных инструментов! Это лично моя любимая библиотека Python! Я бы также рекомендовал проверить Scipy Для деталей и ссылок для библиотек в системе Pydata.

R – По большей части R уже поставляется с большим количеством анализа данных, такие как DataFrames! Но сообщество R также создало много полезных пакетов для того, чтобы помочь справиться с данными еще более эффективными! Эти пакеты известны как « Tidyverse », и его коллекция полезных пакетов для науки о данных, все разработанная с аналогичной философией работы с данными, что означает, что все они очень хорошо работают вместе. Эти пакеты включают Plyryr Для манипулирования данными, Тидр Для очистки ваших данных Readr Для чтения данных и пакеты, как пурр и Tibbble которые улучшают некоторые встроенные функциональные возможности R. Узнания TIDYVERCE пакетов, является обязательным для ученых данных, использующих R! GGPLOT2 также является частью TidyVerse, но для визуализации данных, поэтому давайте перейдем к этой теме рядом!

Визуализация данных

Python – «Дедушка» визуализации с Python – Матплотлиб Отказ MATPLOTLIB был создан для обеспечения API визуализации для Python, напоминающей стиль, используемый в MatLab. Если вы использовали MATLAB для визуализации ранее, переход будет чувствовать себя очень естественным. Однако благодаря своей огромной библиотеке возможностей многие другие библиотеки визуализации были созданы от MATPLOTLIB в попытке упростить вещи или обеспечить более конкретную функциональность!

Морской Это отличная статистическая библиотека построения, которая очень хорошо работает с пандами и написана с использованием MATPLOTLIB. Это создает красивые участки только с несколькими линиями кода.

Пандас также поставляется с Встроенные возможности построения Встроенный Матплотлиб!

Сюжер и Боке Может использоваться для создания интерактивных участков с Python. Я рекомендую играть с обоими и видеть, какой из них вы предпочитаете!

R – Безусловно самая популярная библиотека заговора для R является ggplot2 Отказ ИТ-философия на разработке и на основе его слоев API позволяет легко использовать и позволяет сделать в основном любой главный сюжет, который вы можете подумать! Что также отлично, это то, что легко работает с заговоркой, что позволяет вам быстро преобразовать графики GGPlot2 в интерактивные визуализации с помощью использования ggplotly !

Машинное обучение

Python – Scikit – Учите Это самая популярная библиотека машинного обучения для Python, со встроенными алгоритмами и моделями для классификации, регрессии, кластеризации, уменьшения размерности, выбора модели и предварительной обработки. Если вы больше заинтересованы в создании моделей статистической формы (например, анализировать P-значения после линейной регрессии), вы должны проверить Statsmodels Это также отличный выбор для работы со временными данными серии! Для глубокого обучения, проверьте Tensorflow , Pytorch или Керас Отказ Я рекомендую Keras для начинающих из-за его упрощенного API. Для глубоких тему обучения вы всегда должны ссылаться на официальную документацию, так как это поле, которое очень быстро меняется!

R – Одной из вопросов с R для начинающих данных ученых является то, что он имеет огромное разнообразие параметров для пакетов, когда речь идет о машинном обучении. Каждый основной алгоритм может иметь свои собственные отдельные пакеты, каждый с разными фокусировками. Когда вы начинаете, я рекомендую сначала проверить CARET Пакет, который предоставляет хороший интерфейс для классификации и регрессионных задач. После того, как вы переехали на приспособленные методы обучения, такие как кластеризация, ваша лучшая ставка состоит в том, чтобы сделать быстрый поиск Google, чтобы увидеть, какие пакеты являются наиболее популярными для любой техники, которую вы планируете использовать, вы даже обнаружите, что R уже имели некоторые из основных алгоритмов встроенных, таких как кластеризация KMAINS.

Где узнать эти библиотеки и навыки?

Я преподаю эти темы в полной мере, вы можете проверить курсы на 95% скидка, используя ссылки ниже.

Мой Python для науки о данных и машинном обучении Bootcamp:

Python для науки о данных и машинном обучении bootcamp Узнайте, как использовать Numpy, Pandas, Meanborn, Matplotlib, Trugly, Scikit-Sulect, машинное обучение, Tensorflow и многое другое! www.udemy.com.

Мой курс по R для науки, визуализации и обучения на машине:

Наука и машинное обучение Bootcamp с R Узнайте, как использовать язык программирования R для науки и машинного обучения и визуализации данных! www.udemy.com.

Теперь, когда мы пошли на общий опыт темы программирования, давайте обсудим путь, чтобы на самом деле посадить работу науки о данных!

Сообщество

Поиск вакансий для работы на вакансии может занять некоторое время, лучше всего начать строить свою сеть!

Один из лучших способов начать построить свою сеть, – это присутствовать встречи, которые включают науку данных! Но вам не нужно строго ограничивать науку в науке, вы должны посещать встречи с любыми тем, которые связаны с наукой на данных, таких вещах, как встречами Python, визуализация и т. Д.

Конференции являются еще одним отличным способом подключения к данным ученым, в то время как многие конференции могут быть небрежными дорогими, конференции часто будут иметь карьеру в рамках события. Если вы намереваетесь только посетить карьерную ярмарку, вы часто можете получить скидки или даже бесплатные проходы на конференцию. Конференции также часто принимают семинары для вас, чтобы узнать новые навыки!

Вы также должны начать проверять онлайн общины и ресурсы, такие вещи, как информационный бюллетень данных O’Reilly, Kaggle, и KDnuggets – это отличные ресурсы, чтобы подключить себя к тому, что происходит в научном сообществе данных. Подстыты – еще один великий способ начать узнавать о сообществе данных науки. Я рекомендую проверить разговорные машины, частично производные, а также данные о данных O’Reilly.

Также стоит изучить общины общего технологий, таких как квора и хакеринсы!

Поиск работы и интервью

Таким образом, вы узнали свои навыки, сетевые и теперь готовы начать работу в качестве ученого данных!

Поиск работы

Первый шаг – начать поиск новой работы, многие из них варьируются в зависимости от ваших личных обстоятельств и целей, поэтому я постараюсь сохранить совет как можно более общему.

Один из лучших способов начать поиск и практиковать свои навыки одновременно – это участвовать в Kaggle Challenges и блоге о вашем опыте с ними. Некоторые вызовы Kaggle могут даже непосредственно привести к интервью в рамках приза! Даже если приз ничего не приходит, это все еще ценный опыт на наборе реальных данных! Обратите внимание, что Kaggle также имеет собственную доску для научных ученых.

Фриланс через сайты, такие как заработанные работы, вклад в проекты с открытым исходным кодом, и ответы на вопросы на Stackoverflow – еще один отличный способ сделать ваше присутствие, известное для рекрутеров.

Вы также захотите убедиться, что ваш CV, LinkedIn и Github все обновляются, чтобы отразить ваши новые навыки и проекты.

Использовать такие сайты, как действительно или DataJobs Для общего поиска работы, попробуйте такие сайты, как Triplebyte, который напрямую дает вам серию технических интервью, чтобы быстро пройти через начальную фазу интервью для многих компаний одновременно. Вы также можете проверить задания запуска с Angellist Rob Press и Hackernews Доска работы Отказ

Интервью

Для лучшего или к худшему, многие компании все еще полагаются на классические вопросы интервью, которые включают в себя структуры данных и алгоритмы. Чтобы подготовиться к такому вопросам, вам следует рассмотреть такие темы, как массивы, графики, рекурсионные, связанные списки, стеки и т. Д. Вы должны ссылаться на книгу или курс, и пройти много проблем практики! У меня есть курсы по этим темам, вы можете получить бесплатный просмотр некоторых из материалов, проверив мой популярный репозиторий GitHub, содержащий множество ноутбуков Jupyter с вопросами практики и решениями!

Jmportilla/Python-Algorithms – Data-Structures – И-интервью Python-for-Algorithms – Data-Structures – И-интервью – файлы для курса UDEMY по алгоритмам и структурам данных github.com.

Вы также можете проверить список проблем практики на LeetCode:

Проблемы – лецкод Выровняйте свои навыки кодирования и быстро посадили работу. Это лучшее место для расширения ваших знаний и подготовиться … leetcode.com.

Для более конкретных вопросов науки о данных вам понадобится ознакомиться с широким спектром тем, таких как вопросы по вероятности, вопросы программирования на R или Python, SQL-запросы и, возможно, большими передачами данных (такие темы, как искра). Вы также должны ознакомиться с моделированием и рассуждением по выбору параметров, например различий между регуляризацией L1 и L2.

Многие компании также забирают домашние задачи, это может быть отличная возможность получить дополнительную практику, даже если сам предложение о работе не вытаскивается.