Рубрики
Без рубрики

👨🎓️📊 Данные ученые – 12 шагов от начинающих к про

12 шагов для тех, кто хочет построить карьеру в науке данных с нуля. Ниже есть руководство по … Помечено с датошими, карьерой, питоном, аналитикой.

12 шагов для тех, кто хочет построить карьеру в науке данных с нуля. Ниже есть руководство к действию и рассеяние ссылок на полезные ресурсы.

1. Решить, кто вы хотите стать 💭

Поле данных науки развивается энергично. Но наука о данных не только нейронные сети Но также классическая статистика и алгоритмы машинного обучения (которые более понятны для бизнес-процессов), а в целом все связано с анализом, обработкой и представлением информации в цифровой форме.

Еще не может быть сказано, что существует четкое разделение труда в науке данных – это неспециализированная профессия. Грубая аналогия: так же, как были чистые ** Компьютерные ученые * (компьютерные ученые и программисты), которые поняли все, связанные с компьютерами, так что теперь есть ** ученые данных * Кто занимается всем, связанным с данными. Маркер первого движения к специализации труда – это сфера онлайн-образования.

Так или иначе, ученый данных работает на пересечении нескольких областей:

  • ▶ ️. Математика (включая линейную алгебру, алгоритмы обучения машины)

  • ▶ ️. Программирование (бывший. Python, R, SQL обычно является минимальным требованием)

  • ▶ ️ Деловые проблемы (Да, кроме компьютерных наук, вы должны понимать, какие бизнес-процессы и как вы можете улучшить его)

В зависимости от вашей роли в команде некоторые из этих вещей должны быть сделаны больше. При выборе вектора разработки начните с ваших собственных интересов – обучение потребует значительных ресурсов, и без любви к вашей работе, вы будете быстро сгореть Отказ Математическая база необходима, но вполне вероятно, что личный круг задач будет сведен к использованию существующих инструментов и знаний, а не изобретению чего-то нового. Как сказал К. В. Воронцов в одно интервью :

Люди, которые знают, как использовать готовые алгоритмы, нужно больше 50-100-500 раз. Похоже, что проблема того, как преподавать компьютерную науку и проблему «более математики или более инжиниринга» имеет следующий ответ: вам нужен обоим, но вы должны научить математику тщательно выбрать множество людей, которые поняли себя создателями , дизайнеры новых методов

2. Подтянуть математическую базу ➕

Если вы хотите действительно понять алгоритмы обучения машины, вам нужно сначала понять Линейная алгебра , Многомассажный исчисление , Теория вероятностей и Математическая статистика Отказ

Степик имеет подходящие бесплатные видеочевные курсы для каждого из областей тестирования знаний:

Если иллюстрации, визуализация недостаточно, я настоятельно рекомендую взглянуть на замечательный канал 3Blue1Brown Отказ Есть плейлисты для Линейная алгебра , анализ , Дифференциальные уравнения Отказ

Кстати, есть Подробный курс 175 видео на Многомерный математический анализ На ** Khan Academy Channel * *.

При принятии видео лекций не забывайте о возможности быстродействующего. Использовать память двигателя и работать глубже в материал, делать заметки.

3. Учитесь программировать 👨💻️

Помимо математики, вы должны быть в состоянии программировать. Обычно Python или R выбран в качестве основного языка для аналитиков данных. Степик имеет хорошие курсы на обоих языках, в том числе с акцентом на анализ данных:

Ньюкомы к науке данных часто возникают вопрос о том, какой язык выбрать главный – созданный Специально для обработки данных R или универсальный Python Отказ Хотя это горячая тема, я лично начал с r (в вычислительной биологии, подобных им больше), однако, теперь я знаю оба языка и настоятельно рекомендую Начало сначала с Python , поскольку переход Python -> R более гладкий, по сравнению с обратным направлением.

Короче говоря: Если вы планируете карьеру в науке данных, я рекомендую Вы осваиваете оба языка Отказ Знание концепций и библиотек R сохранит вас на шаг впереди пользователей только Python, и наоборот. Вот как аналитик данных Ирина Голошчапова пишет об этом:

Объединяя самые мощные и стабильные библиотеки R и Python в некоторых случаях, вы можете улучшить эффективность расчетов или избежать изобретения велосипедов для осуществления любых статистических моделей. Во-вторых, это увеличение скорости и удобства выполнения проекта, если разные люди в вашей команде (или себе) имеют хорошие знания о разных языках. Разумное сочетание существующих навыков программирования R и Python может помочь.

Но если вы хотите пойти, хотеть не просто, но проще, тогда один Python достаточно – вы найдете больше курсов и Ответы на всевозможные вопросы на нем Отказ

4. Научитесь использовать инструменты 🛠️.

Одним из самых популярных инструментов для обмена результатами анализа данных является ноутбуки Jupyter:

Jupyter Notebooks и платформа лаборатории Jupyter позволяют вам объединить код, текст в Markdown и формул в латекс, тестировании и профилирование в одном документе. Кроме того, вы можете сотрудничать на ноутбуках, используя Google Colab или Jupyterhub Отказ

Учитесь Используйте Git как можно быстрее. В процессе вам придется выбирать между различными моделями и архитектурными решениями – контроль версий очень полезен здесь.

Плюс, есть Многие отличные науки о науках данных на Github. Помните, что открытый исходный код является одним из самых простых способов получить необходимую опыт работы по команде и способствовать общему причину.

Вы, естественно, столкнулись с другими популярными инструментами, когда вы прогрессируете через курсы. Например, в Python для высокоскоростной обработки массивов данных, знание Numpy требуется, для табличной презентации данных, Пандас DataFrames обычно используются для визуализации – Матплотлиб или Сюжер Готовые классы популярных моделей машинного обучения импортируются из Scikit-Surve .

Несколько курсов сосредоточены на этом, но на практике данные обычно хранятся в базах данных – SQL или NOSQL. Для дальнейшей работы вам нужно будет научиться общению с ними:

Для глубокого обучения вам нужно ознакомиться с рамками – Tensorflow или Pytorch. Есть другие – мы сравнили их в статье «Напишите свою первую генеративную состязательскую сетевую модель на Pytorch» Отказ

5. Возьмите столько курсов науки о данных, как вы можете 🎓

Курсы:

Учебники:

6. Присоединяйтесь к сообщению науки открытых данных 👥

Многие интересные вещи могут быть изучены из агрегантов новостей английского языка из мира науки о данных:

7. Примите участие в соревнованиях 🤼

Зарегистрируйтесь на Kaggle Отказ Это не только самая известная Станок обучающий конкурс платформа С денежными призами С Но это также большое сообщество с реестром наборы данных , Jupyter ноутбуки , Мини-курсы и Обсуждения Отказ Участие в рейтинге Kaggle в вашем резюме может дать вам дополнительный кредит на ваше интервью.

8. Исследуйте конкретные вопросы науки о данных 👁️🗨️

Наука данных – это невероятно широкое междисциплинарное поле, а специальные навыки необходимы для решения конкретных проблем. Посмотрев себя с Каглем, вам станет яснее, в котором потребовало знание, которые у вас есть пробелы.

Также обратите внимание на следующие курсы:

Каналы YouTube также пригодятся:

На YouTube канал Компьютерный научный центр, Курсы в специальных разделах удобно организованы в плейлисты:

Не прекращайте учиться. Просмотрите верхние и боковые подложки для темы, связанные с машинным обучением:

9. В конце каждого курса делают проект 🏗️

Используйте новые знания в области науки о данных, чтобы помочь себе и другим. Создать что-то, что заставит других сказать «вау»! Многие идеи проекта перечислены в ** AWESOME-AI-USECASES , ** 51 Toy Data Poble , ** Практические панды-проекты **.

Вы можете начать не из проекта, а из интересного набора данных. Список популярных реестров:

Много обсуждений с идеями проекта можно найти на квора:

Создайте публичный репозиторий на GitHub для каждого проекта. Почистите результаты, поделитесь их в своем блоге и сообществе. Способствовать боковым проектам, разместите свои идеи и мысли. Все это поможет вам построить портфель и познакомиться с людьми, работающими над соответствующими задачами.

10. Читать научные статьи🔬

Основными языками науки о данных не являются Python или R, а английский и язык математики.

Предварительные преприны статей публикуются на Сайт Arxiv Отказ Самые полезные разделы для ученых данных:

Просто невозможно отследить все публикации. Перечисленные выше ветви Reddit, перечисленные выше, помогут изолировать самые важные тексты (поскольку автор стал главой отдела AI в Tesla, сайт стал чаще всего ломаться, но это все еще лучший инструмент). Есть также Такой список статей с комментариями и записи вебинаров из канала YouTube Kaggle С разбором научных статей, связанных с научными алгоритмами данных .

11. Возьмите информационную ставку/Job🕴🕴

Наука данных является высококонкурентной профессией по требованию. Но даже результаты интервью превращаются в данные членами сообщества. Есть много списков вопросов для подготовки к интервью ученого данных:

В этом году сложнее, но мы надеемся, что летние школы и стажировки скоро вернется:

Обязательно используйте свои навыки добычи данных для анализа рынка труда – проанализировать, какие навыки навыки встречаются в рабочих местах, которые чаще отталкивают их как можно больше. Оцените, сколько доходов вы можете ожидать, с учетом расходов на сайте, прокат жилья и переезда в другой город.

12. Поделитесь своим опытом с сообществом 📢

Поделитесь своим проектом или найдите его с помощью сообщества данных науки. Подготовьте разговор и поговорите в местной встрече. Запустите блог, где вы поделитесь своими находками, своими собственными идеями и репозиториями.

Последнее, но не в последнюю очередь, наслаждайтесь тем, как ваши навыки помогают сделать мир лучшее место!

13. Читать далее

Если вы нашли эту статью полезную, щелкните кнопку 💚 или 👏 ниже или поделитесь статьей на Facebook, чтобы ваши друзья могли извлечь выгоду из него тоже.

https://slidetosubscribe.com/raevskymichail/

Оригинал: “https://dev.to/mikhailraevskiy/data-scientist-12-steps-from-beginner-to-pro-3fh6”