12 шагов для тех, кто хочет построить карьеру в науке данных с нуля. Ниже есть руководство к действию и рассеяние ссылок на полезные ресурсы.
1. Решить, кто вы хотите стать 💭
Поле данных науки развивается энергично. Но наука о данных не только нейронные сети Но также классическая статистика и алгоритмы машинного обучения (которые более понятны для бизнес-процессов), а в целом все связано с анализом, обработкой и представлением информации в цифровой форме.
Еще не может быть сказано, что существует четкое разделение труда в науке данных – это неспециализированная профессия. Грубая аналогия: так же, как были чистые ** Компьютерные ученые * (компьютерные ученые и программисты), которые поняли все, связанные с компьютерами, так что теперь есть ** ученые данных * Кто занимается всем, связанным с данными. Маркер первого движения к специализации труда – это сфера онлайн-образования.
Так или иначе, ученый данных работает на пересечении нескольких областей:
▶ ️. Математика (включая линейную алгебру, алгоритмы обучения машины)
▶ ️. Программирование (бывший. Python, R, SQL обычно является минимальным требованием)
▶ ️ Деловые проблемы (Да, кроме компьютерных наук, вы должны понимать, какие бизнес-процессы и как вы можете улучшить его)
В зависимости от вашей роли в команде некоторые из этих вещей должны быть сделаны больше. При выборе вектора разработки начните с ваших собственных интересов – обучение потребует значительных ресурсов, и без любви к вашей работе, вы будете быстро сгореть Отказ Математическая база необходима, но вполне вероятно, что личный круг задач будет сведен к использованию существующих инструментов и знаний, а не изобретению чего-то нового. Как сказал К. В. Воронцов в одно интервью :
Люди, которые знают, как использовать готовые алгоритмы, нужно больше 50-100-500 раз. Похоже, что проблема того, как преподавать компьютерную науку и проблему «более математики или более инжиниринга» имеет следующий ответ: вам нужен обоим, но вы должны научить математику тщательно выбрать множество людей, которые поняли себя создателями , дизайнеры новых методов
2. Подтянуть математическую базу ➕
Если вы хотите действительно понять алгоритмы обучения машины, вам нужно сначала понять Линейная алгебра , Многомассажный исчисление , Теория вероятностей и Математическая статистика Отказ
Степик имеет подходящие бесплатные видеочевные курсы для каждого из областей тестирования знаний:
Линейная алгебра для науки о данных в R (4 часа уроков)
Введение в исчисление (48 часов)
Основы вероятности в Python (5 часов)
Основы статистики , Часть 2 , Часть 3 (Всего 43 часа)
Если иллюстрации, визуализация недостаточно, я настоятельно рекомендую взглянуть на замечательный канал 3Blue1Brown Отказ Есть плейлисты для Линейная алгебра , анализ , Дифференциальные уравнения Отказ
Кстати, есть Подробный курс 175 видео на Многомерный математический анализ На ** Khan Academy Channel * *.
При принятии видео лекций не забывайте о возможности быстродействующего. Использовать память двигателя и работать глубже в материал, делать заметки.
3. Учитесь программировать 👨💻️
Помимо математики, вы должны быть в состоянии программировать. Обычно Python или R выбран в качестве основного языка для аналитиков данных. Степик имеет хорошие курсы на обоих языках, в том числе с акцентом на анализ данных:
Анализируя данные в R , Часть 2 Отказ
Ньюкомы к науке данных часто возникают вопрос о том, какой язык выбрать главный – созданный Специально для обработки данных R или универсальный Python Отказ Хотя это горячая тема, я лично начал с r (в вычислительной биологии, подобных им больше), однако, теперь я знаю оба языка и настоятельно рекомендую Начало сначала с Python , поскольку переход Python -> R более гладкий, по сравнению с обратным направлением.
Короче говоря: Если вы планируете карьеру в науке данных, я рекомендую Вы осваиваете оба языка Отказ Знание концепций и библиотек R сохранит вас на шаг впереди пользователей только Python, и наоборот. Вот как аналитик данных Ирина Голошчапова пишет об этом:
Объединяя самые мощные и стабильные библиотеки R и Python в некоторых случаях, вы можете улучшить эффективность расчетов или избежать изобретения велосипедов для осуществления любых статистических моделей. Во-вторых, это увеличение скорости и удобства выполнения проекта, если разные люди в вашей команде (или себе) имеют хорошие знания о разных языках. Разумное сочетание существующих навыков программирования R и Python может помочь.
Но если вы хотите пойти, хотеть не просто, но проще, тогда один Python достаточно – вы найдете больше курсов и Ответы на всевозможные вопросы на нем Отказ
4. Научитесь использовать инструменты 🛠️.
Одним из самых популярных инструментов для обмена результатами анализа данных является ноутбуки Jupyter:
Jupyter Notebooks и платформа лаборатории Jupyter позволяют вам объединить код, текст в Markdown и формул в латекс, тестировании и профилирование в одном документе. Кроме того, вы можете сотрудничать на ноутбуках, используя Google Colab или Jupyterhub Отказ
Учитесь Используйте Git как можно быстрее. В процессе вам придется выбирать между различными моделями и архитектурными решениями – контроль версий очень полезен здесь.
Плюс, есть Многие отличные науки о науках данных на Github. Помните, что открытый исходный код является одним из самых простых способов получить необходимую опыт работы по команде и способствовать общему причину.
Вы, естественно, столкнулись с другими популярными инструментами, когда вы прогрессируете через курсы. Например, в Python для высокоскоростной обработки массивов данных, знание Numpy требуется, для табличной презентации данных, Пандас DataFrames обычно используются для визуализации – Матплотлиб или Сюжер Готовые классы популярных моделей машинного обучения импортируются из Scikit-Surve .
Несколько курсов сосредоточены на этом, но на практике данные обычно хранятся в базах данных – SQL или NOSQL. Для дальнейшей работы вам нужно будет научиться общению с ними:
Для глубокого обучения вам нужно ознакомиться с рамками – Tensorflow или Pytorch. Есть другие – мы сравнили их в статье «Напишите свою первую генеративную состязательскую сетевую модель на Pytorch» Отказ
5. Возьмите столько курсов науки о данных, как вы можете 🎓
Курсы:
Шул обучения машины Andrew NG на Coursera является одним из самых популярных моксов. Стоит принимать, если только потому, что он часто упоминается на другие продвинутые курсы. Однако октавы/MATLAB используются вместо стандартного Python и R.
Leskovets et al. Добыча массивных наборов данных Отказ Есть поломка глав: PDF, упражнения, презентации, видео.
Курсы на Datacamp.
Harvard Data Science Курс (edx)
Вероятностное программирование и байесовские методы для хакеров
Нырять в глубокое обучение: бесплатная интерактивная книга с кодом, математикой и обсуждением http://d2l.ai.ai.
Учебники:
- Hasti et al. Элементы статистического обучения
HAL DAUMÉ III Академический Курс обучения машины
Шалев-Шварц и Бен-Давид. Понимание машины обучения: от теории к алгоритмам
- Дэвид Барбер. Теория принятия решений Байесиан и обучение машины
- Том Митчелл. Машинное обучение
- Devroy et al. Вероятностная теория распознавания картины
- Аккуратно разработанные издания с легким копированием R в действии: анализ данных и график с R и Машина обучения в действии
6. Присоединяйтесь к сообщению науки открытых данных 👥
Многие интересные вещи могут быть изучены из агрегантов новостей английского языка из мира науки о данных:
7. Примите участие в соревнованиях 🤼
Зарегистрируйтесь на Kaggle Отказ Это не только самая известная Станок обучающий конкурс платформа С денежными призами С Но это также большое сообщество с реестром наборы данных , Jupyter ноутбуки , Мини-курсы и Обсуждения Отказ Участие в рейтинге Kaggle в вашем резюме может дать вам дополнительный кредит на ваше интервью.
8. Исследуйте конкретные вопросы науки о данных 👁️🗨️
Наука данных – это невероятно широкое междисциплинарное поле, а специальные навыки необходимы для решения конкретных проблем. Посмотрев себя с Каглем, вам станет яснее, в котором потребовало знание, которые у вас есть пробелы.
Также обратите внимание на следующие курсы:
Курс структур данных Отказ
Компьютерная графика: основы (Полезно для работы с моделями, которые обрабатывают изображения).
Каналы YouTube также пригодятся:
На YouTube канал Компьютерный научный центр, Курсы в специальных разделах удобно организованы в плейлисты:
- Машинное обучение ( Вторая часть )
- Изображение и видеоанализ ( Вторая часть )
- Введение в обработку естественного языка
- Анализ данных в Python в примерах и задачах ( продолжение )
- Анализ данных в R
- Технологии хранения и обработки больших объемов данных
- Математическая статистика Отказ
Не прекращайте учиться. Просмотрите верхние и боковые подложки для темы, связанные с машинным обучением:
9. В конце каждого курса делают проект 🏗️
Используйте новые знания в области науки о данных, чтобы помочь себе и другим. Создать что-то, что заставит других сказать «вау»! Многие идеи проекта перечислены в ** AWESOME-AI-USECASES , ** 51 Toy Data Poble , ** Практические панды-проекты **.
Вы можете начать не из проекта, а из интересного набора данных. Список популярных реестров:
Совокупный список наборов данных с открытым исходным кодом Удивительные общедоступные наборы данных
База данных статистики по финансам, спорту, географии, промышленности
Много обсуждений с идеями проекта можно найти на квора:
Создайте публичный репозиторий на GitHub для каждого проекта. Почистите результаты, поделитесь их в своем блоге и сообществе. Способствовать боковым проектам, разместите свои идеи и мысли. Все это поможет вам построить портфель и познакомиться с людьми, работающими над соответствующими задачами.
10. Читать научные статьи🔬
Основными языками науки о данных не являются Python или R, а английский и язык математики.
Предварительные преприны статей публикуются на Сайт Arxiv Отказ Самые полезные разделы для ученых данных:
Просто невозможно отследить все публикации. Перечисленные выше ветви Reddit, перечисленные выше, помогут изолировать самые важные тексты (поскольку автор стал главой отдела AI в Tesla, сайт стал чаще всего ломаться, но это все еще лучший инструмент). Есть также Такой список статей с комментариями и записи вебинаров из канала YouTube Kaggle С разбором научных статей, связанных с научными алгоритмами данных .
11. Возьмите информационную ставку/Job🕴🕴
Наука данных является высококонкурентной профессией по требованию. Но даже результаты интервью превращаются в данные членами сообщества. Есть много списков вопросов для подготовки к интервью ученого данных:
В этом году сложнее, но мы надеемся, что летние школы и стажировки скоро вернется:
Какие компании предлагают научные данные науки для студентов
Когда лучшее время, чтобы подать заявку на летние данные науки
Обязательно используйте свои навыки добычи данных для анализа рынка труда – проанализировать, какие навыки навыки встречаются в рабочих местах, которые чаще отталкивают их как можно больше. Оцените, сколько доходов вы можете ожидать, с учетом расходов на сайте, прокат жилья и переезда в другой город.
12. Поделитесь своим опытом с сообществом 📢
Поделитесь своим проектом или найдите его с помощью сообщества данных науки. Подготовьте разговор и поговорите в местной встрече. Запустите блог, где вы поделитесь своими находками, своими собственными идеями и репозиториями.
Последнее, но не в последнюю очередь, наслаждайтесь тем, как ваши навыки помогают сделать мир лучшее место!
13. Читать далее
Если вы нашли эту статью полезную, щелкните кнопку 💚 или 👏 ниже или поделитесь статьей на Facebook, чтобы ваши друзья могли извлечь выгоду из него тоже.
https://slidetosubscribe.com/raevskymichail/
Оригинал: “https://dev.to/mikhailraevskiy/data-scientist-12-steps-from-beginner-to-pro-3fh6”