Большинство ученых и инженеров машинного обучения предпочитают использовать Python для науки о данных и разработки приложений искусственного интеллекта и машинного обучения.
Этот пост был первоначально опубликован здесь .
Вот 5 Необходимы навыки в Python для каждого ученых данных
Если вы ученый для данных или хотите изучать науку о данных с помощью Python Track, вот пять критических навыков, которые вам необходимы для новичка.
И чтобы помочь вам развить эти навыки, мы связали некоторые из лучших доступных ресурсов, которые помогут вам стать практикующим творческими данными.
1. Сокращение данных
Сбор данных с веб -сайтов является одним из наиболее логичных и легкодоступных источников данных.
Вам нужно научиться использовать пакеты Python, такие как urllib2 , Запросы , SimpleJson , Регулярные операции выражения , Селен и Красивый суп Чтобы облегчить обработку веб -запросов и форматов данных.
2. SQL
Вам необходимо научиться превратить необработанные данные в действенную информацию, и как только у вас будет большое количество структурированных данных, вы захотите сохранить и обработать их.
Чтобы быть эффективным ученым или инженером, вы должны быть в состоянии спорить и извлекать данные из реляционных баз данных с помощью SQL.
3. Рамки данных
SQL важен в науке о данных и отлично подходит для обработки больших объемов данных, однако ему не хватает машинного обучения и визуализации данных.
Таким образом, вам придется пройти через болезненный процесс предоставления услуг машинного обучения в SQL Server или использовать MapReduce, чтобы получить данные в управляемом размере, а затем обработать его с помощью Панды Анкет
4. Машинное обучение
Много наук о данных может быть сделано с помощью Select, присоединения и группы по (или, эквивалентно, карту и уменьшению), но иногда вам нужно сделать нетривиальное машинное обучение.
Прежде чем прыгнуть в более любимые алгоритмы, попробуйте более простые алгоритмы, такие как Наивный Байес и регуляризован , линейная регрессия . В Python они реализованы в Scikit-learn Анкет
5. Визуализация данных
Наука данных о том, чтобы сообщить ваши выводы, а визуализация данных является невероятно ценной частью этого.
Python предлагает Matlab-подобный график через matplotlib , что функционально, даже если его аскетично не хватает, и если вы действительно серьезно относитесь к динамической визуализации, попробуйте D3 Анкет
Эти навыки превосходно преподаются в Ученый для данных с Python Career Track предлагается DataCamp.
DataCamp Предлагает 100+ Курсы опытных инструкторов по таким темам, как импорт данных, визуализация данных, SQL, машинное обучение, статистическое мышление и многое другое.
Вы будете учиться быстрее DataCamp Непосредственные и персонализированные отзывы о каждом упражнении.
Перед тем, как ты уйдешь
Вы также можете быть заинтересованы в чтении Как изучить науку данных с Python или может захотеть начать с одного Лучший ( и доступно …) Курсы науки о данных Чтобы изучить и обновить свои навыки.
Если вы хотите учиться Вероятность и статистика для науки о данных я получил в этой статье о лучших онлайн -классах .
Желаю вам всего наилучшего в вашей карьере!
Оригинал: “https://dev.to/sinxloud/python-skills-data-scientist-3146”