Автор оригинала: Kunal Dhawan.
О чем этот пост ?
Когда я гуглю ” Data Science “, 8/10 результатов-это курсы по науке о данных. Когда я открываю эти курсы, я вижу некоторые общие предложения, такие как “изучите Python для науки о данных”, “основы анализа данных в Python ” и т. Д. Я думаю, вы, должно быть, поняли, почему я написал python жирным шрифтом. Все в технологической индустрии признают, что Python является самым важным языком для науки о данных в настоящее время. Я хочу покопаться в этом факте и выяснить, почему он верен. Более того, как python стал самым важным языком для науки о данных и какую связь он поддерживает с наукой о данных. Какие события произошли за последнее десятилетие, которые заставили python подняться по лестнице науки о данных и занять первое место, оставив место и SAS позади прямо или косвенно.
Что этот пост не охватывает ?
Это письмо не является учебником какого-либо типа. Он не будет охватывать методы науки о данных или программирование на python. В нем будет освещена связь между языком python и наукой о данных. В нем рассказывается о том, как они работают вместе. Если вы хотите изучить Python или методы обработки данных, это не для вас.
Что такое “Ученый по данным” и как он эволюционировал ?
Название Data Scientist стало популярным в конце 90-х годов. Мне очень понравилось определение, данное в alexa.com – “Data Scientist – это взрослая версия ребенка, который не может перестать спрашивать-Почему?”. Развитие науки о данных было настолько быстрым, что Data Scientist является самой сексуальной должностью в настоящее время.
Объем цифровых данных составляет примерно 4,4 трлн ГБ, и ожидается, что в следующем десятилетии он увеличится в десять раз.Компании больше заинтересованы в том, чтобы извлечь смысл из имеющихся данных, чтобы получить конкурентное преимущество. Теперь возникает вопрос, как они нанимают ?
В 2006 году Обозначение- Аналитик данных или бизнес – аналитик Инструменты – SAS(самые популярные), R, WEKA, Statistical Справочная информация – Статистика, математика и экономика
В 2011 году Компании осознали важность знаний о предметной области. Аналитики работали для отрасли, в которой они никогда не были, над продуктом, который они никогда не использовали, и для клиентов, с которыми они никогда не могли иметь дело. В этот момент понимание бизнеса стало ключевым моментом. В аналитических командах были выпускники MBA, инженеры и даже психологи. R стал сильным конкурентом для SAS, поскольку он был с открытым исходным кодом. Появился Hadoop, наборы данных теперь назывались Big Data .
В настоящее время ученые отделили их от анализа данных. Специалисты по обработке данных имеют возможность специализироваться в области науки о данных, машинного обучения, больших данных и визуализации данных. Все эти специализации приводят практикующего специалиста к специализированной роли в соответствии с его опытом.
Любой студент, который хочет изучать науку о данных, должен потратить некоторое время на анализ своего инструментария.
Предложение Python
Python предоставляет все необходимые функции, необходимые специалистам по обработке данных, и хорошо интегрируется с такими инструментами, как Hadoop и Spark. давайте посмотрим, как,
NumPy – поддерживает большие N-мерные массивы и мощные математические функции. | Q1. Как легко выполнить численный анализ? |
Pandas – поддерживает структуры данных и операции с таблицами, называемыми фреймами данных. | Q2. Как манипулировать данными? |
Matplotlib – построен поверх NumPy и Pandas для поддержки визуализации данных. | Q3. Как я должен визуализировать данные? |
SciPy – поддерживает научные и технические вычисления. | Q4. Как проводить научный анализ и вычисления? |
Модель статистики – поддерживает статистический анализ. | Q5. Как проводить статистический анализ? |
Scikit-learn – поддерживает машинное обучение и прогнозное моделирование. Он построен на NumPy, Pandas и Matplotlib. | Q6. Как реализовать машинное обучение? |
TensorFlow – поддерживает создание моделей глубокого обучения непосредственно или с помощью библиотек-оболочек. | Q7. Как реализовать нейронные сети? |
PyMySQL – поддерживает простое подключение к базе данных MySQL, выполнение запросов и извлечение данных. | Q8. Как подключить базу данных MySQL? |
BeautifulSoup – поддерживает простое чтение данных типа XML и HTML. | Q9. Как читать XML, HTML-данные? |
Jupyter Notebook – поддерживает интерактивное программирование наряду с визуализацией. | Q10. Мне нужен интерактивный блокнот для программирования, такой как R, что я могу сделать? |
Вывод
Этот пост не предлагает вам практиковать науку о данных с python, он просто подчеркивает богатство библиотек, которые python может вам предложить. Это говорит о том, что разработчики постоянно работают над пакетами python, чтобы обеспечить больше функциональности, что сделало python хорошим выбором.
Post Notes Я попытался осветить некоторые из наиболее важных требований в области науки о данных и их решения на Python. Пожалуйста, предложите, если я что-нибудь пропустил.