Рубрики
Без рубрики

Наука о данных и Python

О чем этот пост ? Когда я гуглю “Наука о данных”, 8/10 результатов-это курсы по науке о данных. Когда я открываю эти курсы, я вижу некоторые общие предложения, такие как “изучите Python для науки о данных”…

Автор оригинала: Kunal Dhawan.

О чем этот пост ?

Когда я гуглю ” Data Science “, 8/10 результатов-это курсы по науке о данных. Когда я открываю эти курсы, я вижу некоторые общие предложения, такие как “изучите Python для науки о данных”, “основы анализа данных в Python ” и т. Д. Я думаю, вы, должно быть, поняли, почему я написал python жирным шрифтом. Все в технологической индустрии признают, что Python является самым важным языком для науки о данных в настоящее время. Я хочу покопаться в этом факте и выяснить, почему он верен. Более того, как python стал самым важным языком для науки о данных и какую связь он поддерживает с наукой о данных. Какие события произошли за последнее десятилетие, которые заставили python подняться по лестнице науки о данных и занять первое место, оставив место и SAS позади прямо или косвенно.

Что этот пост не охватывает ?

Это письмо не является учебником какого-либо типа. Он не будет охватывать методы науки о данных или программирование на python. В нем будет освещена связь между языком python и наукой о данных. В нем рассказывается о том, как они работают вместе. Если вы хотите изучить Python или методы обработки данных, это не для вас.

Что такое “Ученый по данным” и как он эволюционировал ?

Название Data Scientist стало популярным в конце 90-х годов. Мне очень понравилось определение, данное в alexa.com – “Data Scientist – это взрослая версия ребенка, который не может перестать спрашивать-Почему?”. Развитие науки о данных было настолько быстрым, что Data Scientist является самой сексуальной должностью в настоящее время.

Объем цифровых данных составляет примерно 4,4 трлн ГБ, и ожидается, что в следующем десятилетии он увеличится в десять раз.Компании больше заинтересованы в том, чтобы извлечь смысл из имеющихся данных, чтобы получить конкурентное преимущество. Теперь возникает вопрос, как они нанимают ?

В 2006 году Обозначение- Аналитик данных или бизнес – аналитик Инструменты – SAS(самые популярные), R, WEKA, Statistical Справочная информация – Статистика, математика и экономика

В 2011 году Компании осознали важность знаний о предметной области. Аналитики работали для отрасли, в которой они никогда не были, над продуктом, который они никогда не использовали, и для клиентов, с которыми они никогда не могли иметь дело. В этот момент понимание бизнеса стало ключевым моментом. В аналитических командах были выпускники MBA, инженеры и даже психологи. R стал сильным конкурентом для SAS, поскольку он был с открытым исходным кодом. Появился Hadoop, наборы данных теперь назывались Big Data .

В настоящее время ученые отделили их от анализа данных. Специалисты по обработке данных имеют возможность специализироваться в области науки о данных, машинного обучения, больших данных и визуализации данных. Все эти специализации приводят практикующего специалиста к специализированной роли в соответствии с его опытом.

Любой студент, который хочет изучать науку о данных, должен потратить некоторое время на анализ своего инструментария.

Предложение Python

Python предоставляет все необходимые функции, необходимые специалистам по обработке данных, и хорошо интегрируется с такими инструментами, как Hadoop и Spark. давайте посмотрим, как,

Пакеты Python
NumPy – поддерживает большие N-мерные массивы и мощные математические функции. Q1. Как легко выполнить численный анализ?
Pandas – поддерживает структуры данных и операции с таблицами, называемыми фреймами данных. Q2. Как манипулировать данными?
Matplotlib – построен поверх NumPy и Pandas для поддержки визуализации данных. Q3. Как я должен визуализировать данные?
SciPy – поддерживает научные и технические вычисления. Q4. Как проводить научный анализ и вычисления?
Модель статистики – поддерживает статистический анализ. Q5. Как проводить статистический анализ?
Scikit-learn – поддерживает машинное обучение и прогнозное моделирование. Он построен на NumPy, Pandas и Matplotlib. Q6. Как реализовать машинное обучение?
TensorFlow – поддерживает создание моделей глубокого обучения непосредственно или с помощью библиотек-оболочек. Q7. Как реализовать нейронные сети?
PyMySQL – поддерживает простое подключение к базе данных MySQL, выполнение запросов и извлечение данных. Q8. Как подключить базу данных MySQL?
BeautifulSoup – поддерживает простое чтение данных типа XML и HTML. Q9. Как читать XML, HTML-данные?
Jupyter Notebook – поддерживает интерактивное программирование наряду с визуализацией. Q10. Мне нужен интерактивный блокнот для программирования, такой как R, что я могу сделать?

Вывод

Этот пост не предлагает вам практиковать науку о данных с python, он просто подчеркивает богатство библиотек, которые python может вам предложить. Это говорит о том, что разработчики постоянно работают над пакетами python, чтобы обеспечить больше функциональности, что сделало python хорошим выбором.

Post Notes Я попытался осветить некоторые из наиболее важных требований в области науки о данных и их решения на Python. Пожалуйста, предложите, если я что-нибудь пропустил.