Шпаргалка: Python Для науки О Данных

Автор оригинала: Codementor Team.

Начать изучать новый язык программирования никогда не бывает легко. А для начинающих исследователей данных это может быть даже более важно — в большинстве случаев они приходят из разных областей исследований или уже имеют несколько лет опыта работы в отрасли, которая сильно отличается от отрасли науки о данных.

К счастью, есть несколько ресурсов, на которые вы можете вернуться, как в Интернете, так и в реальной жизни. Но, в частности, для науки о данных, вы обнаружите, что количество доступных материалов иногда может отсутствовать: у вас есть общие шпаргалки Python, которые расскажут вам о самых важных вещах, которые вам нужно знать, чтобы программировать с помощью Python, но это не специально предназначено для индустрии науки о данных.

Чтобы помочь студентам, которые проходят курс free Python for Data Science , DataCamp запустил серию шпаргалок , предназначенных для тех, кто только начинает изучать науку о данных и может использовать еще немного материала для поддержки своего обучения.

содержание

Переменные и типы данных
Строки
Списки
Библиотеки
Установка Python
Массивы NumPy
Некоторые Полезные Базовые Статистические Функции
Python Для Шпаргалки по Науке о данных

Python Для Шпаргалки по Науке о данных

Шпаргалка является удобным дополнением к вашему обучению, поскольку она охватывает основы, объединенные в семь тем, которые должен знать любой новичок, чтобы начать заниматься наукой о данных с помощью Python.

Переменные и типы данных

Чтобы начать с Python, вам сначала нужно знать о переменных и типах данных. Это не должно удивлять, так как они являются основой каждого языка программирования.

Переменные используются для присвоения имени и хранения значения для последующего использования компьютерной программой, например для ссылок или манипуляций. Чтобы сохранить значение, вы назначаете его переменной. Это называется присвоением переменной: вы устанавливаете или сбрасываете значение, которое хранится в одном или нескольких местах, обозначенных именем переменной.

Когда вы присвоили значение переменной, ваша переменная получает или изменяет свой тип данных. Тип данных определяет, какой тип значения содержит переменная и какие операции могут быть применены к ней. В Python вы можете легко присваивать значения таким переменным, как: x=5 . Когда вы затем распечатаете или обратитесь к x , вы получите значение 5. Естественно, тип данных x будет целым числом.

Это всего лишь голые основы Python. Следующий шаг – выполнить вычисления с переменными. Те, которые упоминаются в шпаргалке, – это сумма, вычитание, умножение, возведение в степень, остаток и деление. Вы уже будете знать, как работают эти операции и какое влияние они могут оказать на значения, но шпаргалка также покажет вам, как выполнять эти операции в Python

Когда вы только начинаете работать с Python, вам также может быть полезно узнать больше о некоторых функциях, например. К счастью, у других до вас также была такая потребность, поэтому есть способ запросить дополнительную информацию: просто используйте метод help () . Не забудьте передать элемент, о котором вы хотите узнать больше. Другими словами, вам нужно поместить элемент, который в данном случае является strong , между скобками, чтобы получить необходимую вам информацию.

Далее вы увидите, что в списке перечислены некоторые из наиболее популярных встроенных структур данных: строки и списки.

Строки

Строки являются одним из основных элементов языков программирования в целом, и это не сильно отличается от Python. Вещи, которые вы должны освоить, когда дело доходит до работы со строками, – это некоторые строковые операции и строковые методы.

В основном существует четыре строковых операции, которые вам нужно знать, чтобы начать работать со строками:

Если вы умножите свою строку, вы увидите, что строка стала значительно больше, так как она связывает одну и ту же строку x раз с исходной.
Если вы добавите строку к исходной строке, вы получите обратно конкатенацию вашей строки и новой строки, которую вы к ней добавили.
Вы должны иметь возможность проверить, присутствует ли определенный элемент в вашей строке.
Вы должны знать, что вы также можете выбирать элементы из строк в Python. Не забывайте, что индекс начинается с 0; вы увидите это позже, когда будете работать со списками и массивами numpy, а также на других языках программирования.

Когда дело доходит до строковых методов, определенно полезно знать, что вы должны использовать методы upper() или lower () , чтобы поместить строку в верхний или нижний регистр соответственно. Кроме того, знание того, как считать строковые элементы или как их заменять, не является легкомысленной роскошью. И, особенно когда вы анализируете текст, вы найдете способ удалить пробелы с концов чрезвычайно удобным.

Вы можете почувствовать, что эти строки не сразу станут тем, что вы будете использовать, когда начнете заниматься наукой о данных, и это будет в основном верно; Интеллектуальный анализ текста и Обработка естественного языка (НЛП) уже продвинуты, но это не повод пренебрегать этой структурой данных!

Списки

С другой стороны, списки с самого начала будут казаться более полезными. Списки используются для хранения упорядоченной коллекции элементов, которые могут быть разных типов, но обычно это не так. Элементы, содержащиеся в списке, разделяются запятыми и заключаются в квадратные скобки. В этом случае переменная my_list состоит из строк: у вас есть “мой” и “список”, но также и переменные, которые также являются строками. Вы видите, что мы поместили ссылку на массивы NumPy в этом разделе. Это главным образом потому, что были некоторые дискуссии о том, следует ли использовать списки или массивы в некоторых случаях.

Четыре причины, по которым большинство питонистов упоминают, чтобы лучше использовать массивы NumPy над списками::

Массивы NumPy более компактны, чем списки,
Доступ к элементам чтения и записи быстрее с помощью NumPy,
С NumPy может быть удобнее работать, благодаря тому, что вы получаете множество векторных и матричных операций бесплатно,
NumPy может быть более эффективным для работы, потому что они реализованы более эффективно.

Для науки о данных и объема данных, с которыми вы будете работать в реальных ситуациях, вам также полезно знать, как работать с массивами NumPy.

Списки легко инициализируются с помощью квадратных скобок ( [] ). Обратите также внимание, что вы можете создавать списки списков, как в переменной my_list 2 ! Это особенно сложно, когда вы только начинаете. Далее, как и в случае со строками, вам также нужно знать, как выбирать элементы списка. Убедитесь, что вы не забыли, что и здесь индекс начинается с 0.

Библиотеки

Когда вы изучили некоторые из абсолютных основ Python, пришло время начать работу с библиотеками науки о данных Python. Популярные из них, которые вы должны проверить, – это панды, NumPy, scikit-learn и matplotlib. Но почему эти библиотеки так важны для науки о данных?

Pandas используется для обработки данных с помощью Python ( подробнее о Панд ). Удобные структуры данных, которые предлагает pandas, такие как серия и фрейм данных, необходимы для анализа данных.
NumPy , пакет, который предлагает массив NumPy в качестве более эффективной альтернативной структуры данных спискам, пригодится, когда вы запачкаете руки наукой о данных.
С другой стороны, Scikit-learn является идеальным инструментом, если вы хотите начать работу с машинным обучением и интеллектуальным анализом данных.
Наконец, matplotlib – это одна из основных библиотек Python, которую вам необходимо освоить, чтобы начать создавать впечатляющие визуализации данных и анализ данных.

Вы сразу увидите, что эти четыре библиотеки предложат вам все, что вам нужно, чтобы начать заниматься наукой о данных .

Бывают случаи, когда вы хотите полностью импортировать эти библиотеки для разработки своих анализов, но в других случаях вы хотите выполнить только выборочный импорт, когда вы импортируете только определенное количество модулей или методов библиотеки.

Кроме того, существуют определенные соглашения, которые необходимо соблюдать при импорте библиотек, упомянутых выше: таким образом, pandas импортируется как .pd, NumPy импортируется как .np, scikit-learn на самом деле .sklearn, когда вы хотите импортировать модули, и вы импортируете matplotlib.pyplot как .plt.

Прямо сейчас эти условности могут показаться вам странными или совершенно ненужными, но вы быстро увидите, что это становится легче, когда вы начинаете интенсивно работать с ними.

Установка Python

Теперь, когда вы рассмотрели некоторые основы, вы можете установить Python, если вы еще этого не сделали. Подумайте о том, чтобы получить один из дистрибутивов Python, например Anaconda . Это ведущая платформа для изучения открытых данных, работающая на Python. Абсолютным преимуществом установки Anaconda является то, что вы легко получите доступ к более чем 720 пакетам, которые вы можете установить с помощью conda. Но у вас также есть менеджер зависимостей и среды и интегрированная среда разработки Spyder (IDE). И как будто этих инструментов было недостаточно, вы также получаете Jupyter Notebook , интерактивную среду обработки данных, которая позволяет вам использовать ваши любимые инструменты обработки данных и с легкостью делиться своим кодом и анализами.

Короче говоря, все инструменты, которые вам нужны, чтобы начать заниматься наукой о данных с помощью Python!

Когда вы импортировали библиотеки, необходимые для обработки данных, вам, вероятно, потребуется импортировать самую важную структуру данных для научных вычислений в Python: массив NumPy.

Массивы NumPy

Вы увидите, что эти массивы очень похожи на списки и что, возможно, к некоторому удивлению, вы можете преобразовать свои списки в массивы NumPy. Помните вопрос о производительности выше? Это и есть решение!

Подмножество и нарезка массивов NumPy работают очень похоже на работу со списками. Не забывайте, что индекс начинается с 0 Когда вы посмотрите на операции, которые вы можете выполнять с массивами NumPy, вы увидите, что они позволяют разрешить подмножество при использовании операторов < или > . Вы также можете умножать и добавлять массивы NumPy. Это, конечно, изменит значения, которые содержит ваш массив.

Некоторые Полезные Базовые Статистические Функции

Наконец, есть некоторые функции, которые, несомненно, пригодятся, когда вы начинаете работать с Python: есть некоторые основные статистические показатели, такие как среднее значение , медиана, коэффициент корреляции и стандартное отклонение, которые вы можете получить с помощью mean () , median () , corrcoef () и std () соответственно. Вы также можете вставлять, удалять и добавлять элементы в массивы. Кроме того, убедитесь, что не пропустите функцию shape, чтобы получить размеры массива. Если ваш массив содержит n строк и m столбцов, вы получите обратно кортеж (m,n); Очень удобно, если вы хотите проверить свои данные.

Python Для Шпаргалки по Науке о данных

Первой, которая была опубликована, была шпаргалка Python for Data Science . Вы можете нажать на изображение ниже, чтобы получить доступ к полной шпаргалке.

Биография автора

Martijn, является соучредителем DataCamp , интерактивной образовательной онлайн-платформы для науки о данных, которая сочетает в себе забавные видеоинструкции с задачами кодирования в браузере. В свободное время он занимается коллекционированием футболок супергероев.

содержание

Python Для Шпаргалки по Науке о данных

Переменные и типы данных

Строки

Списки

Библиотеки

Установка Python

Массивы NumPy

Некоторые Полезные Базовые Статистические Функции

Python Для Шпаргалки по Науке о данных

Биография автора

Читайте ещё по теме: