Jupyter Notebook – это интерактивное веб-приложение, которое интерфейсы с iPython REPL, позволяя запустить структурированные, но итеративные сценарии Python. Это выбор де-факто для ученых данных для быстрого прототипа трубопроводов, визуализирует данные или выполнять специальный анализ.
Ноутбуки Jupyter являются фантастическим способом для визуальных наборов данных, которые вы могли бы иметь, а также проводить специальный анализ. Это особенно полезно для запроса баз данных и отображение данных повторяется.
Настройка вашей среды
При работе над любым проектом Python мне нравится использовать Pyenv и Pyenv Virtual Environment Wraphper для управления всеми разными версиями и зависимостями Python. Вы можете найти руководства по установке на PENV GitHUB REPO и Wirtual Env Wrapper Отказ
Если у вас нет установленного Python 3.6, уже выполните следующее:
$ pyenv install 3.6.0
Настройте новую виртуальную среду и активируйте ее:
# Create a Python 3.6.0 environment called jupyter-notebooks $ pyenv virtualenv 3.6.0 jupyter-notebooks # Start the virtual environment $ pyenv activate jupyter-notebooks
Затем установите все зависимости, которые вам потребуются:
$ pip install jupyter pandas numpy matplotlib seaborn
Наконец, начните свой сервер Jupyter в каталоге, который вы хотели бы сохранить свои ноутбуки:
$ jupyter notebook
Создание ноутбука
Ноутбуки создаются с помощью выпадающего списка в верхнем правом углу страницы. Jupyter автоматически откроется и начнет ноутбук, так что вы будете готовы к работе.
Как и с любым другим файлом Python, это лучшая практика, чтобы включить ваш импорт в верхней части файла. В Jupyter мы можем использовать первую клетку для них. Shift + Enter запускает ячейку, как только вы написали свой скрипт.
# Pandas for manipulating dataframes import pandas as pd # Matplotlib for inline graphs and plots from matplotlib import pyplot as plt %matplotlib inline # Seaborn for plot styles. import seaborn as sns
Чтение в данных
CSV.
Pandas имеет удобную функцию для чтения в файлах CSV. Ниже приведены пара примеров, но Крис Албон имеет Отличный блог Post Об импорте файлов CSV, если вам нужна дополнительная информация.
# if the file has headers df = pd.read_csv('path_to_file') # if the file has no headers df = pd.read_csv('path_to_file', headers=None)
Изучение данных
Существует ряд методов для изучения кадра данных после его нагрузки. Проверять первый n ряды, используйте голова
Функция, которая возвращает первые 5 строк по умолчанию, но может вернуть любой указанный номер.
# Print the first 5 df.head() # Print the first 10 df.head(10)
Чтобы узнать некоторую основную информацию о данных, проводимых в рамках данных, Опишите
Функция выводит сводку значений, исключающих любой Нан
ценности.
df.describe()
Наконец, для просмотра кадров данных в его полноте Pandas предоставляет опция_context
Функция для временного установки параметров в пределах с
контекст.
# Set the max rows to print to 999 and print. with pd.option_context('display.max_rows', 999): print (df)
Изменение и фильтрация данных
Чтобы получить доступ к отдельным столбцам и значениям в рамке данных, Pandas предоставляет loc
параметр.
# fetch a column df['column_name'] # fetch a row df.loc['index_value'] # fetch a single value df.loc['index_value', 'column_name'] # filter a data-frame by a given condition df.loc[lambda df: df['column_name'] > 3]
Столбцы могут быть добавлены или изменены легко, используя Применить
функция
# create a new column based on other column values df['new_column'] = df['old_column'].apply(lambda val: val * 2) # override a column df['old_column'] = df['old_column'].apply(lambda val: val * 2)
Основные графики
Графическая графика в ноутбуках Jupyter так же просто, как звонить в одну функцию Weabboard.
# create a line plot using your data frame sns.lineplot(x="my_x_field", y="my_y_field", data=my_data_frame)
# create a scatter plot sns.scatterplot(x="my_x_field", y="my_y_field", size="attribute_z", sizes=(10, 200), # size boundaries data=my_data_frame)
Сайт Морной Обеспечивает всеобъемлющий список примеров, каждый из которых используется фрагмент кода, используемый для их создания и некоторых примеров наборов данных для изучения.
Бонус
Недавно GitHub начал рендеринг ноутбуков Jupyter в их интерфейсе UI, что делает его проще, чем когда-либо запускать и делиться ноутбуками. У репозитория iPython есть Хороший пример Отказ
Полезные ссылки
Оригинал: “https://dev.to/tbutterwith/jupyter-notebooks-for-software-engineers-18m5”