Автор оригинала: FreeCodeCapm Team.
Шуби Астхана
Когда я начал изучать искру Pyspark, я наткнулся на платформу Databricks и исследовал ее. Эта платформа облегчила настройку среды для запуска Spark Dataframes и тренировочного кодирования. Этот пост содержит некоторые шаги, которые могут помочь вам начать с databricks.
Databricks – это платформа, которая работает на вершине Apache Spark. Он удобно имеет настройки ноутбуков. Можно легко предоставить кластеры в облаке, и он также включает в себя интегрированное рабочее пространство для разведки и визуализации.
Вы также можете запланировать любую существующую ноутбук или локально разработанный Spark код для перехода от прототипа до производства без реинжината.
1. Настройка учетной записи Databricks
Чтобы начать работу с учебником, перейдите к этому ссылка И выберите бесплатное издание сообщества, чтобы открыть свою учетную запись. Эта опция имеет один кластер с бесплатным хранилищем до 6 ГБ. Это позволяет создавать базовый ноутбук. Вам понадобится действующий адрес электронной почты, чтобы подтвердить свою учетную запись.
Вы будете наблюдать на этом экране, как только вы успешно войдите в систему на свою учетную запись.
2. Создание нового кластера
Начнем с создания нового кластера, чтобы запустить наши программы. Нажмите «Кластер» на главной странице и введите новое имя для кластера.
Далее необходимо выбрать версию «Databricks Runtime». Время выполнения DataBricks – это набор основных компонентов, работающих на кластерах, управляемых DACEBRICKS. Он включает в себя Apache Spark, но также добавляет ряд компонентов и обновлений для повышения удобства использования и производительности инструмента.
Вы можете выбрать любые версии Runtime Databricks – я выбрал 3,5 ЛТС (включает в себя Apache Spark 2.2.1, Scala 2.11). У вас также есть выбор между Python 2 и 3.
Это займет несколько минут, чтобы создать кластер. Через некоторое время вы должны увидеть активное кластер на приборной панели.
3. Создание нового ноутбука
Давайте пойдем вперед и создам новый ноутбук, на котором вы можете запустить свою программу.
С главной страницы нажмите «Новый блокнот» и введите имя для ноутбука. Выберите язык по вашему выбору – я выбрал питон здесь. Вы можете видеть, что Databricks поддерживает несколько языков, включая SCALA, R и SQL.
Как только детали вводятся, вы соблюдаете, что макет ноутбука очень похож на ноутбук Jupyter. Чтобы проверить ноутбук, давайте импортируем Pyspark.
Команда бегала за 0,15 секунды, а также дает имя кластера, на котором он работает. Если в коде есть ошибки, он будет отображаться ниже коробки CMD.
Вы можете ударить значок клавиатуры в верхнем правом углу страницы, чтобы увидеть норкоты, специфичные системы.
Самые важные ярлыки вот:
- Shift + Enter для запуска ячейки
- Ctrl + Enter продолжает выполнять одну и ту же ячейку без перехода к следующей ячейке
Обратите внимание на эти ярлыки для Windows. Вы можете проверить Scept Special Scorcuts для вашей ОС на значке клавиатуры.
4. Загрузка данных в Databricks
Перейдите к разделу «Таблицы» в левой панели и нажмите «Создать таблицу». Вы можете загрузить файл или подключиться к источнику искры или какой-либо другой базе данных.
Давайте загружем часто используемую файл набора данных IRIS здесь (если у вас нет набора данных, используйте это Link )
Как только вы загрузите данные, создайте таблицу с помощью пользовательского интерфейса, чтобы вы могли визуализировать таблицу и предварительно просмотреть его в своем кластере. Как видите, вы можете наблюдать атрибуты таблицы. Spark постарается обнаружить DataType каждой из колонн, и позволяет вам также редактировать.
Теперь мне нужно ставить заголовки для колонн, поэтому я могу определить каждый столбец по их заголовку вместо _c0
, _C1
и так далее.
Я положил свои заголовки в качестве длины сепый, ширину сепый, длина лепесток, ширину лепесток и класс. Здесь искра обнаружил тип данных первых четырех столбцов неправильно в виде строки, поэтому я поменял его на желаемый тип данных – Float.
5. Как получить доступ к данным из ноутбука
Spark – это рамка, которая может быть использована для анализа больших данных с использованием SQL, обучения машин, обработки графа или потокового анализа в реальном времени. Мы будем работать с SparksQL и Dataframes в этом руководстве.
Давайте начнем с работы с данными о ноутбуке. Данные, которые мы загруженные, теперь вставляют в табличный формат. Мы требуем запроса SQL для чтения данных и поместить его в DataFrame.
Тип df.sql («Выбрать * от IRIS_DATA»)
Чтобы прочитать данные IRIS в DataFrame.
Чтобы просмотреть первые пять строк в DataFrame, я могу просто запустить команду:
Дисплей (df.limit (5))
Обратите внимание на значок гистограммы на дне. Как только вы нажмете, вы можете просмотреть данные, которые вы импортировали в Databricks. Чтобы просмотреть гистограмму полных данных, запустите Дисплей (DF)
вместо Дисплей (df.limit (5))
Отказ
Выпадающая кнопка позволяет визуализировать данные в разных диаграммах, таких как бар, пирог, разброс и так далее. Он также дает вам параметры сюжета, чтобы настроить график и визуализировать только определенные столбцы.
Вы также можете отобразить цифры MATPLOTLIB и GGPLOT в Databricks. Для демонстрации см. MATPLOTLIB и GGPLOT в ноутбуках Python Отказ
Чтобы просмотреть все столбцы данных, просто введите DF.Columns
Чтобы подсчитать, сколько строк всего есть в DataFrame (и посмотреть, как долго требуется полное сканирование с удаленного диска/S3), запустите df.count ()
Отказ
6. Преобразование Spark DataFrame в DataFrame PandaS.
Теперь, если вам удобно использовать PandaS Dataframes, и хотите преобразовать свою искрому DataFrame в Pandas, вы можете сделать это, поместив команду
import pandas as pdpandas_df=df.to_pandas()
Теперь вы можете использовать операции Pandas на Pandas_df
dataframe.
7. Просмотр зажима UI
Зажигая UI содержит богатство информации, необходимой для отладки искры. Есть куча больших визуализаций, поэтому давайте просматриваем их в гисте.
Чтобы пойти в SEPH UI, вам нужно перейти на вершину страницы, где есть несколько вариантов меню, такие как «Файл», «View», «Код,« Разрешения », а другие. Вы найдете имя кластера в верхней части рядом с «прикрепленным» и раскрывающимся кнопкой рядом с ним. Нажмите кнопку раскрывающегося списка и выберите «Просмотреть Seper UI». Новая вкладка откроется с большим количеством информации о вашем ноутбуке.
В поле зрения пользовательского интерфейса дает много информации о каждой задании, выполненной на кластере, этапах, среде и SQL-запросах. Этот интерфейс может быть полезен для пользователей для отладки своих приложений. Кроме того, этот интерфейс дает хорошую визуализацию в исходной статистике. Чтобы узнать более подробно о каждом аспекте UI Spark UI, обратитесь к этому ссылка Отказ
Как только вы закончите с ноутбуком, вы можете пойти дальше и публиковать его или экспортировать файл в разных форматах файлов, так что кто-то другой может использовать его, используя уникальную ссылку. У меня есть Прилагается моя ноутбука в формате HTML Отказ
Обертывание
Это краткий обзор о том, как вы можете быстро работать с Databricks, и запустите свои программы. Преимущество использования данных Databricks состоит в том, что он предлагает сквозную услугу для строительства аналитики, хранилища данных и приложений по обучению машин. Весь искровой кластер может управляться, контролироваться и защищен с использованием модели самообслуживания данных Databricks.
Вот некоторые интересные ссылки для Данные ученые и за Инженеры данных Отказ Также здесь есть Учебное пособие Что я нашел очень полезным и отлично подходит для начинающих.