Как начать с databricks

Шуби Астхана

Когда я начал изучать искру Pyspark, я наткнулся на платформу Databricks и исследовал ее. Эта платформа облегчила настройку среды для запуска Spark Dataframes и тренировочного кодирования. Этот пост содержит некоторые шаги, которые могут помочь вам начать с databricks.

Databricks – это платформа, которая работает на вершине Apache Spark. Он удобно имеет настройки ноутбуков. Можно легко предоставить кластеры в облаке, и он также включает в себя интегрированное рабочее пространство для разведки и визуализации.

Вы также можете запланировать любую существующую ноутбук или локально разработанный Spark код для перехода от прототипа до производства без реинжината.

1. Настройка учетной записи Databricks

Чтобы начать работу с учебником, перейдите к этому ссылка И выберите бесплатное издание сообщества, чтобы открыть свою учетную запись. Эта опция имеет один кластер с бесплатным хранилищем до 6 ГБ. Это позволяет создавать базовый ноутбук. Вам понадобится действующий адрес электронной почты, чтобы подтвердить свою учетную запись.

Вы будете наблюдать на этом экране, как только вы успешно войдите в систему на свою учетную запись.

2. Создание нового кластера

Начнем с создания нового кластера, чтобы запустить наши программы. Нажмите «Кластер» на главной странице и введите новое имя для кластера.

Далее необходимо выбрать версию «Databricks Runtime». Время выполнения DataBricks – это набор основных компонентов, работающих на кластерах, управляемых DACEBRICKS. Он включает в себя Apache Spark, но также добавляет ряд компонентов и обновлений для повышения удобства использования и производительности инструмента.

Вы можете выбрать любые версии Runtime Databricks – я выбрал 3,5 ЛТС (включает в себя Apache Spark 2.2.1, Scala 2.11). У вас также есть выбор между Python 2 и 3.

Это займет несколько минут, чтобы создать кластер. Через некоторое время вы должны увидеть активное кластер на приборной панели.

3. Создание нового ноутбука

Давайте пойдем вперед и создам новый ноутбук, на котором вы можете запустить свою программу.

С главной страницы нажмите «Новый блокнот» и введите имя для ноутбука. Выберите язык по вашему выбору – я выбрал питон здесь. Вы можете видеть, что Databricks поддерживает несколько языков, включая SCALA, R и SQL.

Как только детали вводятся, вы соблюдаете, что макет ноутбука очень похож на ноутбук Jupyter. Чтобы проверить ноутбук, давайте импортируем Pyspark.

Команда бегала за 0,15 секунды, а также дает имя кластера, на котором он работает. Если в коде есть ошибки, он будет отображаться ниже коробки CMD.

Вы можете ударить значок клавиатуры в верхнем правом углу страницы, чтобы увидеть норкоты, специфичные системы.

Самые важные ярлыки вот:

Shift + Enter для запуска ячейки
Ctrl + Enter продолжает выполнять одну и ту же ячейку без перехода к следующей ячейке

Обратите внимание на эти ярлыки для Windows. Вы можете проверить Scept Special Scorcuts для вашей ОС на значке клавиатуры.

4. Загрузка данных в Databricks

Перейдите к разделу «Таблицы» в левой панели и нажмите «Создать таблицу». Вы можете загрузить файл или подключиться к источнику искры или какой-либо другой базе данных.

Давайте загружем часто используемую файл набора данных IRIS здесь (если у вас нет набора данных, используйте это Link )

Как только вы загрузите данные, создайте таблицу с помощью пользовательского интерфейса, чтобы вы могли визуализировать таблицу и предварительно просмотреть его в своем кластере. Как видите, вы можете наблюдать атрибуты таблицы. Spark постарается обнаружить DataType каждой из колонн, и позволяет вам также редактировать.

Теперь мне нужно ставить заголовки для колонн, поэтому я могу определить каждый столбец по их заголовку вместо _c0 , _C1 и так далее.

Я положил свои заголовки в качестве длины сепый, ширину сепый, длина лепесток, ширину лепесток и класс. Здесь искра обнаружил тип данных первых четырех столбцов неправильно в виде строки, поэтому я поменял его на желаемый тип данных – Float.

5. Как получить доступ к данным из ноутбука

Spark – это рамка, которая может быть использована для анализа больших данных с использованием SQL, обучения машин, обработки графа или потокового анализа в реальном времени. Мы будем работать с SparksQL и Dataframes в этом руководстве.

Давайте начнем с работы с данными о ноутбуке. Данные, которые мы загруженные, теперь вставляют в табличный формат. Мы требуем запроса SQL для чтения данных и поместить его в DataFrame.

Тип df.sql («Выбрать * от IRIS_DATA») Чтобы прочитать данные IRIS в DataFrame.

Чтобы просмотреть первые пять строк в DataFrame, я могу просто запустить команду:

Дисплей (df.limit (5))

Обратите внимание на значок гистограммы на дне. Как только вы нажмете, вы можете просмотреть данные, которые вы импортировали в Databricks. Чтобы просмотреть гистограмму полных данных, запустите Дисплей (DF) вместо Дисплей (df.limit (5)) Отказ

Выпадающая кнопка позволяет визуализировать данные в разных диаграммах, таких как бар, пирог, разброс и так далее. Он также дает вам параметры сюжета, чтобы настроить график и визуализировать только определенные столбцы.

Вы также можете отобразить цифры MATPLOTLIB и GGPLOT в Databricks. Для демонстрации см. MATPLOTLIB и GGPLOT в ноутбуках Python Отказ

Чтобы просмотреть все столбцы данных, просто введите DF.Columns

Чтобы подсчитать, сколько строк всего есть в DataFrame (и посмотреть, как долго требуется полное сканирование с удаленного диска/S3), запустите df.count () Отказ

6. Преобразование Spark DataFrame в DataFrame PandaS.

Теперь, если вам удобно использовать PandaS Dataframes, и хотите преобразовать свою искрому DataFrame в Pandas, вы можете сделать это, поместив команду

import pandas as pdpandas_df=df.to_pandas()

Теперь вы можете использовать операции Pandas на Pandas_df dataframe.

7. Просмотр зажима UI

Зажигая UI содержит богатство информации, необходимой для отладки искры. Есть куча больших визуализаций, поэтому давайте просматриваем их в гисте.

Чтобы пойти в SEPH UI, вам нужно перейти на вершину страницы, где есть несколько вариантов меню, такие как «Файл», «View», «Код,« Разрешения », а другие. Вы найдете имя кластера в верхней части рядом с «прикрепленным» и раскрывающимся кнопкой рядом с ним. Нажмите кнопку раскрывающегося списка и выберите «Просмотреть Seper UI». Новая вкладка откроется с большим количеством информации о вашем ноутбуке.

В поле зрения пользовательского интерфейса дает много информации о каждой задании, выполненной на кластере, этапах, среде и SQL-запросах. Этот интерфейс может быть полезен для пользователей для отладки своих приложений. Кроме того, этот интерфейс дает хорошую визуализацию в исходной статистике. Чтобы узнать более подробно о каждом аспекте UI Spark UI, обратитесь к этому ссылка Отказ

Как только вы закончите с ноутбуком, вы можете пойти дальше и публиковать его или экспортировать файл в разных форматах файлов, так что кто-то другой может использовать его, используя уникальную ссылку. У меня есть Прилагается моя ноутбука в формате HTML Отказ

Обертывание

Это краткий обзор о том, как вы можете быстро работать с Databricks, и запустите свои программы. Преимущество использования данных Databricks состоит в том, что он предлагает сквозную услугу для строительства аналитики, хранилища данных и приложений по обучению машин. Весь искровой кластер может управляться, контролироваться и защищен с использованием модели самообслуживания данных Databricks.

Вот некоторые интересные ссылки для Данные ученые и за Инженеры данных Отказ Также здесь есть Учебное пособие Что я нашел очень полезным и отлично подходит для начинающих.