Как я выучил ПыСпарк

Обо мне

Я Равитея. В настоящее время я работаю в компании American Express, базирующейся в Индии, в качестве бизнес-аналитика, специализирующегося на анализе данных и науке принятия решений. Я окончил ИИТ Харагпур по специальности “Электротехника”.

Почему я хотел изучать ПыСпарк

Я хотел изучить PySpark, который является Spark with Python cover, так как я читал из нескольких мест, что обработка в среде Spark намного быстрее, чем обработка в Hive для различных операций обработки данных, которые я должен был выполнять.

Как я подошел к изучению PySpark

Во-первых, я начал понимать все функциональные возможности, которые могут быть достигнуты с помощью Hive и PySpark. Есть ли что-то, что я не могу сделать в Писпарке, что могло бы служить ограничением для тех видов работы, которые были бы частью моей повседневной жизни? Они включали выполнение операций по строкам, использование агрегатных функций, межстрочных операций и т. Д.

Проблемы, с которыми я столкнулся

Hive в основном основан на SQL, в то время как Pyspark RDD больше всего похож на панд. Поскольку я работал в средах Hive, Teradata и SAS на основе SQL, изначально работа над конвейерной обработкой RDD оказалась сложной задачей.

Ключевые выносы

Для инструментов, использующих обработку на основе труб, то есть data_frame.operation1.operation2.operation3, лучший способ визуализации заключается в том, что операции выполняются слева направо, то есть сначала одна, затем две, а затем три.

Советы и рекомендации

Что ж, опыт из первых рук показывает, что использование Spark для выполнения задач обработки больших данных относительно быстрее, чем выполнение аналогичных операций в родной среде улья.

Данные записываются обратно на диск после каждого задания в Hive, в то время как в Spark данные хранятся в памяти до тех пор, пока объект не будет уничтожен. Если нет ограничения памяти, то предпочтительнее использовать Spark.

Если вы привыкли писать коды в SAS, перемещение в среде PySpark может быть сложным из-за разницы в способе написания вещей.

В целом функциональные возможности, которые могут быть достигнуты в PySpark, как и в SAS, аналогичны, поскольку оба эти языка также являются языками обработки данных.

Изначально, когда я принял Hadoop-based Hive, у меня была проблема, когда некоторые нативные функции, которые были легко доступны в SAS, отсутствовали, но с помощью PySpark они были преодолены. Некоторые функции могут быть Макро-функциями, Глобальными макропеременными и операциями с макропеременными.

Заключительные мысли и следующие шаги

В настоящее время я нахожусь на стадии принятия PySpark с помощью Jupyter notebook. Я хотел бы получить больше знаний, чтобы использовать его с легкостью и удобством, которые раньше предлагал SAS, и изучить различные варианты, доступные для улучшения моей повседневной работы с легкостью и темпом.

Эта статья из Analytics Vidya была довольно полезной .