Автор оригинала: Ravi Teja Gullapalli.
Обо мне
Я Равитея. В настоящее время я работаю в компании American Express, базирующейся в Индии, в качестве бизнес-аналитика, специализирующегося на анализе данных и науке принятия решений. Я окончил ИИТ Харагпур по специальности “Электротехника”.
Почему я хотел изучать ПыСпарк
Я хотел изучить PySpark, который является Spark with Python cover, так как я читал из нескольких мест, что обработка в среде Spark намного быстрее, чем обработка в Hive для различных операций обработки данных, которые я должен был выполнять.
Как я подошел к изучению PySpark
Во-первых, я начал понимать все функциональные возможности, которые могут быть достигнуты с помощью Hive и PySpark. Есть ли что-то, что я не могу сделать в Писпарке, что могло бы служить ограничением для тех видов работы, которые были бы частью моей повседневной жизни? Они включали выполнение операций по строкам, использование агрегатных функций, межстрочных операций и т. Д.
Проблемы, с которыми я столкнулся
Hive в основном основан на SQL, в то время как Pyspark RDD больше всего похож на панд. Поскольку я работал в средах Hive, Teradata и SAS на основе SQL, изначально работа над конвейерной обработкой RDD оказалась сложной задачей.
Ключевые выносы
Для инструментов, использующих обработку на основе труб, то есть data_frame.operation1.operation2.operation3, лучший способ визуализации заключается в том, что операции выполняются слева направо, то есть сначала одна, затем две, а затем три.
Советы и рекомендации
Что ж, опыт из первых рук показывает, что использование Spark для выполнения задач обработки больших данных относительно быстрее, чем выполнение аналогичных операций в родной среде улья.
Данные записываются обратно на диск после каждого задания в Hive, в то время как в Spark данные хранятся в памяти до тех пор, пока объект не будет уничтожен. Если нет ограничения памяти, то предпочтительнее использовать Spark.
Если вы привыкли писать коды в SAS, перемещение в среде PySpark может быть сложным из-за разницы в способе написания вещей.
В целом функциональные возможности, которые могут быть достигнуты в PySpark, как и в SAS, аналогичны, поскольку оба эти языка также являются языками обработки данных.
Изначально, когда я принял Hadoop-based Hive, у меня была проблема, когда некоторые нативные функции, которые были легко доступны в SAS, отсутствовали, но с помощью PySpark они были преодолены. Некоторые функции могут быть Макро-функциями, Глобальными макропеременными и операциями с макропеременными.
Заключительные мысли и следующие шаги
В настоящее время я нахожусь на стадии принятия PySpark с помощью Jupyter notebook. Я хотел бы получить больше знаний, чтобы использовать его с легкостью и удобством, которые раньше предлагал SAS, и изучить различные варианты, доступные для улучшения моей повседневной работы с легкостью и темпом.
Эта статья из Analytics Vidya была довольно полезной .