Рубрики
Без рубрики

Artrendiendo Spark: # 1 rideucción

Ridentución y Foundamentos Básicos del Framework de Computación Distribuida Apache Spark. Теги с учебником, Apache Spark, Python, Big Data.

¡Saludos, Camaradas! 👋

Enta Serie de Artículos Enteraremos El Mundillo de Apache Spark , El Framework Por Excelencia de Computación Distribuida Desde Hace Ya Unos Años.

Es framework de computación distribuda escrito en Scala que posee apis en tros lenguajes como Python С Java y R Отказ

En esta serie de tutoriales escribiremos código en Python Por Ser un Lenguaje Más Популярная que Scala , Y POR SER EL LENGUAJE CON EL QUE TRABAJO Декс Hace Ya un Tiempo.

Scala Siempre Estarás en mi mi ❤️, ¡¡¡oholvido!

Internamente La Computación Distribuida Tiene Su Complejidad, No Nos Vamos A Angañar.

La Buena Noticia Es Que Spark Nos Abstrae de un montón de smanceáticas (Computación en Paralelo, Sincronización de Nodos, Orquestación de Operacions, Tolerancia A FALLOS y un largo etc) y nos правда centrarnos en lo gaeste: Escribir El Código Con La Funcolidad Que queremos desarrollar Отказ

POR LO TANTO, SIEMPRE SERA Interesante Conocer Los entresijos de la maquinaria que estamos dirigiendo, Перо де Нет Nos Hará Falta.

Lo Ideal Sería Contar Un Algo de Pregencia en Programación (Si Es Con Python Sería Magnífico) y Algo de Emplexia Utilizando IDE ( Pycharm , VSCode ) o Редактор ООН de Textos Acompaado de Una Terminal Si Es Ese Tu Arsenal привычный ⚔️.

Necesitaremos Питон , как COMO ООН Jdk. , Я КУП Эль Кудиго Python que escribamos se traducirá a Bytecode y se ejecutará en la JVM Отказ

EN Caso de que estéis desde Windows, существуют algunos itemyas conoCidos, Y Seguramente Sea Necesario Instalar (Winutils). ОС ДЕГО ООН invense con 5 pasos Para Poner Punto La Instalación ru Windows.

Con Esta Breve inventución Vamos Dando POR Fealizado El Primer Artículo de Esta Serie …

Bueeeeeeeno, Vale 😇 Para Que Podáis Comprobar Si Habéis Instalado Forreamente Todo Lo Necesario O Necesitáis Ajustar Algo, OS PONGO UN EJEMPLO PARA Que Creéis Un Nuevo Pro 11ECTO EN Vuestro IDE DE CABECERA.

Primero Habrá que instalar El Paquete Pyspark (Día de hoy la última versión es la 3.0.1). Lo PodeMos Instalar Través de Пип y yo siempre recomiendo usar el fichero требования .txt PARA GARANTIZAR Que No Nos Olwidamos de Ninguna. POR LO TANTO, Nuestro Fichero требования .txt Quedaría de la Siguiente Manera:

pyspark==3.0.1

Y lo instalaríamos ejecutando PIP Установка -R требования. atxt Отказ

Уна ВЕЗ Инсталадо Pyspark , Криремос ООН ФИГЕРО hola_mundo.py. En el Que Pegaremos El Siguiente Código.

from pyspark.sql import SparkSession

# Iniciamos Spark de manera local
spark = (SparkSession
         .builder
         .master("local[*]")
         .appName("Hola Mundo")
         .getOrCreate())

# Paralelizamos una lista del 0 al 9 (incluido)
# Computamos la suma de los números
# Obtenemos el resultado en una variable
result = (spark
          .sparkContext
          .parallelize(range(10))
          .reduce(lambda x, y: x + y))

# Imprimimos el resultado
print(f"La suma es {result}")

Finalmente Lo Ejecutaremos, Ya Sea Través del Ide, O Mediante Una Terminal invocando El Intérprete de Python y pasándole nuestro fichero hola_mundo.py COMO Puranto.

Aparecerán Unos Cuantos Предупреждения (Ni Caso) Y финализация Veréis El Siguiente Выход:

La suma es 45

Process finished with exit code 0

Si No Habéis Tenido Tanta Suerte, Ya Tenéis Deberes Para Vuestro Tiempo Libre 😬

Espero que os haya gustado esta primera entrega. SE Actectan ToDo Tipo de Críticas Constructivas 🧐

¡Nos Wemos, Equipo! 🙌.

Редактировать1 : Añadida coneedencia de pyspark Редактировать2 : Reformateo de Código Para Cumplir Las reglas de estilo pep8

Оригинал: “https://dev.to/danisancas/aprendiendo-spark-1-introduccion-5202”