Рубрики
Без рубрики

Пример Pyspark – SparkContext

Автор оригинала: Python Examples.

Python Pyspark – SparkContext

SparkContext предоставляет точку входа в любое зажигание.

В этом руководстве мы начнем с основного примера того, как начать работу с SparkContext, а затем узнать больше о деталях о ней, используя синтаксис и пример программ.

Пример – Pyspark SparkContext

Простой пример для создания SparkContext с Pyspark:

#import SparkContext
from pyspark import SparkContext

#create SparkContext
sc = SparkContext("local", "My First Spark Application")

print("SparkContext :",sc)

Во-первых, мы импортировали класс SparkContext из пакета Pyspark. Затем мы создали контекст искры с Местный Мастер и Моя первая искровая приложение как имя приложения. Если вы установили искру на своем компьютере и пробуть этот пример, вы можете сохранить мастер как Местный Отказ В противном случае, если Spark Demon работает на каком-то другом компьютере в кластере, вы можете предоставить URL-адрес Spark Driver.

Чтобы запустить приведенное выше приложение, вы можете сохранить файл как pyspark_example.py и запустить следующую команду в командной строке.

C:\workspace\python> spark-submit pyspark_example.py

Вы не должны видеть никаких ошибок, которые потенциально остановите драйвер Spark, а между этими неуклюжими журналами вы должны увидеть следующую строку, которую мы расписываемся на консоль в нашем искре.

SparkContext : 

Синтаксис – Python SparkContext

Синтаксис класса SparkContext:

class pyspark.SparkContext (
	master = None,
	appName = None, 
	sparkHome = None, 
	pyFiles = None, 
	environment = None, 
	batchSize = 0, 
	serializer = PickleSerializer(), 
	conf = None, 
	gateway = None, 
	jsc = None, 
	profiler_cls = 
)

где

  • Мастер Это URL-адрес кластера, к которому он подключается.
  • appname Название приложения, посредством которого вы можете идентифицировать в списке заданий SEAP UI.
  • Sparkhome это путь к каталогу зажигания.
  • Pyfiles файлы (.zip или .py) для отправки в кластер и добавьте в PythonPath.
  • окружающая среда Является ли рабочие узлы среды.
  • Batchsize Количество объектов Python представлено как один объект Java. Установите 1 для отключения дозирования, 0 для автоматического выбора размера партии на основе размеров объектов или -1 для использования неограниченного размера партии.
  • сериализатор это сериализатор RDD, который должен использоваться для этой работы.
  • конф является объектом l {sparkconf} для установки всех искровых свойств.
  • Шлюз Давайте использовать существующий шлюз и JVM, в противном случае инициализируете новый JVM.
  • ОАО это экземпляр JavasparkContext.
  • profiler_cls Это класс пользовательского профилировщика, используемый для выполнения профилирования (по умолчанию Pyspark.profiler.basicProfiler).

На основании требований и настройках вашей среды вы можете установить любой из параметров, разрешенных pyspark.sparkcontext ().

Резюме

В этом руководстве примеров Python мы узнали, как начать работу с SparkContext в Python с использованием библиотеки Pyspark.