Автор оригинала: Python Examples.
Python Pyspark – SparkContext
SparkContext предоставляет точку входа в любое зажигание.
В этом руководстве мы начнем с основного примера того, как начать работу с SparkContext, а затем узнать больше о деталях о ней, используя синтаксис и пример программ.
Пример – Pyspark SparkContext
Простой пример для создания SparkContext с Pyspark:
#import SparkContext from pyspark import SparkContext #create SparkContext sc = SparkContext("local", "My First Spark Application") print("SparkContext :",sc)
Во-первых, мы импортировали класс SparkContext из пакета Pyspark. Затем мы создали контекст искры с Местный Мастер и Моя первая искровая приложение как имя приложения. Если вы установили искру на своем компьютере и пробуть этот пример, вы можете сохранить мастер как Местный Отказ В противном случае, если Spark Demon работает на каком-то другом компьютере в кластере, вы можете предоставить URL-адрес Spark Driver.
Чтобы запустить приведенное выше приложение, вы можете сохранить файл как pyspark_example.py и запустить следующую команду в командной строке.
C:\workspace\python> spark-submit pyspark_example.py
Вы не должны видеть никаких ошибок, которые потенциально остановите драйвер Spark, а между этими неуклюжими журналами вы должны увидеть следующую строку, которую мы расписываемся на консоль в нашем искре.
SparkContext :
Синтаксис – Python SparkContext
Синтаксис класса SparkContext:
class pyspark.SparkContext ( master = None, appName = None, sparkHome = None, pyFiles = None, environment = None, batchSize = 0, serializer = PickleSerializer(), conf = None, gateway = None, jsc = None, profiler_cls =)
где
- Мастер Это URL-адрес кластера, к которому он подключается.
- appname Название приложения, посредством которого вы можете идентифицировать в списке заданий SEAP UI.
- Sparkhome это путь к каталогу зажигания.
- Pyfiles файлы (.zip или .py) для отправки в кластер и добавьте в PythonPath.
- окружающая среда Является ли рабочие узлы среды.
- Batchsize Количество объектов Python представлено как один объект Java. Установите 1 для отключения дозирования, 0 для автоматического выбора размера партии на основе размеров объектов или -1 для использования неограниченного размера партии.
- сериализатор это сериализатор RDD, который должен использоваться для этой работы.
- конф является объектом l {sparkconf} для установки всех искровых свойств.
- Шлюз Давайте использовать существующий шлюз и JVM, в противном случае инициализируете новый JVM.
- ОАО это экземпляр JavasparkContext.
- profiler_cls Это класс пользовательского профилировщика, используемый для выполнения профилирования (по умолчанию Pyspark.profiler.basicProfiler).
На основании требований и настройках вашей среды вы можете установить любой из параметров, разрешенных pyspark.sparkcontext ().
Резюме
В этом руководстве примеров Python мы узнали, как начать работу с SparkContext в Python с использованием библиотеки Pyspark.