Начало работы с искрой (часть 4) - тестирование подразделения

Хорошо некоторое время назад (уже подсчитывающие годы) я опубликовал учебную серию, ориентированную на помощь людям начинаться с искрой. Вот план предыдущих постов:

Часть 1 Начало работы – охватывает основы на распределенную искровую архитектуру, наряду с структурами данных (включая старые хорошие коллекции RDD (!), Использование которого было своего рода устаревшими от DataFrames)
Часть 2 Введение в DataFrames
Часть 3 Введение в UDF и функции Windows

В тем временем искра не уменьшилась популярность, поэтому я подумал, что продолжал обновлять ту же серию. В этом посте мы охватываем необходимую часть любого проекта ETL, а именно тестирование подразделения.

Для этого я создал образец репозитория , который предназначен для обслуживания кода котла для любого нового Python Spark Project.

Давайте просматриваем главный сценарий работы. Обратите внимание, что репозиторий может содержать обновленную версию, которая может понять детали с помощью следующего циста.

Предыдущий глоток восстанавливает тот же пример, используемый в предыдущем опухе на функциях UDFS и окна.

Вот пример того, как мы могли бы проверить нашу функцию «Сумма_spent_udf»:

Теперь обратите внимание на первую строку в скрипте устройств устройства, который является секретным соусом для загрузки контекста искры для ваших устройств. Bellow – это код, который создает объект «SPARCESSION», прошедший в качестве аргумента функции «TEST_AMOUNT_SPENT_UDF».

И это так. Мы настоятельно рекомендуем вам посмотреть на Корреспондент Git Repository, где мы указываем подробные инструкции, как запустить его локально Отказ

И это за сегодня, надеюсь, это помогло!

Оригинал: “https://dev.to/diogoaurelio/getting-started-with-spark-part-4—-unit-testing-26a5”

Читайте ещё по теме: