Хорошо некоторое время назад (уже подсчитывающие годы) я опубликовал учебную серию, ориентированную на помощь людям начинаться с искрой. Вот план предыдущих постов:
- Часть 1 Начало работы – охватывает основы на распределенную искровую архитектуру, наряду с структурами данных (включая старые хорошие коллекции RDD (!), Использование которого было своего рода устаревшими от DataFrames)
- Часть 2 Введение в DataFrames
- Часть 3 Введение в UDF и функции Windows
В тем временем искра не уменьшилась популярность, поэтому я подумал, что продолжал обновлять ту же серию. В этом посте мы охватываем необходимую часть любого проекта ETL, а именно тестирование подразделения.
Для этого я создал образец репозитория , который предназначен для обслуживания кода котла для любого нового Python Spark Project.
Давайте просматриваем главный сценарий работы. Обратите внимание, что репозиторий может содержать обновленную версию, которая может понять детали с помощью следующего циста.
Предыдущий глоток восстанавливает тот же пример, используемый в предыдущем опухе на функциях UDFS и окна.
Вот пример того, как мы могли бы проверить нашу функцию «Сумма_spent_udf»:
Теперь обратите внимание на первую строку в скрипте устройств устройства, который является секретным соусом для загрузки контекста искры для ваших устройств. Bellow – это код, который создает объект «SPARCESSION», прошедший в качестве аргумента функции «TEST_AMOUNT_SPENT_UDF».
И это так. Мы настоятельно рекомендуем вам посмотреть на Корреспондент Git Repository, где мы указываем подробные инструкции, как запустить его локально Отказ
И это за сегодня, надеюсь, это помогло!
Оригинал: “https://dev.to/diogoaurelio/getting-started-with-spark-part-4—-unit-testing-26a5”