Рубрики
Без рубрики

📖 Используйте Kedro Catalog Create, чтобы повысить производительность разработки трубопровода.

Я использую Kedro Catalog Create, чтобы повысить свою производительность, автоматически генерируя записи в каталоге YAML … Tagged with Kedro, Python, DataScience.

Кедро (серия 18 части)

Я использую Каталог KEDRO CREATE Чтобы повысить мою производительность, автоматически генерируя для меня записи каталога YAML. Он создаст новые файлы YAML для каждого трубопровода, заполнит записи в каталоге Missiing и уже существует уважение Каталог записи. Он переформат файл и сортирует его на основе ключа каталога.

🤷‍♀ Что такое Кедро (части)

Waylon Walker ・ 24 февраля 2020 года.

👆 Не уверен, что такое Кедро? Проверьте этот пост.

Запуск каталога KEDRO CREATE

Команда, чтобы убедиться, что есть записи каталога для каждого набора данных в передаче в трубопроводе.

kedro catalog create --pipeline history_nodes
  • Создать новый файл YAML, если нужно
  • Заполняет новые записи набора данных с помощью набора данных по умолчанию
  • Сохраняет существующие наборы данных нетронутыми
  • это немного переформатирует ваш файл yaml
    • Сортировка по умолчанию будет применена
    • Пустые новеньки будут удалены

Conf_root

Кедро будет уважать ваш Conf_root Настройки, когда он создает новый файл каталога, или ищет существующие файлы каталога. Вы можете изменить местоположение файлов конфигурации, редактируя ваш Conf_root переменная в ваших проектах.

настройки.py Анкет

# settings.py
# default settings
CONF_ROOT = "conf"

# I like to package my configuration
CONF_ROOT = str(Path(__file__).parent / "conf")

Я предпочитаю, чтобы моя конфигурация упаковала в моем проекте. Отчасти это связано с тем, как моя команда работает и развертывает трубопроводы.

Расположение файла

Каталог KEDRO CREATE Команда будет искать Yaml Файл на основе имени конвейера ( conf_root/catalog/ .yml ). Если это не Найдите один, он создаст один и сделает записи для каждого набора данных в трубопроводе. Он не будет смотреть во все ваши существующие файлы каталога для записей, только тот, который в точном файле для вашего трубопровода. Если вы собираетесь использовать эту команду Важно, чтобы вы следили за этим шаблоном или копировали то, что он генерирует в свой собственный файл каталога по выбору.

⚠ Он не будет смотреть во все ваши существующие файлы каталога для записей, только тот, который в точном файле для вашего трубопровода.

MemoryDataset’s

Когда вы бежите Каталог KEDRO CREATE Вы получаете MemoryDataset , Это оно. Как 0,17,4 Он жестко кодируется в библиотеку и не настраивается.

range12:
  type: MemoryDataSet

Вы бесплатно использовать то, что вы хотите

Давайте переключим этот набор данных на Панды. Csvdataset так что файл хранится, и мы можем забрать и прочитать файл, не заново заработая весь трубопровод.

range12:
  type: pandas.CSVDataSet
  filepath: data/range12.csv

Продолжайте добавлять узлы

Когда мы работаем, мы будем продолжать добавлять узлы в наш конвейер KEDro, в этом случае мы добавили еще один узел, который создал набор данных, называемый Диапазон13 Анкет

kedro catalog create --pipeline history_nodes

После того, как мы сказали Кедро создать новые записи в каталоге для нас, мы увидим, что это оставило нашем Диапазон12 вход только и создал Диапазон13 для нас.

range12:
  type: pandas.CSVDataSet
  filepath: data/range12.csv
range13:
  type: MemoryDataSet

Форматирование не стоит

Если мы решим, что это слишком тесно для нас, мы могли бы добавить некоторое пространство между наборами данных. В следующий раз, когда мы запустим Каталог KEDRO CREATE Пустые строки будут удаленный.

range12:
  type: pandas.CSVDataSet

range13:
  type: MemoryDataSet

Продолжая работать

Если мы соблюдаем добавление новых узлов и скажем Кедро, чтобы снова создать записи каталога, все наши усилия, предпринятые для форматирования, будут потеряны. Я бы не стал беспокоиться об этом, если у вас нет автоформирования, которое вы можете запустить в своих файлах YAML. Выработка производительности в полуавтоматическом каталоге того стоит.

range12:
  type: pandas.CSVDataSet
  filepath: data/range12.csv
range121:
  type: MemoryDataSet
range13:
  type: MemoryDataSet

Порядок сортировки

Обратите внимание на заказ сортировки в последней записи, диапазон121 приходит раньше Диапазон13 Анкет Все это основано на том, как питоны yaml.safe_dump Работает, Кедро установил default_flow_style к Ложный Анкет Вы можете увидеть, где они пишут ваш файл в исходном коде в настоящее время Здесь

Кедро (серия 18 части)

Оригинал: “https://dev.to/waylonwalker/use-kedro-catalog-create-to-boost-your-pipeline-development-productivity-3d3f”