Кедро (серия 18 части)
Я использую Каталог KEDRO CREATE
Чтобы повысить мою производительность, автоматически генерируя для меня записи каталога YAML. Он создаст новые файлы YAML для каждого трубопровода, заполнит записи в каталоге Missiing и уже существует уважение Каталог записи. Он переформат файл и сортирует его на основе ключа каталога.
🤷♀ Что такое Кедро (части)
Waylon Walker ・ 24 февраля 2020 года.
👆 Не уверен, что такое Кедро? Проверьте этот пост.
Запуск каталога KEDRO CREATE
Команда, чтобы убедиться, что есть записи каталога для каждого набора данных в передаче в трубопроводе.
kedro catalog create --pipeline history_nodes
- Создать новый файл YAML, если нужно
- Заполняет новые записи набора данных с помощью набора данных по умолчанию
- Сохраняет существующие наборы данных нетронутыми
- это немного переформатирует ваш файл yaml
- Сортировка по умолчанию будет применена
- Пустые новеньки будут удалены
Conf_root
Кедро будет уважать ваш Conf_root
Настройки, когда он создает новый файл каталога, или ищет существующие файлы каталога. Вы можете изменить местоположение файлов конфигурации, редактируя ваш Conf_root
переменная в ваших проектах.
настройки.py
Анкет
# settings.py # default settings CONF_ROOT = "conf" # I like to package my configuration CONF_ROOT = str(Path(__file__).parent / "conf")
Я предпочитаю, чтобы моя конфигурация упаковала в моем проекте. Отчасти это связано с тем, как моя команда работает и развертывает трубопроводы.
Расположение файла
Каталог KEDRO CREATE
Команда будет искать Yaml
Файл на основе имени конвейера ( conf_root/catalog/
). Если это не Найдите один, он создаст один и сделает записи для каждого набора данных в трубопроводе. Он не будет смотреть во все ваши существующие файлы каталога для записей, только тот, который в точном файле для вашего трубопровода. Если вы собираетесь использовать эту команду Важно, чтобы вы следили за этим шаблоном или копировали то, что он генерирует в свой собственный файл каталога по выбору.
⚠ Он не будет смотреть во все ваши существующие файлы каталога для записей, только тот, который в точном файле для вашего трубопровода.
MemoryDataset’s
Когда вы бежите Каталог KEDRO CREATE
Вы получаете MemoryDataset
, Это оно. Как 0,17,4
Он жестко кодируется в библиотеку и не настраивается.
range12: type: MemoryDataSet
Вы бесплатно использовать то, что вы хотите
Давайте переключим этот набор данных на Панды. Csvdataset
так что файл хранится, и мы можем забрать и прочитать файл, не заново заработая весь трубопровод.
range12: type: pandas.CSVDataSet filepath: data/range12.csv
Продолжайте добавлять узлы
Когда мы работаем, мы будем продолжать добавлять узлы в наш конвейер KEDro, в этом случае мы добавили еще один узел, который создал набор данных, называемый Диапазон13
Анкет
kedro catalog create --pipeline history_nodes
После того, как мы сказали Кедро создать новые записи в каталоге для нас, мы увидим, что это оставило нашем Диапазон12
вход только и создал Диапазон13
для нас.
range12: type: pandas.CSVDataSet filepath: data/range12.csv range13: type: MemoryDataSet
Форматирование не стоит
Если мы решим, что это слишком тесно для нас, мы могли бы добавить некоторое пространство между наборами данных. В следующий раз, когда мы запустим Каталог KEDRO CREATE
Пустые строки будут удаленный.
range12: type: pandas.CSVDataSet range13: type: MemoryDataSet
Продолжая работать
Если мы соблюдаем добавление новых узлов и скажем Кедро, чтобы снова создать записи каталога, все наши усилия, предпринятые для форматирования, будут потеряны. Я бы не стал беспокоиться об этом, если у вас нет автоформирования, которое вы можете запустить в своих файлах YAML. Выработка производительности в полуавтоматическом каталоге того стоит.
range12: type: pandas.CSVDataSet filepath: data/range12.csv range121: type: MemoryDataSet range13: type: MemoryDataSet
Порядок сортировки
Обратите внимание на заказ сортировки в последней записи, диапазон121
приходит раньше Диапазон13
Анкет Все это основано на том, как питоны yaml.safe_dump
Работает, Кедро установил default_flow_style
к Ложный
Анкет Вы можете увидеть, где они пишут ваш файл в исходном коде в настоящее время Здесь
Кедро (серия 18 части)
Оригинал: “https://dev.to/waylonwalker/use-kedro-catalog-create-to-boost-your-pipeline-development-productivity-3d3f”