Фанация данных (4 части серии)
Привет,
Я хочу показать проект Python с открытым исходным кодом Data-lineage Визуализировать и анализировать источник данных. Проект был разработан в сотрудничестве с командами данных по инициативам по управлению данным за последние пару лет.
Есть много открытых источников и коммерческих инструментов для захвата отличия данных. Однако есть две основные проблемы, выраженные инженерами данных:
- Проекты требуют больших усилий для начала и обслуживания.
- Требует постоянной дисциплины в захвате и отправке всех метаданных.
Оба эти факторы приводят к неполным проектам и потеряли возможности в улучшении производительности, ROI и качества данных.
Data-lineage Решает эти проблемы, выбрав следующие цели:
- Предоставление быстрого доступа к источнику данных
- Простая настройка
- Анализ линии линии с использованием графической библиотеки
Для достижения этих целей данные Lineage имеет следующие особенности:
- Создайте физическую линию данных из истории запросов. Большинство баз данных поддерживают историю запроса в течение нескольких дней. Поэтому затраты на установку инфраструктуры для захвата и метаданных магазинов минимальны.
- Используйте библиотеку графов NetworkX, чтобы создать DAG из родословной. Графики NewiveX предоставляют программному доступу к линию данных, предоставляя богатые возможности для анализа данных.
- Используйте загарно, чтобы визуализировать график с наконечниками инструментов и другими богатыми аннотациями. Правильно предоставляет ряд функций для обеспечения богатых графиков с наконечниками инструментов, цветовой кодировкой и весами на основе разных атрибутов графика.
Вы можете получить График фаната данных С менее чем 10 линиями Python Code в ноутбуке Jupyter.
Прямо сейчас Data-Lineage поддерживает Postgres и поддержку для получения дополнительных баз данных.
Я ценю любые отзывы и, пожалуйста, попробуйте, если вам нужна информация о вашей работе.
Ссылки:
Фанация данных (4 части серии)
Оригинал: “https://dev.to/vrajat/open-source-data-lineage-app-in-python-1nf5”