Рубрики
Без рубрики

Представляем Саин: Простая, но мощная система обработки данных.

Итак, что такое Сань? В простых терминах SAYN – это рамка обработки данных с открытым исходным кодом. Мы (173Тех … помечены аналитикой, данным, Python, SQL.

Итак, что такое Сань? В простых терминах SAYN – это рамка обработки данных с открытым исходным кодом. Мы (команда 173Тека) построила, что это простейшая структура, одновременно поддерживая полную гибкость. Пользователи могут выбрать из нескольких предопределенных типов задач и создают свои собственные процессы ETL. Саин действительно уникален и в отличие от всего, что вы видели раньше. Хотите узнать больше? Тогда прочитайте!

Современная аналитика: Контекст

Прежде чем мы говорим больше о Sayn, давайте начнем с быстрого повышения к тому, чтобы поместить вещи в контекст. Современные аналитические инфраструктуры обычно организуются вокруг хранилища данных с использованием пяти основных слоев, как показано на следующем графике:

Крайне важно иметь эффективный и масштабируемый процесс данных на месте, который может легко поддерживать создание и обслуживание сотен и более задач и их зависимостей. Есть два распространенных способа поступить в это:

  • Используя технические рамки управления рабочими процессами, такие как воздушный поток, который может быть довольно сложным для настройки и привести к большему обслуживанию.
  • Принимая легкий подход с использованием таких инструментов, как стежок + DBT, который отсутствует гибкость, так как он не обеспечивает поток для процессов Python, таких как пользовательские экстракты или модели данных.

Что если вы хотите сохранить высокую гибкость в ваших процессах аналитики в масштабе, но также сохраняйте вещи простыми? Ну, как оказывается, мы никогда не нашли рамки обработки данных, которые эффективно решали эти проблемы. Итак, мы построили его!

Саин: Генезис

Мы считаем, что простота имеет решающее значение при сохранении трубопроводов в масштабе. Однако мы также считаем, что простота не должна приходить за счет гибкости. Вот почему мы создали наши собственные рамки обработки данных с открытым исходным кодом: Выпивать . SAYN предназначен для расширения возможностей команд Analytics, будучи простыми, гибкими и централизованными. Это демократирует вклад в процессы данных в команде аналитики, обеспечивает полную гибкость и помогает сэкономить много времени через автоматизацию.

SAYN построен вокруг концепции задач, и в настоящее время имеет следующие типы задач Предварительным для вас:

  • SQL: Выполняет SQL-запрос против базы данных.
  • AutoSQL: автоматизирует процесс преобразования данных. Вы пишете оператор выбора и SAYN заботятся о создании таблицы/просмотра для вас. Он также может быть использован для дополнительных нагрузок.
  • Python: Выполнить код Python.
  • Скопируйте: Автоматически копировать данные из одной базы данных в другую.
  • И больше, чтобы прийти!

Следующий график отображает, как мы обычно используем SAYN в современном стеке аналитики. Синие линии организованы SAYN:

Саин философия

SAYN разработан около трех основных убеждений, что современная структура обработки данных должна расширить возможности инженеров и аналитиков данных, будучи простыми, гибкими и централизованными. Вот как нас проживает до этого обещания:

Простой

  • Структуры проекта и задачи определены в YAML, очень простой язык, часто используемый для конфигурации. Это имеет значительное преимущество, что каждый аналитик или инженер может легко внести свой вклад в трубопровод и добавлять новые процессы данных.
  • Вы можете выполнить любую комбинацию задач (ах) с помощью команды Саин беги Включая ваши задачи Python, включив гладкий и эффективный рабочий процесс.
  • SAYN обеспечивает много автоматизации и уменьшает сложность технической техники данных через его типы задач (например, автоматически выберите операторы в таблицах/представлениях, копировать данные из одной базы данных в другую) и ее API (например, предварительно встроенные соединения базы данных и выбор учетных данных для доступа к доступу Ваш код Python). Ваша команда может сосредоточиться на записи логического кода в отличие от кода трубопровода.
  • Задачи могут быть определены всего за 2 строки yaml и код для выполнения. Вы, как правило, можно быстро пойти с Sayn Super!

Гибкий

  • SAYN позволяет использовать как SQL, так и Python, что означает, что вы можете буквально сделать что-либо на спектре аналитики: добычу данных, моделирование и наука о данных.
  • SAYN питается от Jinja, позволяя вам легко сделать свой код динамическими. Например, чтобы переключиться между средами PROD и DEV.
  • Вы можете определить любую структуру базы данных, которую вы предпочитаете, SAYN не заставляет вас по умолчанию в любой конкретный дизайн.

Централизованный

  • SAYN можно использовать по всему трубопроводу, что позволяет вам централизовать и версию контролировать весь аналитический код в вашем проекте SALN.
  • Определение задачи централизовано в файлах YAML, которые создают основу оркестрации SALN.

Как работает SAYN

Лучший способ посмотреть, насколько великий Саин – это на самом деле попробовать! SAYN распространяется на Pypi и работает с использованием командной строки. Это выполняется с использованием Саин беги команда. Вы можете буквально начать за 2 минуты со следующими четырьмя линиями:

$ pip install sayn
$ sayn init test_sayn
$ cd test_sayn
$ sayn run

Это установит Саин Пакет, создайте проект SALN под названием test_sayn Переместите вас в каталог проекта, а затем выполните SAYN. Вы должны увидеть следующее:

Как упоминалось ранее, проекты SALN организованы вокруг концепции задач:

  • Задачи определяют ваши данные и их отношения, SAYN затем автоматически создает направленный ациклический график (DAG) для вас.
  • SAYN поддерживает несколько типов задач. Вы просто определяете свою задачу, выбрав тип, определите необходимые атрибуты, если таковые имеются, и укажите код для запуска.
  • Задачи могут быть разделены в разных файлах YAML (считаются «группами задач») для разделения процессов данных (например, ядро, маркетинг, наука о данных) и сохраняют ваши проекты, организованные по мере масштаба.

Вот несколько пример используют случаи SAYN:

  • Автоматические автоматические преобразования данных с использованием задач AutoSQL. Это чрезвычайно мощно для процессов моделирования данных, таких как вычисление маркетинга ROI.
  • Автоматическое копирование данных из реплики оперативной базы данных на кластер аналитики.
  • Используя задачу Python, чтобы дополнить инструмент извлечения, такого как стежок, когда уклон отсутствуют или когда экстракция выполняется неэффективно.
  • Использование задачи Python для создания модели науки о прогнозе LTV и результаты нагрузки на ваш хранилище данных.

Если вы хотите понять больше о том, как Wayn работает, пройдите через наш Учебники которые являются хорошими отправными точками.

Хотите знать больше?

Мы активно развиваемся Саин И это становится еще лучше к день! Саин сделал нашу жизнь намного проще на 173Тех, и это действительно высвобождает нашу владение аналитикой. Ваша команда может извлечь выгоду из этого! Кроме того, мы бы хотели получить отзывы, которые могут помочь нам сделать рамки еще лучше, поэтому, пожалуйста, протягивайте, мы дружелюбны:) Вы можете связаться с нами по вопросам или предложениям, касающимся SAYN Via sayn@173tech.com Отказ Скоро поговорим!

Оригинал: “https://dev.to/robin173/introducing-sayn-a-simple-yet-powerful-data-processing-framework-ef0”