Рубрики
Без рубрики

CD-поток: Инструмент репликатора CDC

++ минусы на конвейерах ETL еще один день на рабочем месте; 5 минут Опубликовать ботинок: Вы … помечены Postgres, Python, CDC, ETL.

++ Минусы на ETL трубопроводы

Просто еще один день на рабочем месте;

5 минут Опубликовать ботинок:

Вы слышите, что все жалуются, что производственная база данных медленная. Вы быстро начинаете расследовать; Исследуя все возможные результаты на приборных панелях …

Может ли это было длительное медленное запрос, которое вы подняли билет на поправку на производстве? Или это один из запросов, проходящих на основе неиндексированного столбца?

6-й минута и 15 минут спустя:

Далее вы слышите собравшиеся данные-аналитики, начисляющие через их неудачные отчеты.

Теперь вы понимаете, что ваш ЦП провел огромное количество нагрузки на запрос, и вы понимаете, что ваша система реляционной базы данных пошла за бросок в вечный сна.

И все это из-за медленного запроса вашего трубопровода ETL .. !! Дин. Дин … Дин … !!! У нас есть победитель !!!

Хорошо, давайте немного вернемся.

Вероятно, вы сделали/использовали одно из следующих действий:

  • Выберите * от production_database.table, где обновлено_at между X и Y;

  • Объемный экспорт и отвалы один раз в несколько минут

  • Длинногущий и забытый зомби Crontabs

Давайте положим это таким образом … Размер БД <500 ГБ; Это нормально делать выбирать, но если он превышает> 500 ГБ, если у вас нет сокращений в бюджете, не выполняйте объем выбора и перенесите его на провод к базе данных назначения в форме трубопровода.

Введите CDC:

CDC A.K.A Изменение захвата данных, чтобы помочь этим упражнениям для хранения данных, и если ваши данные быстро растут, и если ваш BI/BA нуждается в доступе к этому сладко-сладкому DWH (хранилище данных); Это прямо здесь, это путь.

Вы имели в виду репликацию? – Я не хочу застрять с моим двигателем OLTP DB:

Ну, вы не одиноки. По многим причинам данных Data-Wranglers, как правило, не предпочитают аналогичный двигатель базы данных как у OLTP. Основные причины включают в себя производительность запросов, необходимость в триггерах и простоте повторного выполнения заданий преобразования. Но, делая это, требует настройки кластеров воздушных потоков и настройки разъемов для преобразования и нагрузки.

Разве не было бы здорово, если бы вы могли сделать все это, не делая оптовый выбор из производственной базы данных? Конечно вы можете…

CD-поток Является ли инструмент репликатора CDC CDC CDC, который в настоящее время поддерживает репликацию между Mysql и postgres Отказ

Инструмент запускает очереди, чтобы обработать информацию, возникающую в двоичных журналах исходной базы данных, и реплицирует ее в базу данных целевой базы данных совершенно другого двигателя.

Опубликовать настройку, как указано на странице проекта: CD-поток ; В проекте есть каталог, называемый «образец» в проекте, который содержит некоторые из интенсивных скриптов вставки DDL и данных, для оценки и упражнений.

И что, Люди ; Является ли то, как вы разрабатываете производственные данные !!!

Первоначально опубликовано в https://www.datawrangler.in. 30 октября 2018 года.

Оригинал: “https://dev.to/sathyasarathi90/cd-stream-cdc-replicator-tool-13hp”