++ Минусы на ETL трубопроводы
Просто еще один день на рабочем месте;
5 минут Опубликовать ботинок:
Вы слышите, что все жалуются, что производственная база данных медленная. Вы быстро начинаете расследовать; Исследуя все возможные результаты на приборных панелях …
Может ли это было длительное медленное запрос, которое вы подняли билет на поправку на производстве? Или это один из запросов, проходящих на основе неиндексированного столбца?
6-й минута и 15 минут спустя:
Далее вы слышите собравшиеся данные-аналитики, начисляющие через их неудачные отчеты.
Теперь вы понимаете, что ваш ЦП провел огромное количество нагрузки на запрос, и вы понимаете, что ваша система реляционной базы данных пошла за бросок в вечный сна.
И все это из-за медленного запроса вашего трубопровода ETL .. !! Дин. Дин … Дин … !!! У нас есть победитель !!!
Хорошо, давайте немного вернемся.
Вероятно, вы сделали/использовали одно из следующих действий:
Выберите * от production_database.table, где обновлено_at между X и Y;
Объемный экспорт и отвалы один раз в несколько минут
Длинногущий и забытый зомби Crontabs
Давайте положим это таким образом … Размер БД <500 ГБ; Это нормально делать выбирать, но если он превышает> 500 ГБ, если у вас нет сокращений в бюджете, не выполняйте объем выбора и перенесите его на провод к базе данных назначения в форме трубопровода.
Введите CDC:
CDC A.K.A Изменение захвата данных, чтобы помочь этим упражнениям для хранения данных, и если ваши данные быстро растут, и если ваш BI/BA нуждается в доступе к этому сладко-сладкому DWH (хранилище данных); Это прямо здесь, это путь.
Вы имели в виду репликацию? – Я не хочу застрять с моим двигателем OLTP DB:
Ну, вы не одиноки. По многим причинам данных Data-Wranglers, как правило, не предпочитают аналогичный двигатель базы данных как у OLTP. Основные причины включают в себя производительность запросов, необходимость в триггерах и простоте повторного выполнения заданий преобразования. Но, делая это, требует настройки кластеров воздушных потоков и настройки разъемов для преобразования и нагрузки.
Разве не было бы здорово, если бы вы могли сделать все это, не делая оптовый выбор из производственной базы данных? Конечно вы можете…
CD-поток Является ли инструмент репликатора CDC CDC CDC, который в настоящее время поддерживает репликацию между Mysql и postgres Отказ
Инструмент запускает очереди, чтобы обработать информацию, возникающую в двоичных журналах исходной базы данных, и реплицирует ее в базу данных целевой базы данных совершенно другого двигателя.
Опубликовать настройку, как указано на странице проекта: CD-поток ; В проекте есть каталог, называемый «образец» в проекте, который содержит некоторые из интенсивных скриптов вставки DDL и данных, для оценки и упражнений.
И что, Люди ; Является ли то, как вы разрабатываете производственные данные !!!
Первоначально опубликовано в https://www.datawrangler.in. 30 октября 2018 года.
Оригинал: “https://dev.to/sathyasarathi90/cd-stream-cdc-replicator-tool-13hp”