Обзор
Модуль качества данных в Datapulse - это графический интерфейс, интегрированный с функционалом dbt test, дополнительно имеющий широкий набор преднастроенных тестов из коробки.
Вам не придется разбираться в сложном функционале dbt тестов и большом количестве параметров и конфигураций. Все возможности доступны в удобном и понятном графическом интерфейсе, с которым не придется тратить время на обучение. Тем самым Datapulse снижает порог входа для аналитиков и data engineer, позволяя им разрабатывать тесты для моделей dbt (таблиц, отчетных витрин), используя готовые тесты или SQL.
Тест
Тест в Datapulse (как и в dbt) представляет собой SQL-запрос над проверяемой таблицей, который определяет строки, не соответствующие заданными правилам.
Пример: Значение столбца не должно быть NULL
SELECT * FROM USERS WHERE ID IS NULL
Тесты выполняются после обновления таблицы/представления и проверяют текущее состояние таблицы. Тесты не предотвращают запись некорректных данных в таблицу.
Типы тестов
Тест может быть:
- Готовым (преднастроенным)
- Ручным
Более подробно про типы тестов и их настройку описано в этом разделе.
Параметры тестов
Datapulse использует и расширяет функционал dbt tests. Он использует параметры и метаданные dbt в .yml
файлах моделей.
Пример .yml
файла
tests:
- dpulse_unique:
name: hub_client_id_dpulse_unique
config:
store_failures: true
level: high
incremental_column: load_dttm
Мониторинг качества данных
Настроить проверки над таблицами не является финальным шагом, а лишь половина пути. Ведь без инструментов мониторинга результатов работы тестов и качественной аналитики проверки над таблицами бессмысленны.
Datapulse из коробки предлагает готовый дашборд для мониторинга качества данных на основе автоматически собранной статистики.
Преимущества Datapulse
Использование с dbt представляет собой работу с множеством файлов (dbt моделями и .yml файлами с параметрами). А также работы с командой строкой.
Для аналитика погружение во все возможности dbt test и множество его параметров может занимать продолжительное время и не приносит ценности в рамках основной задачи - проверки данных на ошибки.
Часто отчетные витрины даже не проверяются перед использованием их в отчетах или дашбордах, что сказывается на недоверии бизнеса к данным.
Datapulse позволяет из коробки настроить полноценную проверку качества данных за считанные минуты без значительной экспертизы.