Skip to content

Обзор

Модуль качества данных в Datapulse - это графический интерфейс, интегрированный с функционалом dbt test, дополнительно имеющий широкий набор преднастроенных тестов из коробки.

Вам не придется разбираться в сложном функционале dbt тестов и большом количестве параметров и конфигураций. Все возможности доступны в удобном и понятном графическом интерфейсе, с которым не придется тратить время на обучение. Тем самым Datapulse снижает порог входа для аналитиков и data engineer, позволяя им разрабатывать тесты для моделей dbt (таблиц, отчетных витрин), используя готовые тесты или SQL.

Тест

Тест в Datapulse (как и в dbt) представляет собой SQL-запрос над проверяемой таблицей, который определяет строки, не соответствующие заданными правилам.

Пример: Значение столбца не должно быть NULL

SELECT * FROM USERS WHERE ID IS NULL
Если SQL-запрос теста выдает какие-либо значения, это означает, что тест не пройден.

Тесты выполняются после обновления таблицы/представления и проверяют текущее состояние таблицы. Тесты не предотвращают запись некорректных данных в таблицу.

Типы тестов

Тест может быть:

  • Готовым (преднастроенным)
  • Ручным

Более подробно про типы тестов и их настройку описано в этом разделе.

Параметры тестов

Datapulse использует и расширяет функционал dbt tests. Он использует параметры и метаданные dbt в .yml файлах моделей.

Пример .yml файла

tests:
- dpulse_unique:
    name: hub_client_id_dpulse_unique
    config:
      store_failures: true
    level: high
    incremental_column: load_dttm

Мониторинг качества данных

Настроить проверки над таблицами не является финальным шагом, а лишь половина пути. Ведь без инструментов мониторинга результатов работы тестов и качественной аналитики проверки над таблицами бессмысленны.

Datapulse из коробки предлагает готовый дашборд для мониторинга качества данных на основе автоматически собранной статистики.

Пример дашборда

Преимущества Datapulse

Использование с dbt представляет собой работу с множеством файлов (dbt моделями и .yml файлами с параметрами). А также работы с командой строкой.

Для аналитика погружение во все возможности dbt test и множество его параметров может занимать продолжительное время и не приносит ценности в рамках основной задачи - проверки данных на ошибки.

Часто отчетные витрины даже не проверяются перед использованием их в отчетах или дашбордах, что сказывается на недоверии бизнеса к данным.

Datapulse позволяет из коробки настроить полноценную проверку качества данных за считанные минуты без значительной экспертизы.

Смотрите также