Skip to content

Что такое Datapulse?

Datapulse - это фреймворк для работы с хранилищем данных (DWH). Он поможет Вам собирать данные из различных источников, трансформировать их и применять лучшие практики.

Datapulse берет на себя многие технические задачи, позволяя вам сконцентрироваться только на бизнес-логике и сократить время на внедрение. Он значительно сокращает время разработки ETL-pipeline за счет автоматизации многих процессов, а также позволяет внедрять стандарты разработки и упрощает совместную работу над моделями данных.

Схема работы с Datapulse

Datapulse является надстройкой над хранилищем данных (DWH). Работает в паре с такими зарекомендовавшими себя на рынке инструментами, как dbt и dlt.

dbt

dbt (data build tool) — это инструмент для трансформации данных с помощью SQL, который позволяет применять принципы разработки ПО (тестирование, версионирование, модульность) в аналитике. С его помощью команды могут совместно работать над моделями данных, автоматизировать пайплайны и поддерживать единые бизнес-метрики.

В dbt нет графического (GUI) интерфейса, что усложняет его использование для не технических пользователей (data-аналитики). Datapulse является таким интерфейсом, а также имеет расширенный функционал.

Datapulse упрощает процесс разработки

  • Сокращает трудозатраты на разработку DWH
  • Снижает порог входа (аналитики только со знанием SQL смогут разрабатывать модели данных и отчетные витрины)
  • Легкая интеграция с другими инструментами (airflow, git и т.д.)
  • Элементарное внедрение (python-библиотека)

Основные фичи Datapulse

Как пользователь, ваша основная задача — писать SELECT-запросы, которые реализуют бизнес-логику. Datapulse преобразует эти SELECT-запросы в таблицы или представления (views) в вашем хранилище данных.

Фича Описание
Материализация SQL На основе вашего SELECT-запроса формирует обновляемые модели.
Парсинг SQL Парсит полученный SQL-запрос и автоматически формирует документацию.
Data catalog Интерактивный data catalog.
Модель данных DataVault Автоматическая генерация ETL для DataVault 2.0.
Качество данных Широкий набор преднастроенных проверок качества данных
Сбор данных Широкие возможности по сбору данных из различных источников.
Чат с DWH Общение с DWH на основе естественного языка с использованием ИИ.

Модули

Datapulse - модульный фреймворк.

Ядром является конструктор моделей dbt. И есть модули, которые могут быть дополнительно подключены.

Модуль Описание
❄️ Конструктор DataVault Low-code конструктор модели данных по методологии DataVault
📘 Экстрактор данных Low-code экстрактор данных из различных систем-источников (в разработке)
🛡️ Качество данных Проверка качества данных над моделями dbt (в разработке)
💎 Чат с DWH Отправка SQL-запросов к DWH с помощью естественного языка на основе ИИ (в разработке)