Закрыть
Получить бесплатный доступ к DataPulse
Наш менеджер свяжется с вами для предоставления бесплатного доступа и презентует наш сервис
Изначально созданный в 2016 году компанией Fishtown dbt задумывался как способ продвижения B2B-консалтинговых услуг, в рамках которых компания будет использовать свои наработки. Но неожиданно он кардинально изменил отрасль, которая десятилетиями балансировала между:
  • Сложными инженерными решениями, требующими глубоких технических знаний
  • Неудобными GUI-инструментами с искусственно созданной зависимостью от вендора
Заняв место на переднем крае data-инженерии, dbt решил ключевые проблемы традиционных хранилищ данных, интегрировав лучшие практики современной разработки.
Далее я приведу 6 причин столь невероятного успеха dbt и почему в конечном итоге он станет стандартом при разработке DWH.

Как dbt из открытого инструмента превратился в революцию для индустрии данных

1 – Контроль версий

В современной разработке системы контроля версий стали обязательным инструментом для поддержания стабильности и предотвращения критических изменений.
При этом dbt выгодно отличается нативной интеграцией с Git, который используют 90% разработчиков как отраслевой стандарт, позволяя командам эффективно работать над проектами совместно. У многих аналитических платформ контроль версий либо отсутствует вовсе, либо реализован по остаточному принципу, в dbt эта функциональность заложена изначально из-за самой его архитектуры, что делает его более удобным для командной разрабботки.

2 – Простой и понятный

DBT позволяет создавать ETL-pipeline за считанные минуты, беря на себя большую часть инфраструктурных задач. Его ключевая идея заключается в преобразовании сырых данных в удобные для анализа таблицы с помощью SQL-запросов.
При этом все преобразования выполняются на привычном SQL, а для более сложной логики можно использовать Python-подобный синтаксис шаблонов Jinja, расширяющий возможности SQL.
DBT заметно сокращает трудозатраты data-инженера, но, к сожалению, для обычных аналитиков, даже которые знают SQL, он будет весьма сложен в освоении.

3 – Автоматическая документация

Тот, кто имеет опыт работы на крупных проектах по разработке DWH знает, что документация там обычно вторична — если она вообще существует. Да и трудозатраты на ее создание и поддержание в актуальном состоянии весьма высоки.
В этом плане dbt предлагает принципиально иной подход: система автоматически генерирует документацию по всем трансформациям данных и визуализирует их lineage (цепочку зависимостей), используя метаданные из YAML-файлов. Такая документация отличается тремя ключевыми преимуществами:
1. Стандартизированный формат — единая структура для всего проекта
2. Актуальность — всегда соответствует текущему состоянию преобразований
3. Наглядность — интуитивно понятные связи между данными

4 – Совместимость с множеством других инструментов

Изначально созданный как open-source-решение для работы с данными, dbt поддерживает все основные хранилища: Amazon Redshift, Microsoft Fabric, PostgreSQL, Greenplum, MSSQL, Oracle, BigQuery, Databricks, Snowflake, и другие. Также возможно его использование в связке с различными оркестраторами: Airflow, Dagster и т.д.
Сегодня dbt доступен в двух вариантах:
  • dbt Core — полностью бесплатная версия
  • dbt Cloud — облачное коммерческое предложение

5 – Тестирование данных

DBT изначально включает мощные инструменты тестирования качества информации. Фреймворк позволяет:
  • Автоматически выполнять встроенные проверки данных перед каждым запуском пайплайна
  • Создавать собственные тесты с помощью SQL-запросов
Такой подход гарантирует, что конечные пользователи получают только достоверные, проверенные данные — без необходимости использовать сторонние инструменты или писать сложные скрипты.
Правда, на текущий момент встроенных проверок слишком мало, поэтому большую часть придется писать вручную.

6 – Возможность кастомизации

И конечно главная особенность dbt – возможность добавлять самописные dbt-пакеты, которые расширяют функционал. С учетом того, что community становится все больше и больше и часто появляются все новые open-source библиотеки, это говорит о нам о весьма масштабном потенциале роста dbt.
Приведу пример, пары самых популярных dbt-пакетов:
  • dbt_artifacts – логирует результаты работы моделей, тестов и т.д. в DWH
  • dbt_expectations – большой список преднастроенных проверок качества данных
  • automatedv – упрощает разработку DataVault 2.0
  • ga4_metrics – готовые метрики над Google Analytics

Заключение

DBT кардинально изменил подход к трансформации и организации данных, предложив принципиально новую философию: «Data as Code». В отличие от традиционных проектов по внедрению DWH, где контроль версий, документация и тестирование часто остаются на втором плане, dbt привнес лучшие практики разработки ПО в data-инженерию.
Но все же, на наш нескромный взгляд, он по-прежнему остается практически недоступным для аналитиков, которые прекрасно знают предметную область бизнеса и SQL, но не являются столь хорошими техническими специалистами, чтобы освоить dbt. Мы это видели на многих проектах, где были попытки «посадить» аналитиков за штурвал dbt.
А ведь очень хочется снизить нагрузку с data-инженеров, дав возможность аналитикам самим строить для себя dataset-ы. Поэтому мы и реализовали Datapulse, который перенял все лучшие практики dbt и улучшил его, сделав доступнее для обычных аналитиков.

закажите
демо-версию
datapulse

оставьте ваши контакты и наш менеджер свяжется с вами
Закрыть

Получить бесплатный доступ к DataPulse

Наш менеджер свяжется с вами для предоставления бесплатного доступа и презентует наш сервис