什么是DBT

DBT (data build tool) 是一个命令行工具,它使数据分析师和工程师只需编写SELECT语句即可加工其仓库中的数据。DBT执行 ELT(提取,加载,加工)过程中的T(加工)-它不提取或加载数据,但它非常擅长加工已经加载到仓库中的数据。

先决条件

确保您的机器中安装了dbt和python。如果没有,请按照本指南进行操作https://docs.getdbt.com/docs/get-started/installation

安装

  1. 创建一个新目录&cd到其中
mkdir dbt_bytehouse_demo
cd dbt_bytehouse_demo
  1. 联系ByteHouse团队获取下载最新DBT插件的链接
pip install ~/Downloads/dbt-bytehouse-1.3.1.tar.gz
  1. 检查bytehouse插件是否成功安装在您的机器上
dbt --version
602
  1. 使用dbt init创建一个新的dbt项目
778
  1. 我们必须更新profiles.yml来设置与数据仓库(bytehouse)的连接。对于mac机器,profiles.yml可以在~/. dbt/profiles.yml 这里找到
dbt_demo (top level)Your profile name which needs to be referred to in your project
typeDatasource name
schemaDatabase name (There is no schema concept in ByteHouse / ClickHouse)
driverNative (tcp-driver), We don't have support for http-driver yet
userIf using API_KEY as authentication, then "bytehouse", else "AccountID::UserID"
hostFQDN for bytehouse server
passwordIf using API_KEY as authentication, then api_key, else password
secureTrue (Secured connection)
database_engineNo custom database engine
  1. 前面的dbt init命令将创建一个示例存储库供我们使用。cd进入dbt_bytehouse_demo目录
cd dbt_bytehouse_demo
494
  1. 使用~/. dbt/profiles.yml中定义的配置文件名称更新dbt_project.yml文件
794
  1. 运行"dbt debug"以验证您是否有工作连接到bytehouse