DBT
什么是DBT
DBT (data build tool) 是一个命令行工具,它使数据分析师和工程师只需编写SELECT语句即可加工其仓库中的数据。DBT执行 ELT(提取,加载,加工)过程中的T(加工)-它不提取或加载数据,但它非常擅长加工已经加载到仓库中的数据。
先决条件
确保您的机器中安装了dbt和python。如果没有,请按照本指南进行操作https://docs.getdbt.com/docs/get-started/installation
安装
- 创建一个新目录&cd到其中
mkdir dbt_bytehouse_demo
cd dbt_bytehouse_demo
- 联系ByteHouse团队获取下载最新DBT插件的链接
pip install ~/Downloads/dbt-bytehouse-1.3.1.tar.gz
- 检查bytehouse插件是否成功安装在您的机器上
dbt --version
- 使用dbt init创建一个新的dbt项目
- 我们必须更新profiles.yml来设置与数据仓库(bytehouse)的连接。对于mac机器,profiles.yml可以在~/. dbt/profiles.yml 这里找到
dbt_demo (top level) | Your profile name which needs to be referred to in your project |
type | Datasource name |
schema | Database name (There is no schema concept in ByteHouse / ClickHouse) |
driver | Native (tcp-driver), We don't have support for http-driver yet |
user | If using API_KEY as authentication, then "bytehouse", else "AccountID::UserID" |
host | FQDN for bytehouse server |
password | If using API_KEY as authentication, then api_key, else password |
secure | True (Secured connection) |
database_engine | No custom database engine |
- 前面的dbt init命令将创建一个示例存储库供我们使用。cd进入dbt_bytehouse_demo目录
cd dbt_bytehouse_demo
- 使用~/. dbt/profiles.yml中定义的配置文件名称更新dbt_project.yml文件
- 运行"dbt debug"以验证您是否有工作连接到bytehouse
Updated over 1 year ago