ByteHouse v1.0.0 Beta 版本发布说明
近年来,随着企业数字化转型逐步深入,数字化场景出现了爆发式增长,对于海量数据处理的实时性和可靠性的要求越来越高。ByteHouse大数据平台在海量并发、批流一体、云原生等方面进行了完善地支持,进一步拓展了OLAP能力,为各行各业用户提供统一的大数据分析平台,实现一站式数据服务,从而加速企业数字化转型。
1. ByteHouse大数据平台简介
ByteHouse是一个面向海量数据的自助分析平台,能够统一企业的数据服务能力,支持成百上千的数据应用场景。基于灵活扩容的计算组和分布存储,帮助企业用户实现实时数据洞察。ByteHouse核心亮点:
-
实时写入,实时分析,辅助业务决策
-
无限扩容,业务自助,统一分析平台
-
纯SaaS数仓体验,零运维成本和复杂度
2. ByteHouse 1.0.0 版本新特性解读
ByteHouse1.0.0 版本于 2021 年 7 月 发布,主要包含如下几个方面的新功能特性:
多种数据源导入
在ByteHouse1.0.0 中,您可以在几分钟内配置数据导入任务,并对导入的数据做进一步处理。ByteHouse1.0.0 同时支持实时数据和离线数据的导入,从而为用户提供了统一的数据分析平台。
-
针对离线数据,ByteHouse1.0.0支持 本地文件 、 Hive 和 AWS S3 作为数据源导入。
-
针对流式数据,ByteHouse1.0.0 支持 Apache Kafka **作为数据源导入,通过性能优化,其写入速度可以达到开源clickhouse的 2 倍。
在数据导入过程中,用户可以在任务详情中查看到任务配置信息以及错误日志等,此外,用户可以通过查看数据导入的数量和趋势视图,进一步了解任务的导入状态。
自助数据管理平台
ByteHouse1.0.0 同时支持用户通过SQL语义及控制台页面对数据对象(数据库、表和视图)进行管理。用户对数据对象进行完整的创建、编辑、预览等操作,并能够对数据库表进行细粒度的权限控制。
此外,ByteHouse的控制台页面中提供了数据对象的概览页,展示了数据库表的使用情况、同比环比数据,查询频率排序等,便于用户直观地查看到最常用的数据库表信息,以及存储资源的使用情况。
在数据表的详情页面,支持用户预览数据、查看分区信息、并根据表分区(partition)情况进行可视化展示,并且能够在控制台页面中直接删除分区数据。
多级资源隔离
ByteHouse支持多级资源隔离,包括基于角色的权限访问控制Role-Based Access Control (RBAC)、读写隔离和计算资源的隔离。
对于读写分离来说,ByteHouse通过无服务器(Serverless)服务从多种数据源中进行数据导入,并且将数据导入和执行SQL查询的计算资源完全分开,从而确保数据写入不会影响查询性能。
此外,ByteHouse通过 计算组 实现了计算资源的隔离。计算组是由虚拟计算节点组成的集群,能够为计算提供CPU,内存以及临时存储能力。计算组可以根据业务场景进行弹性伸缩,其大小可以从 XS 到 XXL 型号逐步增加,从而为执行查询提供充足的计算能力。
针对不同的业务需求,用户可以指定不同的计算组进行查询,由于计算组之间的资源相互隔离,从而不同的业务可以使用不同大小的计算资源,并且确保业务之间的查询相互隔离,不会影响性能。
在计算组的详细信息中,用户可以查看到该计算组的状态、型号和权限配置等信息,并能够通过计算组的工作负载判断其资源使用量,辅助调整计算组的大小。
增强数据分析(SQL工作表)
ByteHouse通过提供SQL语法兼容以及SQL工作表来实现增强的数据分析能力。
首先,ByteHouse提供了两种SQL模式的支持:ANSISQL2011 和ClickHouseSQL。用户可以根据自己的偏好轻松使用和切换,从而兼容原有的SQL代码,减少重写和适配的工作。
此外,ByteHouse在控制台中提供了功能丰富的SQL工作表环境,在SQL工作表中,用户可以导入/导出、编辑和执行SQL语句,并预览查询结果。主要能力如下:
-
选择 ANSISQL和ClickHouseSQL模式执行SQL语句
-
创建、保存、编辑SQL工作表并和其它用户共享。
-
通过线形图和柱状图预览查询结果,对数据进行可视化
-
将查询结果下载到本地,保存为 CSV 文件
-
通过SQL查询历史查看语句的执行时间、状态等信息
-
在查询分析器中,查看有关SQL执行的详细分析信息,便于用户无需下载日志即可排查SQL性能。
企业级安全保障
ByteHouse致力于客户及其数据安全,通过如下功能提供端到端的企业级安全保障:
-
身份验证:ByteHouse提供基于用户名/密码的身份验证机制,以及访问秘钥(Access Key/Secret Key)的验证机制。
-
访问控制:ByteHouse支持完善的基于角色的访问控制(RBAC)模型,通过配置策略管理不同的安全对象(数据库表、计算组等)。此外,还提供了行和列级别的安全访问控制,对不同角色的权限实现细粒度划分。
-
网络策略:通过支持IP黑白名单功能,对访问的IP进行控制,确保已授权的IP才能安全访问。
-
数据加密:针对数据导入、查询的过程提供端到端的加密,在数据传输期间支持TLS加密能力。
-
数据备份:通过提供数据库表的克隆/备份功能,确保历史数据的安全稳定。
3. 未来展望
接下来,ByteHouse大数据平台将充分发挥已有的技术积累,持续丰富产品功能,继续提升性能、加强稳定性建设,完善开发者工具,进一步优化云原生部署,赋能企业加速实现数据上云。
-
在数据源导入方面,ByteHouse将支持更多批量、实时数据源的接入,同时提升数据写入性能。
-
在开发者工具方面,ByteHouse将逐步完善 JDBC, OCBC Driver 的支持,同时持续完善ByteHouseCLI,支持多语言的开发者工具(Golang,Python等)
-
在生态建设上,ByteHouse将进一步打通常用的BI工具如 Tableau,PowerBI 等,为用户提供完整的数据管道,实现端到端的一站式数据导入、分析及展示能力,进一步加速数据洞察。
-
在云原生部署方面,未来将支持更多地域的部署,和用户原有资源及架构保持一致,最大限度减少网络消耗。
敬请关注 ByteHouse 未来版本中更多激动人心的功能。