亚马逊AWS官方博客
云上构建 ChatBI,德比软件引领企业数据分析智能化
前言
德比软件是全球领先的旅游网络营销系统技术服务商,为酒店行业提供科技解决方案。凭借世界领先的技术,帮助合作伙伴获取更多客户,实现收入增长,服务覆盖 197 个国家和地区。
德比软件是酒店行业数字化转型的先锋力量。早在 2012 年,公司就全面拥抱 AWS 云计算服务,成为国内较早进入云计算时代的企业之一。经过 12 年的云上运营实践,德比软件在云端技术应用方面积累了丰富的经验。
德比软件始终紧跟科技发展趋势,致力于用领先的技术提供不同企业系统(酒店供应商、分销商、垂直搜索引擎、旅游技术服务商等)之间的对接和数据整合,最终“让旅游企业的合作变得很容易”。2023 年随着 GenAI 的发展,德比软件实施全面拥抱 GenAI 的技术战略,在酒店智能推荐、智能 BI 报表、智能缓存、智能数据标注等多个场景开展创新性实践,充分发挥 GenAI 在提升运营效率、优化用户体验等方面的巨大潜力。
凭借对新兴技术的前瞻布局和持续创新,德比软件正引领酒店业数字化转型,为合作伙伴提供卓越的科技解决方案,助力酒店业务持续增长。
企业精益数据运营之路
在企业中,数据是非常宝贵的资源,但如果无法高效利用,就会浪费这些珍贵的资源。很多公司都面临着类似的挑战:
- 从业务和管理层面来看,公司积累了大量数据,但由于数据系统底层结构复杂、权限管理严格,业务人员很难直接访问和利用这些数据。这导致了一些常见问题:
- 业务决策者在月初和月末需要查询大量数据,但开发人手有限,工作任务却突然增加,导致开发周期被迫拉长。
- 客户无法准确查询订单、销售等关键业务数据。
- 不同部门对数据结构理解不同,无法实现跨产品的数据整合和分析。
- 从员工角度来看,大多数员工缺乏编写 SQL 等数据查询语句的技术能力,也无法将业务需求准确转化为数据查询语言,主要困难包括:
- 如何在不懂 SQL 的情况下进行数据分析?
- 如何在没有专业知识的前提下正确解读数据?
- 数据解读和分析通常需要专业的数据分析能力。
这些挑战导致企业无法充分利用数据资源,制约了业务发展和决策效率。因此,企业亟需一种能够突破这些障碍的解决方案,让业务人员和普通员工也能高效便捷地利用数据资源,提高工作效率和决策质量。
ChatBI 引领数据分析智能化转型
使用 Amazon Bedrock Claude 3 为核心的生成式 BI 解决方案指引构建的 ChatBI,可以通过简单的自然语言提问进行数据检索和分析。在此方案中,通过设计了若干模块来提升模型的整体推理质量。
图:为大模型提供足够的信息以帮助其构建 SQL 生成能力及其它业务能力
创新弈路
我们采用了一种创新的方法,将知识检索和提示词技术作为核心,同时融入了数据 ETL 和思维链拆分 Agent 等技术。这种方法旨在提高用户查询数据的效率,并引入了数据反馈机制,以逐步优化和提高系统查询的准确性。
本方案核心为根据现在有的数据结构、解释、名词、公式等生成正确的 SQL 语句,由亚马逊云科技和德比软件共创而构建的一款利用大语言模型使用自然语言生成查询的工具。
架构设计
落地形态
用户使用界面:可以提出任意数据相关问题
用户使用界面:ChatBI 可以生成对应结果和图表
后台配置界面:方便管理人员及 DBA 快速调整效果
逻辑思路
面临的挑战
在 ChatBI 落地过程中,德比软件碰到了很多查询准确率问题,通常是由于大模型对信息摄取不足。
例 1:数据库的元数据过于庞大复杂,影响效果
解决方法:针对数据表多的情况,在原始数据上构建指标体系是最有效的方案,通过实现新的少量宽表来减少 SQL 生成的复杂度。
原始数据如下:
- Connectivity Services 订单表(为酒店供应商与分销商设计的数据对接平台)
- Marketing Services 订单表(一站式酒店垂直搜索渠道营销平台)
- Property Connector 订单表(一站式 PMS 对接全域渠道平台)
- Business Travel Suite 订单表(一站式商旅市场解决方案平台)
- 其他订单表
转变为:
- 酒店数量统计表
- 分客户的订单数量表(按月聚合)
- 分产品的订单数量统计表(按月聚合)
数据 ETL 的指导原则
- 对于一些指标数据,可以提前通过 ETF 进行计算,形成指标表,比如流失率,复购率等。
- 对于一些明细表,如果不需要查询明细,可以进行合并聚合操纵,比如按月聚合等。
- 如果表特别多,建议按照不同的业务,对数据进行分组,查询的时候,可以进行业务线选择。
数据表中的字段名称,建议使用统一的命名规范。
对于数据表中,空值占比过多的字段,进行清理,减少表的列数。
例 2:LLM 训练不足,无法覆盖 SQL 生成场景
解决方法:知识检索(RAG)-实体识别与实体检索
通过识别 query 中的实体,增加实体信息,可以提高 LLM 对专业名词的理解能力,提升生成 SQL 的准确率。
例如:某国际酒店集团 2023 年 12 月订单量环比增长是多少?
例 3:LLM 对各类实体长尾知识缺乏理解,例如用户问题中涉及万豪酒店的表述可能包含 1)万豪 2)Marriott 3)Marriot(拼写错误),三者均指向数据库中的 MARRIOTT 值
解决方法:知识检索(RAG)-SQL样本检索
通过增加样本,提高 LLM 推理能力,提高大模型对 SQL 任务生成的理解能力
利用 LLM 的迁移能力 – 增加推理样本 Few-Shot
对于碰到的其它性能问题,均在解决方案指引和德比软件的落地中予以解决,在此不一一列举。
同时,对于复杂的分析型问题,ChatBI 也可以进行拆解,并提供多个 SQL 查询语句,并对结果进行组合解释。
ChatBI 的下钻分析能力
总结
ChatBI 项目的目标是通过打通不同平台的数据隔离,实现了自然语言对话即分析的创新功能。用户只需通过日常对话方式,便可获取可信的数据分析结果,极大降低了数据获取门槛,提高了分析师的工作效率。该项目不仅能自动生成 SQL 语句以提高报表开发效率,还能将复杂的 SQL 转换为易理解的自然语言描述,确保查询透明可验证,让非技术人员也能轻松判断数据逻辑和可用性。
目前 ChatBI 主要涵盖了酒店、订单和客户数据,未来将拓展到更多领域如成本分析、客户分析、产品分析等。当前方案支持基础统计、趋势分析、TopN 等多种分析类型的自然语言查询。其 Roadmap 包括扩大用户群体、整合更多数据源,并新增自动图表绘制、多轮对话、插件化等功能。
未来,ChatBI 将支持多模态交互、跨平台整合,深入行业提供垂直领域应用,并通过数据分析和机器学习为用户决策提供智能支持。该项目可以降低数据分析的门槛,推动数据民主化,为企业赋能并创造价值。
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。