亚马逊AWS官方博客
Category: Analytics
利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库(二)Apache DolphinScheduler 集成以及 LOB 粒度资源消费分析
在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的 B2C 金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器数据仓库的解耦方法。
利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库(一)云上云下数据同步方案设计
在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的 B2C 金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器数据仓库的解耦方法。
使用 Amazon Athena 查询分析 Apache Paimon 数据
本文探索了使用 Amazon Athena 来对 Apache Paimon 表中的数据进行查询分析,包括使用 Athena for Apache Spark 以及开发 Athena Paimon Connector,使用 Athena Federated Query 这两种方式来连接和查询 Paimon 表。
基于 Amazon Bedrock 托管 Claude3 实现 RAG 增强文本检索的 Text to SQL 方案
基于 Amazon Bedrock 托管 Claude3 实现 RAG 增强文本检索的 Text to SQL 方案。其中 RAG 通过 Amazon Titan 实现 Embedding,通过向量检索工具进行向量文件保存和向量检索。最后得到有知识库背景的 prompt,连同上下文一起发送给大模型,得到更精准的输出。
使用 MSK Connect 实现 ClickHouse 的实时数据摄取
在这篇文章中,我们会介绍通过 MSK,MSK Connect ClickHouse Kafka Connector 以及 Glue Schema Registry 来搭建端到端的全托管⽆服务器架构的实时数据摄取能力,并且通过 ClickHouse 与 S3 的集成来降低海量实时数据存储的成本。
AWS 一周综述 — 农历新年快乐、IaC 生成器、NFL 的数字运动员、AWS Cloud 俱乐部等 — 2024 年 2 月 12 日
农历新年快乐! 祝您在新的一年欢乐多多、事事顺利,机会满满! 祝您在龙年能获得源源不断的业务联系,并实现无 […]
字节跳动 ByteHouse 云原生之路 – 计算存储分离与性能优化
本文介绍了 ByteHouse 在亚马逊云科技平台上云原生之路过程中遇到的问题,进据此进行了架构升级和改造,通过计算存储分离架构以及深度的优化,完成了 ByteHouse 整体数据分析性能上的巨大提升。
Amazon OpenSearch 拼音插件使用实践
本文详述了在 Amazon OpenSearch Service 中安装拼音插件的步骤,展示了如何设置默认和自定义拼音分析器,并验证了其效果。同时,还探讨了拼音插件与 IK 中文插件结合使用,以实现优化的中文拼音分词,从而提升 OpenSearch 处理中文搜索需求的能力。
使用 Alluxio 加速数据湖 ODS 写后读及 DWD 宽表性能
本文引入 Alluxio 集群缓存,对 S3,hdfs 等数据进行 warm up 或直写缓存透传,加速 ODS 数据入湖的写后读,以及 DWD 宽表的查询性能,通过测试比对,在实时数据湖场景中,通过引入 Alluxio 集群缓存,缩短了数据入湖时间,并大幅提升了数仓查询效率,本文中的示例脚本和代码,可以供感兴趣的小伙伴根据自己业务场景进行 Alluxio 的集成实施和优化。
DolphinScheduler + EMR Serverless 的集成实践
本文通过对 EMR on EC2 与 EMRServerless 中 Spark 任务的提交、监控、下载日志过程进行抽象并封装成 Python 类库,极大地简化了使用 Spark 的门槛,以及从 EMR on EC2 切换至 EMRServerless 的改造成本。