《华尔街日报》使用 Amazon Kendra 为读者提供搜索工具
2021 年
随着 2020 年美国总统大选日期的临近,《华尔街日报》(WSJ)希望帮助读者更轻松地获得并理解候选人的言论,以及这些候选人在关乎读者的议题中的政见。2019 年 6 月 5 日,一份 Pew Research Center 的研究表明,几乎 80% 的美国人会自行核实新闻报道的真伪,并查找这些信息的原始出处。
WSJ 的产品与技术团队找到 Amazon Web Services(AWS),想要为读者打造全新的客户体验。通过和来自 AWS 数字创新计划和 AWS Professional Services 的全球专家团队合作(这些专家可以帮助公司在 AWS 上实现他们的所需成果),WSJ 团队能够加速开发智能搜索工具 Talk2020,帮助读者快速搜索与分析近 30 年来由总统候选人在公共场所发表的言论。它会探索发言模式并借助高性能文本分析,使读者能够更深入地了解相关的长期议题。使用 Amazon Kendra 是 WSJ 的成功关键,这项高度准确的智能搜索服务得到机器学习的技术支持。
AWS 根据我们的时间安排帮助我们构建了一套解决方案。与专家的直接沟通使我们能够运用与 Amazon Kendra 相关的正确服务,并实现我们所需要的质量水平。”
Dion Bailey
WSJ 的技术与架构主管
帮助读者获取准确的信息
《华尔街日报》是一家全球性新闻企业,提供新闻、信息、评论和分析,并通过印刷、数字、移动、社交、音频和视频平台与读者互动。作为一家以提供全球商业和金融新闻见长的传统媒体,WSJ 在此基础之上增加了对美国和世界新闻、政治、艺术、文化、生活方式、体育和健康领域的报道,并且因杰出的行业表现赢得 38 项普利策奖。正因为如此,他们认为帮助读者查询转录资料数据库,是提供新功能并且吸引新受众的绝佳机会。“我们想要提供一些新的功能,让读者能够利用这些功能逐字查看乔·拜登、唐纳德·特朗普,以及他们的竞选搭档都说过什么,然后得出自己的结论”,WSJ 的技术与架构副总裁兼主管 Dion Bailey 说道。
负责撰写调查报道的 WSJ 记者已经开始使用 Dow Jones 的全球新闻数据库 Factiva 来研究与查证信息真伪。Factiva 聚合了来自 32000 多个来源的内容,让读者能够按自由文本、区域、主题、作者和元数据进行搜索。WSJ 的研发部门与华盛顿特区的记者合作,为这些转录资料开发了一款高效的搜索工具。借助于 Talk2020,WSJ 希望使该工具变得更简单易用并且向更多受众推出,以帮助他们获得更多信息,作为 2020 年总统大选的决定依据。出版社希望读者能够使用自然语言提问,例如“在医疗方面,特朗普说了什么?”,然后获得能直接回答这些问题的答案。具有理想结构的解决方案还有可能增加网站流量,吸引到新的订阅者。
WSJ 团队原本就在使用 AWS,在构建期间,他们会通过每日站会、周会和架构探讨会与 AWS Professional Services 定期交流。“AWS 根据我们的时间安排帮助我们构建了一套解决方案”,Bailey 说道,“与专家的直接沟通使我们能够运用与 Amazon Kendra 相关的正确服务,并实现我们所需要的质量水平。”
整合内容策略和产品策略
在 AWS 的帮助下,WSJ 团队快速构建 Talk2020,并帮助他们实现赶在 2020 年 9 月第一场总统候选人辩论前推出该工具的目标。该解决方案采用 Amazon Kendra 来提供可靠的企业搜索功能。“Amazon Kendra 的实时自然语言处理功能对我们来说极具吸引力”,Bailey 说道。该搜索解决方案的前端包含 API 网关和 Amazon CloudFront,后者是一个快速、高度安全,而且可编程的内容分发网络。当用户进行搜索时,Amazon Kendra 将返回可识别的主题和相关引述,然后通过相互参照标识和存储在 Amazon DynamoDB(一项支持键值和文档数据结构的 NoSQL 数据库服务)中经过清理的 Factiva 的转录资料进一步强化。
AWS Lambda 会管理 AWS 服务之间的数据流,这项无服务器计算服务让用户能够运行代码而无需预置或管理服务器。Bailey 解释:“我们必须在 Factiva 和数据层之间创建一个摄取层。”AWS Lambda 函数会触发请求,对转录进行清理和格式化,识别引述、发言者和主题,然后再将它们发送到 Amazon Kendra 和 Amazon DynamoDB。“依靠 Lambda 函数来处理这些任务意味着,我们可以在不需要它们时关闭进程,这非常经济高效”,Bailey 补充道。
Talk2020 工具的数据显示,在总统、副总统候选人辩论,以及市政厅活动期间和之后,使用量达到最高峰。很多人甚至在观看辩论时将该搜索工具作为第二屏幕,用来搜索候选人过去发表过的言论。Talk2020 提供的交互体验非常强大,个人用户经常可以通过一次访问提出多个问题并浏览多个主题。Bailey 表示:“这说明我们开发的工具能够满足读者的需求,而且我们有机会继续试验与读者互动的全新方式。”
鼓舞人心的未来智能搜索使用案例
与 AWS 团队的合作与使用 Amazon Kendra 等创新服务帮助 WSJ 在短短 5 个月内推出 Talk2020、增加网站流量、鼓励读者参与并吸引新的订阅者。“在任何有需要的时候,我们都能找到 AWS 团队”,Bailey 说道,“他们帮助我们解决遇到的每一个问题。”
关于华尔街日报
Dow Jones & Company 旗下的《华尔街日报》创立于 1889 年,它是一家总部设在纽约的全球性新闻公司,商业、金融、经济和全球性力量是他们的报道焦点。该公司会通过印刷、数字、移动、社交、音频和视频平台与读者互动。《华尔街日报》坐拥三十多座普利策奖,其发行量达到数百万份。
AWS 的优势
- 在 5 个月内推出 Talk2020 搜索工具
- 构建采用自然语言处理的搜索工具
- 提高参与度
使用的 AWS 服务
Amazon Kendra
Amazon Kendra 是一种由机器学习提供支持的智能搜索服务。Kendra 重新构想您的网站和应用程序的企业搜索,这样您的员工和客户就可以轻松地找到他们要查找的内容,即使这些内容分散在您组织内的多个位置和内容存储库中。
Amazon CloudFront
Amazon CloudFront 是一项快速内容分发网络 (CDN) 服务,可以安全地以低延迟和高传输速度向全球客户分发数据、视频、应用程序和 API,全部都在开发人员友好的环境中完成。
Amazon DynamoDB
Amazon DynamoDB 是一个键/值和文档数据库,可以在任何规模的环境中提供个位数的毫秒级性能。它是一个完全托管、多区域、多活动的持久数据库,具有适用于 Internet 规模应用程序的内置安全性、备份和恢复以及内存中缓存。
AWS Lambda
AWS Lambda 是一种无服务器的计算服务,让您无需预置或管理服务器、创建可感知工作负载的集群扩展逻辑、维护事件集成或管理运行时,即可运行代码。借助 Lambda,您几乎可以为任何类型的应用程序或后端服务运行代码,而且完全无需管理。
开始使用
不同行业和规模的公司都在使用 AWS,将其日常业务运营进行转型。联系我们的专家,立即踏上您的 AWS Cloud 之旅。