亚马逊AWS官方博客
使用 Amazon Comprehend 构建自定义分类器
Amazon Comprehend 是一项使用机器学习 (ML) 在文本中发现见解和关系的自然语言处理 (NLP) 服务。Amazon Comprehend 可识别文本的语言;提取关键短语、地点、人物、品牌或事件;以及理解文本的正面或负面程度。有关 Amazon Comprehend 所有功能的更多信息,请参阅 Amazon Comprehend 功能。
使用适用于 Amazon SageMaker 的 AWS Step Functions Data Science SDK 自动执行模型重新训练和部署
随着机器学习 (ML) 在公司核心业务中占据的份量越来越重,缩短从模型创建到部署的时间就变得越来越重要。2019 年 11 月,AWS 发布了适用于 Amazon SageMaker 的 AWS Step Functions Data Science SDK,开发人员可以通过这款开源开发工具包用 Python 创建基于 Step Functions 的机器学习工作流。现在,您可以使用与模型开发所用的同款工具创建可重复使用的模型部署工作流。您可以在 GitHub仓库的 “automate_model_retraining_workflow” 文件夹中找到此解决方案的完整手册。
Amazon Forecast 现在支持按您选择的分位数生成预测
Forecast 在 re:Invent 2018 大会上推出并从 2019 年 8 月起全面开放,是一项完全托管的服务,使用机器学习生成高度准确的预测,用户无需事先具备任何机器学习经验。Forecast 适用于十分广泛的用例,包括估算产品需求、供应链优化、能源需求预测、财务规划、劳动力规划、云基础设施使用量的计算以及流量需求预测等。
使用 Amazon SageMaker 降低机器学习的总体拥有成本并提高工作效率
总体拥有成本 (TCO) 通常是您会用于估计与比较 ML 成本的财务指标。本文针对Amazon SageMaker (这是一个用来构建、训练与部署 ML 模型的全托管服务)做了TCO分析,结果表明,它的 TCO 在三年时间里比其他方式如自己通过 Amazon EC2 或 Amazon EKS来建设要低 54%。我们的分析范围涵盖了从只有五位数据科学家的小团队到由 250 位数据科学家组成的超大型团队,结论是 Amazon SageMaker 能为各种规模大小不同的团队都提供更出色的 TCO。
通过 AWS Lake Formation FindMatches 转换匹配患者记录
患者匹配是实现医疗护理互通性的主要障碍之一。不匹配的患者记录和无法检索患者历史信息可能严重阻碍做出正确的临床决定,并导致漏诊或治疗延误。另外,医疗护理提供者经常会花精力去处理患者重复数据的删除,尤其当他们的数据库中的患者记录数量急速增加时。电子健康记录 (EHR) 近年来大幅优化了患者的安全和护理协调,但准确的患者匹配对很多医疗护理组织来说仍然是一项挑战。
利用 AWS Lake Formation 探索元数据:第 1 部分
数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖
在生产中结合使用 Amazon Redshift Spectrum、Amazon Athena 和 AWS Glue 与 Node.js
在此博文中,我们解释了将带 Redshift Spectrum 的 Amazon Redshift 扩展为现代数据仓库的原因。我将介绍我们的数据增长及平衡成本和性能的需求如何促使我们采用 Redshift Spectrum。我还将分享我们的环境中的关键性能指标,并讨论提供可扩展和快速环境的额外 AWS 服务,并提供数据供我们日益增长的用户群进行立即查询。
使用 API Gateway 监管客户端与 Apache Kafka 之间的交互
在本文中,我们将演示 Amazon API Gateway 如何作为 Amazon MSK 集群和客户端之间的一个组件来解决这些问题。
Amazon MSK 是一款适用于 Apache Kafka 的完全托管的服务,借助它只需几次点击即可轻松预置 Kafka 集群,不再需要手动预置服务器、管理存储或者配置 Apache Zookeeper。Apache Kafka 是 一个开源平台,可用于构建实时的流式处理数据管道和应用程序。
使用 Amazon Athena 访问跨账户 AWS Glue 数据目录
很多 AWS 客户采用多账户策略。集中式的 AWS Glue 数据目录对于在最大程度上减少与不同账户之间元数据共享相关的管理工作来说非常重要。本文介绍了基于 Amazon Athena 在不同 AWS 账户之间查询集中式数据目录的功能。
使用 AWS Glue 和 Amazon Redshift 分析您的 Amazon S3 支出
AWS 成本和使用情况报告 (CUR) 会追踪您的 AWS 使用情况,并提供与之相关联的预计费用。您可以配置此报告为以小时或日为间隔显示数据;在账单收费期最后结束前,它至少每天会更新一次。成本和使用情况报告会自动发送到由您指定的 Amazon S3 存储桶,可以在那里直接下载。您还可以将该报告整合到 Amazon Redshift,也可以通过 Amazon Athena 进行查询,或者把它上传到 Amazon QuickSight。