亚马逊AWS官方博客

使用 AWS Glue 进行异常检测以提高数据质量(预览版)



我们将推出新的 AWS Glue 数据质量自动监测功能的预览版,该功能将使用机器学习检测统计异常和异常模式,来提高您的数据质量。您可以深入了解数据质量问题、数据质量评分以及可用于持续监控异常情况的规则建议,而无需编写任何代码。

数据质量至关重要
AWS 客户已经构建了数据集成管道来提取和转换数据。他们制定了数据质量规则,确保生成的数据具有高质量,可用于做出准确的业务决策。在许多情况下,这些规则根据在特定时间点选择和锁定的标准来评测数据,以反映业务的当前状态。但是,随着业务环境的变化和数据属性的变化,规则并不总是会经过审查和更新。

例如,对于处于早期阶段的企业,可以设置一条规则来验证日销售额是否至少达到 1 万美元。随着业务的成功和发展,应不时地检查和更新规则,但实际上这种情况很少发生。因此,如果销售额意外下降,过时的规则就不会被激活,没有人会满意。

异常检测实际应用
为了检测异常模式,并深入了解数据,组织尝试创建自己的自适应系统,或选择需要特定技术技能和专业业务知识的昂贵商业解决方案。

为应对这一广泛挑战,Glue 数据质量自动监测功能现在开始使用机器学习(ML)。

激活后,Glue 数据质量自动监测功能的这个很酷的新功能就会在新数据到达时收集统计数据,使用机器学习和动态阈值从过去的模式中学习,同时查找异常值和异常数据模式。该过程会产生观测结果,并将趋势可视化,以便您可以快速了解异常情况。

作为观测结果的一部分,您还将获得规则建议,并且可以轻松且逐步地将其添加到数据管道中。规则可以强制执行停止数据管道之类的操作。过去,您只能编写静态规则。现在,您可以编写具有自动调整阈值的动态规则和 AnomalyDetection 规则,以掌握重复出现的模式并发现偏差。当您将规则用作数据管道的一部分时,它们可以停止数据流,以便数据工程师可以查看、修复和恢复。

为了使用异常检测,我在作业中添加了一个评估数据质量节点:

我选择节点,并单击添加分析器以选择统计数据和列:

Glue 数据质量自动监测功能从数据中学习以识别模式,然后生成观测结果,这些观测结果将显示在数据质量选项卡中:

以及可视化:

在我查看观测结果后,我添加了新规则。第一个是设置自适应阈值,检查行计数是否在最近 10 次运行的最小值和最近 20 次运行的最大值之间。第二个是寻找异常模式,例如 RowCount 在周末异常高:

加入预览版试用
此新功能已在以下 AWS 区域推出预览版:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(东京)和欧洲地区(爱尔兰)。要了解更多信息,请阅读数据质量异常检测。

此功能推出后,我们将发布详细的博客文章,敬请关注!

了解详情

数据质量异常检测

Jeff