制造行业

生成式 AI 赋能下的视觉分析解决方案指南

在亚马逊云科技上构建集成大语言模型的多模态视频分析应用程序

制造行业

生成式 AI 赋能下的视觉分析
解决方案指南

在亚马逊云科技上构建集成大语言模型的多模态视频分析应用程序

概览

概览

在制造业智能互联场景下,智能摄像头企业分析视频时面临着无法理解视频场景;无法判断视频中关联帧发生的事件;使用传统机器学习模型需要大量的训练数据以及开发工作量。针对这些问题,亚马逊云科技构建了多模态视频分析解决方案指南,利用大语言模型多模态能力与提示词工程快速分析视频内容,提供给最终用户增值服务;利用大语言模型 Agent 自动编排任务工作流,降低开发工作量,缩短产品上线周期。该指南基于 Amazon Bedrock 提供的第三方模型 Claude3 以及 AWS Lambda 等服务构建。

在制造业智能互联场景下,智能摄像头企业分析视频时面临着无法理解视频场景;无法判断视频中关联帧发生的事件;使用传统机器学习模型需要大量的训练数据以及开发工作量。针对这些问题,亚马逊云科技构建了多模态视频分析解决方案指南,利用大语言模型多模态能力与提示词工程快速分析视频内容,提供给最终用户增值服务;利用大语言模型 Agent 自动编排任务工作流,降低开发工作量,缩短产品上线周期。该指南基于 Amazon Bedrock 提供的第三方模型 Claude3 以及 AWS Lambda 等服务构建。



应用场景

应用场景

01
安防类智能摄像头厂商

可疑人员、陌生车辆、包裹丢失等安全事件分析、判定与报警

01
安防类智能摄像头厂商

可疑人员、陌生车辆、包裹丢失等安全事件分析、判定与报警

02
看护类智能摄像头厂商

婴儿、老人看护与危险分析;鸟类、野生动物活动总结与 Vlog 生成

02
看护类智能摄像头厂商

婴儿、老人看护与危险分析;鸟类、野生动物活动总结与 Vlog 生成

03
智能家居厂商

说明书图像问答、设备故障图像判定

03
智能家居厂商

说明书图像问答、设备故障图像判定

面临的挑战

面临的挑战

视频分析与理解

传统计算机视觉与机器学习模型往往只能识别图像中物体种类,无法对视频与图片内容进行分析与理解。

警报与消息推送

视频分析的结果需要实时或定时进行警报触发判定,条件达成则需要进行警报推送;触发警报的条件应最终用户来说各不相同,实际场景难以满足用户个性化需求。

视频内容总结与问答

用户可以对视频内容进行总结,以每日文字报告的或者 Vlog (video blog) 的形式。也可以基于视频内容,通过自然语言进行问答,获取所需的信息,增强视频数据的利用价值。

开发与成本

触发警报后消息后处理的业务流有多种形式,需要大量的研发资源投入到工作流开发中;同时客户需要定义如何触发视频事件,将有效的视频片段进行推送,平衡大模型推理成本与视频分析效果。

优势

优势

全面的视频内容分析与理解能力

通过 Amazon Bedrock Claude3 对视频和图像内容进行深入分析,不仅识别物体种类,还可以理解视频中的事件、动作和异常情况。

智能的警报与消息推送机制

支持根据用户设定的个性化规则,实时或定时分析视频内容,自动触发警报并推送相关信息,大幅提高安全监控和看护的效率。

视频内容问答功能

用户可以基于视频内容通过自然语言进行问答,获取所需的信息,增强视频数据的利用价值。

控制成本

通过智能分析和推送机制,有效利用视频资源

架构图及说明

云上多模态视频分析解决方案指南架构图
第 1 步

用户在网站上获取数据、编辑提示词、执行分析、设置后处理操作以及进行视频内容问答,该网站托管在 Amazon Amplify 上。

第 2 步

网站将请求传递给 Amazon API Gateway,并从 API Gateway 接收响应。

第 3 步

API Gateway 将请求导向视频流和上传组件,该组件通过 Amazon Kinesis Video StreamsAmazon IoT Core 集成来自 IP 摄像头的视频数据,并通过 AWS IoT Greengrass 管理边缘端的机器学习模型。

第 4 步

API Gateway 将包含视频帧和提示的分析请求转发给视觉分析组件。该组件配备了 Amazon Lambda 函数和基于Amazon BedrockAmazon Sagemaker 的模型库,可处理请求并将语言模型的结果返回给 API Gateway。

第 5 步

如果用户通过输入自然语言设置了消息后处理操作,大语言模型智能体 (LLM Agent) 将通过多个 Amazon Lambda 函数工具执行该操作,如:向移动客户端发送短信或向边缘设备发送通知。

第 6 步

用户可以将视频存储在 Amazon Simple Storage Service (Amazon S3) 上,并在 Amazon DynamoDB 上存储调整过的提示词模板。

第 7 步

用户可以选择通过 Amazon Lambda 函数将视频分析的中间结果保存到 Amazon OpenSearch。然后,他们可以在网站上利用 LLM 根据视频内容进行问答会话。

架构图及说明

云上多模态视频分析解决方案指南架构图
第 1 步

用户在网站上获取数据、编辑提示词、执行分析、设置后处理操作以及进行视频内容问答,该网站托管在 Amazon Amplify 上。

第 2 步

网站将请求传递给 Amazon API Gateway,并从 API Gateway 接收响应。

第 3 步

API Gateway 将请求导向视频流和上传组件,该组件通过 Amazon Kinesis Video Streams 或 Amazon IoT Core 集成来自 IP 摄像头的视频数据,并通过 AWS IoT Greengrass 管理边缘端的机器学习模型。

第 4 步

API Gateway 将包含视频帧和提示的分析请求转发给视觉分析组件。该组件配备了 Amazon Lambda 函数和基于Amazon BedrockAmazon Sagemaker 的模型库,可处理请求并将语言模型的结果返回给 API Gateway。

第 5 步

如果用户通过输入自然语言设置了消息后处理操作,大语言模型智能体 (LLM Agent) 将通过多个 Amazon Lambda 函数工具执行该操作,如:向移动客户端发送短信或向边缘设备发送通知。

第 6 步

用户可以将视频存储在 Amazon Simple Storage Service (Amazon S3) 上,并在 Amazon DynamoDB 上存储调整过的提示词模板。

第 7 步

用户可以选择通过 Amazon Lambda 函数将视频分析的中间结果保存到 Amazon OpenSearch。然后,他们可以在网站上利用 LLM 根据视频内容进行问答会话。

探索更多

探索所有亚马逊云科技解决方案
探索所有亚马逊云科技解决方案

浏览我们针对常见架构问题使用亚马逊云科技构建的解决方案组合。

查找合作伙伴
查找合作伙伴

查找亚马逊云科技认证的咨询和技术合作伙伴,以帮助您入门。

开始在控制台中构建
开始在控制台中构建

注册并开始探索我们的服务。

探索更多

探索所有亚马逊云科技解决方案

浏览我们针对常见架构问题使用亚马逊云科技构建的解决方案组合。

查找合作伙伴

查找亚马逊云科技认证的咨询和技术合作伙伴,以帮助您入门。

开始在控制台中构建

注册并开始探索我们的服务。