概览
概览
在制造业智能互联场景下,智能摄像头企业分析视频时面临着无法理解视频场景;无法判断视频中关联帧发生的事件;使用传统机器学习模型需要大量的训练数据以及开发工作量。针对这些问题,亚马逊云科技构建了多模态视频分析解决方案指南,利用大语言模型多模态能力与提示词工程快速分析视频内容,提供给最终用户增值服务;利用大语言模型 Agent 自动编排任务工作流,降低开发工作量,缩短产品上线周期。该指南基于 Amazon Bedrock 提供的第三方模型 Claude3 以及 AWS Lambda 等服务构建。
在制造业智能互联场景下,智能摄像头企业分析视频时面临着无法理解视频场景;无法判断视频中关联帧发生的事件;使用传统机器学习模型需要大量的训练数据以及开发工作量。针对这些问题,亚马逊云科技构建了多模态视频分析解决方案指南,利用大语言模型多模态能力与提示词工程快速分析视频内容,提供给最终用户增值服务;利用大语言模型 Agent 自动编排任务工作流,降低开发工作量,缩短产品上线周期。该指南基于 Amazon Bedrock 提供的第三方模型 Claude3 以及 AWS Lambda 等服务构建。
应用场景
应用场景
可疑人员、陌生车辆、包裹丢失等安全事件分析、判定与报警
可疑人员、陌生车辆、包裹丢失等安全事件分析、判定与报警
婴儿、老人看护与危险分析;鸟类、野生动物活动总结与 Vlog 生成
婴儿、老人看护与危险分析;鸟类、野生动物活动总结与 Vlog 生成
说明书图像问答、设备故障图像判定
说明书图像问答、设备故障图像判定
面临的挑战
面临的挑战
传统计算机视觉与机器学习模型往往只能识别图像中物体种类,无法对视频与图片内容进行分析与理解。
视频分析的结果需要实时或定时进行警报触发判定,条件达成则需要进行警报推送;触发警报的条件应最终用户来说各不相同,实际场景难以满足用户个性化需求。
用户可以对视频内容进行总结,以每日文字报告的或者 Vlog (video blog) 的形式。也可以基于视频内容,通过自然语言进行问答,获取所需的信息,增强视频数据的利用价值。
触发警报后消息后处理的业务流有多种形式,需要大量的研发资源投入到工作流开发中;同时客户需要定义如何触发视频事件,将有效的视频片段进行推送,平衡大模型推理成本与视频分析效果。
优势
优势
通过 Amazon Bedrock Claude3 对视频和图像内容进行深入分析,不仅识别物体种类,还可以理解视频中的事件、动作和异常情况。
支持根据用户设定的个性化规则,实时或定时分析视频内容,自动触发警报并推送相关信息,大幅提高安全监控和看护的效率。
用户可以基于视频内容通过自然语言进行问答,获取所需的信息,增强视频数据的利用价值。
通过智能分析和推送机制,有效利用视频资源
架构图及说明
API Gateway 将请求导向视频流和上传组件,该组件通过 Amazon Kinesis Video Streams 或 Amazon IoT Core 集成来自 IP 摄像头的视频数据,并通过 AWS IoT Greengrass 管理边缘端的机器学习模型。
API Gateway 将包含视频帧和提示的分析请求转发给视觉分析组件。该组件配备了 Amazon Lambda 函数和基于Amazon Bedrock 或 Amazon Sagemaker 的模型库,可处理请求并将语言模型的结果返回给 API Gateway。
如果用户通过输入自然语言设置了消息后处理操作,大语言模型智能体 (LLM Agent) 将通过多个 Amazon Lambda 函数工具执行该操作,如:向移动客户端发送短信或向边缘设备发送通知。
用户可以将视频存储在 Amazon Simple Storage Service (Amazon S3) 上,并在 Amazon DynamoDB 上存储调整过的提示词模板。
用户可以选择通过 Amazon Lambda 函数将视频分析的中间结果保存到 Amazon OpenSearch。然后,他们可以在网站上利用 LLM 根据视频内容进行问答会话。
架构图及说明
用户在网站上获取数据、编辑提示词、执行分析、设置后处理操作以及进行视频内容问答,该网站托管在 Amazon Amplify 上。
网站将请求传递给 Amazon API Gateway,并从 API Gateway 接收响应。
API Gateway 将请求导向视频流和上传组件,该组件通过 Amazon Kinesis Video Streams 或 Amazon IoT Core 集成来自 IP 摄像头的视频数据,并通过 AWS IoT Greengrass 管理边缘端的机器学习模型。
API Gateway 将包含视频帧和提示的分析请求转发给视觉分析组件。该组件配备了 Amazon Lambda 函数和基于Amazon Bedrock 或 Amazon Sagemaker 的模型库,可处理请求并将语言模型的结果返回给 API Gateway。
如果用户通过输入自然语言设置了消息后处理操作,大语言模型智能体 (LLM Agent) 将通过多个 Amazon Lambda 函数工具执行该操作,如:向移动客户端发送短信或向边缘设备发送通知。
用户可以将视频存储在 Amazon Simple Storage Service (Amazon S3) 上,并在 Amazon DynamoDB 上存储调整过的提示词模板。
用户可以选择通过 Amazon Lambda 函数将视频分析的中间结果保存到 Amazon OpenSearch。然后,他们可以在网站上利用 LLM 根据视频内容进行问答会话。