Amazon Web Services 한국 블로그
Amazon Bedrock 데이터 처리 및 검색 향상: 데이터 자동화, 멀티모달 데이터 처리, GraphRAG 지원 등
이제 Amazon Bedrock에는 생성형 AI로 데이터를 분석하는 방법을 간소화하는 네 가지 개선 사항이 도입됩니다.
Amazon Bedrock Data Automation(평가판) – Amazon Bedrock의 완전 관리형 기능으로, 문서, 이미지, 오디오, 동영상 등 비정형 멀티모달 콘텐츠에서 귀중한 인사이트를 간편하게 생성할 수 있습니다. Amazon Bedrock Data Automation을 사용하면 자동화된 지능형 문서 처리(IDP), 미디어 분석 및 검색 증강 생성(RAG) 워크플로를 빠르고 비용 효율적으로 빌드할 수 있습니다. 인사이트에는 주요 순간에 대한 동영상 요약, 부적절한 이미지 콘텐츠 탐지, 복잡한 문서의 자동 분석 등이 포함됩니다. 출력을 사용자 지정하여 특정 비즈니스 요구 사항에 맞게 인사이트를 조정할 수 있습니다. Amazon Bedrock Data Automation은 RAG 워크플로에 대한 지식 기반을 설정할 때 독립 실행형 기능 또는 파서로 사용할 수 있습니다.
Amazon Bedrock Knowledge Bases, 다중 모드 데이터 처리 문서와 이미지의 텍스트와 시각적 요소를 모두 처리하는 애플리케이션을 빌드할 수 있도록 Amazon Bedrock Data Automation을 사용하거나 파운데이션 모델(FM)을 파서로 사용하여 문서를 구문 분석하도록 지식 기반을 구성할 수 있습니다. 멀티모달 데이터 처리는 이미지와 텍스트 모두에 포함되어 있는 정보로 구성된 지식 기반에서 얻은 응답의 정확성과 관련성을 향상시킬 수 있습니다.
Amazon Bedrock Knowledge Bases, GraphRAG 지원(평가판). AWS는 이제 최초의 완전 관리형 GraphRAG 기능 중 하나를 제공합니다. GraphRAG는 그래프와 결합된 RAG 기술을 사용하여 최종 사용자에게 보다 정확하고 포괄적인 응답을 제공함으로써 생성형 AI 애플리케이션을 개선합니다.
Amazon Bedrock Knowledge Bases, 정형 데이터 검색 지원 이 기능은 지식 기반을 확장하여 데이터 웨어하우스 및 데이터 레이크의 자연어 쿼리를 지원하므로 애플리케이션이 대화형 인터페이스를 통해 비즈니스 인텔리전스(BI)에 액세스하고 중요한 엔터프라이즈 데이터를 포함함으로써 응답의 정확도를 개선할 수 있습니다. Amazon Bedrock Knowledge Bases는 기본적으로 정형 데이터가 있는 위치에서 해당 데이터를 쿼리할 수 있는 최초의 완전 관리형 RAG 솔루션 중 하나를 기본으로 제공합니다. 이 기능은 데이터 소스 전반의 데이터 사일로를 없애고 생성형 AI 애플리케이션 빌드를 한 달 이상에서 단 며칠로 단축하는 데 도움이 됩니다.
이러한 새로운 기능을 통해 정형 및 비정형 데이터 소스에서 정보를 처리, 이해 및 검색할 수 있는 포괄적인 AI 애플리케이션을 더 쉽게 빌드할 수 있습니다. 예를 들어, 자동차 보험 회사는 Amazon Bedrock Data Automation을 사용하여 청구 심사 워크플로를 자동화함으로써 자동차 보험 청구를 처리하는 데 걸리는 시간을 줄이고 청구 부서의 생산성을 개선할 수 있습니다.
마찬가지로 미디어 회사는 TV 프로그램을 분석하고 장면 요약, 업계 표준 광고 분류(IAB), 회사 로고 등의 스마트 광고 배치에 필요한 인사이트를 추출할 수 있습니다. 미디어 제작 회사는 장면별 요약을 생성하고 동영상 자산의 중요한 순간을 캡처할 수 있습니다. 금융 서비스 회사는 차트와 표가 포함된 복잡한 재무 문서를 처리하고 GraphRAG를 사용하여 여러 금융 기관 간의 관계를 이해할 수 있습니다. 이러한 모든 회사는 정형 데이터 검색을 사용하여 데이터 웨어하우스를 쿼리하는 동시에 지식 기반에서 정보를 검색할 수 있습니다.
이러한 기능을 자세히 살펴보겠습니다.
Amazon Bedrock Data Automation 소개
Amazon Bedrock Data Automation은 Amazon Bedrock의 기능으로, 문서, 이미지, 동영상 및 오디오 파일과 같은 멀티모달의 비정형 콘텐츠에서 귀중한 인사이트를 추출하는 프로세스를 간소화합니다.
Amazon Bedrock Data Automation은 개발자가 단일 인터페이스를 통해 멀티모드 콘텐츠를 처리하는 데 사용할 수 있는 통합된 API 기반 환경을 제공하므로 여러 AI 모델 및 서비스를 관리하고 오케스트레이션할 필요가 없습니다. Amazon Bedrock Data Automation은 시각적 근거 및 신뢰도 점수와 같은 내장된 보호 기능을 통해 추출된 인사이트의 정확성과 신뢰성을 높여 엔터프라이즈 워크플로에 쉽게 통합할 수 있도록 합니다.
Amazon Bedrock 데이터 자동화는 4가지 양식(문서, 이미지, 동영상 및 오디오)을 지원합니다. 애플리케이션에서 사용하는 경우 모든 양식은 동일한 비동기 추론 API를 사용하고 결과는 Amazon Simple Storage Service(Amazon S3) 버킷에 쓰여집니다.
각 양식에 대해, 처리 요구 사항에 따라 출력을 구성하고 두 가지 유형의 출력을 생성할 수 있습니다.
표준 출력 – 표준 출력을 사용하면 입력 데이터 유형과 관련된 사전 정의된 기본 인사이트를 얻을 수 있습니다. 예로는 문서의 의미론적 표현, 장면별 동영상 요약, 오디오 대본 등이 있습니다. 몇 단계만 거치면 어떤 인사이트를 추출할지 구성할 수 있습니다.
사용자 지정 출력 – 사용자 지정 출력을 사용하면 “블루프린트”라는 아티팩트를 사용하여 추출 요구 사항을 유연하게 정의하고 지정하여 비즈니스 요구 사항에 맞는 인사이트를 생성할 수 있습니다. 또한 생성된 출력을 데이터베이스, 기타 애플리케이션 등의 다운스트림 시스템과 호환되는 특정 형식 또는 스키마로 변환할 수 있습니다.
표준 출력은 모든 형식(오디오, 문서, 이미지 및 동영상)으로 사용할 수 있습니다. 평가판 기간 중에는 문서 및 이미지에만 사용자 지정 출력을 사용할 수 있습니다.
표준 및 사용자 지정 출력 구성을 모두 프로젝트에 저장하여 Amazon Bedrock Data Automation 추론 API에서 참조할 수 있습니다. 처리된 각 파일에 대해 표준 출력과 사용자 지정 출력을 모두 생성하도록 프로젝트를 구성할 수 있습니다.
표준 출력과 사용자 지정 출력 모두에 대해 문서를 처리하는 예를 살펴보겠습니다.
Amazon Bedrock Data Automation 사용
Amazon Bedrock 콘솔의 탐색 창에서 Data Automation을 선택합니다. 여기서는 몇 가지 샘플 사용 사례에서 이 기능이 어떻게 작동하는지 살펴보겠습니다.
그런 다음 탐색 창의 Data Automation 섹션에서 데모를 선택합니다. 제공된 샘플 문서 중 하나를 사용하거나 직접 업로드하여 이 기능을 사용해 볼 수 있습니다. 예를 들어, 제가 출생 증명서를 처리해야 하는 신청서를 작성 중이라고 가정해 보겠습니다.
먼저 출생 증명서를 업로드하여 표준 출력 결과를 확인하겠습니다. 문서를 처음 업로드할 때 자산을 저장할 S3 버킷 생성을 확인하라는 메시지가 표시됩니다. 표준 출력을 보면 몇 가지 빠른 설정으로 결과를 조정할 수 있습니다.
사용자 지정 출력 탭을 선택합니다. 샘플 블루프린트 중 하나에 의해 문서가 인식되고 여러 필드에 걸쳐 정보가 추출됩니다.
제 신청서에 대한 대부분의 데이터가 버킷에 저장되지만 몇 가지 사용자 지정이 필요합니다. 예를 들어, 출생 증명서가 발급된 날짜(2022년 6월 10일
)는 문서에 있는 다른 날짜와 형식이 다릅니다. 또한 증명서를 발급한 지역과 자녀의 성이 어머니 또는 아버지의 성과 일치하는지 알려주는 몇 개의 플래그도 필요합니다.
이전 블루프린트의 대부분 필드는 명시적 추출 유형을 사용합니다. 즉, 문서에서 있는 그대로 필드가 추출됩니다.
특정 형식의 날짜를 원하는 경우 추론 추출 유형을 사용하여 새 필드를 생성하고 문서 콘텐츠에서 시작하여 결과 형식을 지정하는 방법에 대한 지침을 추가할 수 있습니다. 추론 추출은 날짜 또는 사회보장번호(SSN) 형식과 같은 변환을 수행하거나, 예를 들어 오늘 날짜를 기준으로 사람이 21세 이상인지 확인하는 데 사용할 수 있습니다.
샘플 블루프린트는 편집할 수 없습니다. 블루프린트 복제를 선택하여 편집할 수 있는 새 블루프린트를 생성한 후 필드 드롭다운에서 필드를 추가합니다.
추출 유형이 추론인 필드 4개와 다음 지침을 추가합니다.
출생 증명서가 MM/DD/YYYY 형식으로 발급된 날짜
출생 증명서를 발급한 지역
자녀 성이 아버지 성과 같은가?
자녀 성이 어머니 성과 같은가?
처음 두 필드는 문자열이고 마지막 두 필드는 부울입니다.
새로운 필드를 생성한 후 이전에 업로드한 문서에 새 블루프린트를 적용할 수 있습니다.
결과 가져오기를 선택하고 결과에서 새로운 필드를 찾습니다. 요구한 대로 형식이 지정된 날짜, 두 개의 플래그 및 상태가 표시됩니다.
신청서의 요구 사항에 맞게 사용자 지정 블루프린트를 생성했으니 이제 프로젝트에 추가할 수 있습니다. 여권 블루프린트, 출생 증명서 블루프린트, 청구서 블루프린트 등 처리하려는 다양한 문서 유형에 대한 프로젝트에 여러 블루프린트를 연결할 수 있습니다. Amazon Bedrock Data Automation은 문서를 처리할 때 각 문서를 프로젝트 내 블루프린트와 일치시켜 관련 정보를 추출합니다.
새로운 블루프린트 양식 스크래치를 생성할 수도 있습니다. 이 경우 먼저 업로드한 문서에서 찾을 것으로 예상되는 필드를 선언하고 정규화 또는 검증을 수행하는 프롬프트로 시작할 수 있습니다.
Amazon Bedrock Data Automation에서 오디오 및 동영상 파일도 처리할 수 있습니다. 예를 들어, 다음은 AWS의 AI 및 데이터 부문 부사장인 Swami Sivasubramanian이 기조 연설에서 동영상을 업로드할 때의 표준 출력입니다.
출력을 얻는 데 몇 분 정도 걸립니다. 결과에는 전체 동영상 요약, 장면별 요약, 동영상 중에 나타나는 텍스트가 포함됩니다. 여기에서 전체 오디오 대본, 콘텐츠 조정 또는 대화형 광고국(IAB) 분류를 사용하도록 옵션을 전환할 수 있습니다.
시각적으로 풍부한 문서와 이미지에서 인사이트를 추출하여 검색하고 응답을 생성하기 위한 지식 기반을 생성할 때에도 Amazon Bedrock Data Automation을 파서로 사용할 수도 있습니다. 다음 섹션에서 이를 살펴보겠습니다.
Amazon Bedrock Knowledge Bases에서 멀티모달 데이터 처리 사용
멀티모달 데이터 처리 지원을 통해 애플리케이션은 문서의 텍스트와 시각적 요소를 모두 이해할 수 있습니다.
멀티모달 데이터 처리를 통해 애플리케이션은 지식 기반을 사용하여 다음을 수행할 수 있습니다.
- 기존 텍스트 지원 외에도 시각적 요소에서 답변을 검색합니다.
- 텍스트와 시각적 데이터를 모두 포함하는 컨텍스트를 기반으로 응답을 생성합니다.
- 원본 문서의 시각적 요소를 참조하는 소스 속성을 제공합니다.
Amazon Bedrock 콘솔에서 지식 기반을 생성할 때 이제 Amazon Bedrock Data Automation을 파싱 전략으로 선택할 수 있습니다.
Amazon Bedrock Data Automation을 파서로 선택하면 Amazon Bedrock Data Automation이 시각적으로 풍부한 콘텐츠에서 인사이트를 추출, 변환 및 생성하는 반면 Amazon Bedrock Knowledge Bases는 수집, 검색, 모델 응답 생성 및 소스 속성을 관리합니다.
또는 기존 파운데이션 모델을 파서 옵션으로 사용할 수 있습니다. 이 옵션을 통해 이제 Anthropic의 Claude 3.5 Sonnet을 파서로 사용할 수 있으며 기본 프롬프트를 사용하거나 특정 사용 사례에 맞게 수정할 수 있습니다.
다음 단계에서는 Amazon Bedrock Knowledge Bases가 문서에서 추출한 이미지를 지식 기반 데이터 소스에 저장하는 데 사용할 Amazon S3의 멀티모달 저장 대상을 지정하겠습니다. 이러한 이미지는 사용자 쿼리를 기반으로 검색하여 응답을 생성하는 데 사용하고 응답에 인용할 수 있습니다.
지식 기반을 사용할 때 파서인 Amazon Bedrock Data Automation 또는 FM에서 추출한 정보는 시각적 요소에 대한 정보를 검색하고, 차트와 다이어그램을 이해하고, 텍스트 및 시각적 콘텐츠를 모두 참조하는 응답을 제공하는 데 사용됩니다.
Amazon Bedrock Knowledge Bases에서 GraphRAG 사용
흩어져 있는 데이터 소스에서 인사이트를 추출하는 작업은 RAG 애플리케이션에서 심각한 문제를 야기하며, 관련 응답을 생성하려면 이러한 데이터 소스 전반에서 다단계 추론을 해야 합니다. 예를 들어, 고객이 거주지에서 출발하는 직항편이 있고 훌륭한 시푸드 레스토랑도 있는 가족 친화적인 해변 목적지를 알려달라고 생성형 AI 기반 여행 애플리케이션에 요청할 수 있습니다. 이 요청에 응답하기 위해서는 다른 가족이 좋아했던 적합한 해변을 파악하고, 이러한 해변을 비행 노선과 일치시키고, 평가가 높은 현지 레스토랑을 선택하도록 연결된 워크플로가 필요합니다. 기존 RAG 시스템에서는 정보가 여러 소스에 있고 상호 연결되지 않기 때문에 이러한 모든 요소를 종합하여 일관된 권장 사항으로 생성하는 데 어려움을 겪을 수 있습니다.
지식 그래프는 객체 간의 복잡한 관계를 구조화된 방식으로 모델링하여 이 문제를 해결할 수 있습니다. 그러나 그래프를 작성하고 애플리케이션에 통합하려면 상당한 전문 지식과 노력이 필요합니다.
Amazon Bedrock Knowledge Bases는 이제 그래프와 결합된 RAG 기술을 사용하여 최종 사용자에게 보다 정확하고 포괄적인 응답을 제공함으로써 생성형 AI 애플리케이션을 향상시키는 최초의 완전 관리형 GraphRAG 기능 중 하나를 제공합니다.
지식 기반을 생성할 때 이제 Amazon Neptune Analytics를 데이터베이스로 선택하고, 기본 데이터, 엔터티 및 그 관계에 대한 벡터 및 그래프 표현을 자동으로 생성하고, 개발 노력을 몇 주에서 단 몇 시간으로 줄임으로써 몇 단계만 거치면 GraphRAG를 활성화할 수 있습니다.
새로운 지식 기반을 생성해 보겠습니다. 벡터 데이터베이스 섹션에서 새로운 벡터 저장소를 생성할 때 Amazon Neptune Analytics(GraphRAG)를 선택합니다. 새로운 그래프를 생성하지 않으려면 기존 벡터 저장소를 제공하고 목록에서 Neptune Analytics 그래프를 선택하면 됩니다. GraphRAG는 Anthropic의 Claude 3 Haiku를 사용하여 지식 기반의 그래프를 자동으로 작성합니다.
지식 기반 생성을 완료하면 Amazon Bedrock에서 관련 개념과 문서를 연결하는 그래프를 자동으로 작성합니다. GraphRAG는 지식 기반에서 정보를 검색할 때 이러한 관계를 검색하여 보다 포괄적이고 정확한 응답을 제공합니다.
Amazon Bedrock 지식 기반에서 정형 데이터 검색 사용
정형 데이터 검색을 통해 데이터베이스 및 데이터 웨어하우스를 자연어로 쿼리할 수 있습니다. 예를 들어, 비즈니스 분석가가 “지난 분기에 가장 많이 팔린 제품은 무엇이야?”라고 질문할 수 있습니다. 그러면 시스템에서 Amazon Redshift 데이터베이스에 저장된 데이터 웨어하우스에 대해 적절한 SQL 쿼리를 자동으로 생성하여 실행합니다.
지식 기반을 생성할 때 이제 정형 데이터 저장소를 사용할 수 있는 옵션이 생겼습니다.
지식 기반의 이름과 설명을 입력합니다. 데이터 소스 세부 정보에서 Amazon Redshift를 쿼리 엔진으로 사용합니다. 새로운 AWS Identity and Access Management (IAM) 서비스 역할을 생성하여 지식 기반 리소스를 관리하고 다음을 선택합니다.
연결 옵션에서 Redshift 서버리스를 선택하고 사용할 워크그룹를 선택합니다. Amazon Redshift에서 프로비저닝한 클러스터도 지원됩니다. 이전에 생성한 IAM 역할을 인증에 사용합니다. 스토리지 메타데이터는 AWS Glue Data Catalog를 사용하여 관리하거나 Amazon Redshift 데이터베이스 내에서 직접 관리할 수 있습니다. 목록에서 데이터베이스를 선택합니다.
지식 기반 구성에서 쿼리의 최대 기간을 정의하고 테이블 또는 열에 대한 액세스를 포함하거나 제외할 수 있습니다. 자연어를 사용한 쿼리 생성의 정확도를 높이기 위해 선택적으로 테이블과 열에 대한 설명과 질문을 데이터베이스의 SQL 쿼리로 변환하는 방법의 실제 예를 제공하는 큐레이팅된 쿼리 목록을 추가할 수 있습니다. 다음을 선택하고 설정을 검토하고 지식 기반 생성을 완료합니다.
몇 분 후 지식 기반이 준비됩니다. 동기화되면 Amazon Bedrock Knowledge Bases에서 쿼리 결과의 생성, 실행 및 형식 지정을 처리하므로 정형 데이터에 대한 자연어 인터페이스를 쉽게 빌드할 수 있습니다. 정형 데이터를 사용하여 지식 기반을 간접 호출할 때 SQL 생성, 데이터 검색 또는 자연어로 데이터 요약만 요청할 수 있습니다.
알아야 할 사항
이러한 새로운 기능은 이제 다음 AWS 리전에서 사용할 수 있습니다.
- Amazon Bedrock Data Automation은 미국 서부(오리건)에서 평가판으로 사용할 수 있습니다.
- Amazon Bedrock Data Automation을 파서로 사용하는 Amazon Bedrock Knowledge Bases의 멀티모달 데이터 처리 지원은 미국 서부(오리건)에서 평가판으로 사용할 수 있습니다. Amazon Bedrock Knowledge Bases가 제공되는 모든 리전에서 FM을 파서로 사용할 수 있습니다.
- Amazon Bedrock Knowledge Bases의 GraphRAG는 Amazon Bedrock Knowledge Bases와 Amazon Neptune Analytics가 제공되는 모든 상용 리전에서 펑가판으로 사용할 수 있습니다.
- 정형 데이터 검색은 Amazon Bedrock Knowledge Bases가 제공되는 모든 상용 리전의 Amazon Bedrock Knowledge Bases에서 사용할 수 있습니다.
Amazon Bedrock과 마찬가지로 요금은 사용량을 기준으로 합니다.
- Amazon Bedrock Data Automation은 이미지당, 문서의 경우 페이지당, 오디오나 동영상의 경우 분당 요금을 청구합니다.
- Amazon Bedrock Knowledge Bases의 멀티모달 데이터 처리 요금은 Amazon Bedrock Data Automation 또는 FM을 파서로 사용하는 경우에 따라 부과됩니다.
- Amazon Bedrock Knowledge Bases에서 GraphRAG를 사용하는 데 따른 추가 비용은 없지만, Amazon Neptune Analytics를 벡터 저장소로 사용하는 비용은 지불해야 합니다. 자세한 내용은 Amazon Neptune 요금을 참조하세요.
- Amazon Bedrock Knowledge Bases에서 정형 데이터 검색을 사용하는 경우 추가 비용이 발생합니다.
자세한 요금 정보는 Amazon Bedrock 요금을 참조하세요.
각 기능은 독립적으로 또는 결합하여 사용할 수 있습니다. 이를 통해 AI를 사용하여 데이터를 처리하는 애플리케이션을 더 쉽고 빠르게 빌드할 수 있습니다. 시작하려면 Amazon Bedrock 콘솔을 방문하세요. 자세히 알아보려면 Amazon Bedrock 설명서를 참조하고 Amazon Bedrock용 AWS re:Post에 피드백을 보낼 수 있습니다. community.aws에서 심층적인 기술 콘텐츠와 함께 빌더 커뮤니티가 Amazon Bedrock을 어떻게 사용하고 있는지 알아볼 수 있습니다. 이러한 새로운 기능으로 무엇을 빌드했는지 알려주세요!
– Danilo