簡介

應用程式和人員需要安全地存取和分析資料。大量資料源自全新且多樣化的來源,並以前所未有的速度增加。組織需要獲得資料價值,但難以擷取、存放和分析當今現代企業產生的所有資料。

要應對這些挑戰,意味著需要建置一個現代資料架構,能夠打破所有資料孤島以進行分析和獲得洞察 (包括第三方資料),並透過端對端治理,將其交付到組織的每個人手中。連線分析與機器學習 (ML) 系統,以支援預測性分析也變得日益重要。 

本決策指南可協助您提出正確的問題,以在 AWS 服務上建置現代資料架構。該指南介紹了如何打破資料孤島 (連線資料湖和資料倉儲)、系統孤島 (連線 ML 和分析),以及人員孤島 (將資料交到組織的每個人手中)。

這段六分鐘的剪輯來自 re:Invent 2022 上 AWS 分析副總裁 G2 Krishnamoorthy 的一小時簡報。它提供了 AWS Analytics Services 概觀。完整的簡報介紹了 AWS 目前分析服務的狀況,以及資料相關的最新服務創新,並重點介紹了客戶如何透過 AWS 分析服務取得成功。

閱讀時間

20 分鐘

作用

協助確定哪些 AWS 分析服務最適合貴組織。

等級

初階

上次更新日期

2023 年 8 月 8 日

關於以下內容的更多決策指南

了解

現代資料策略透過一組技術建置區塊提供支援,這些區塊可協助您管理、存取、分析和處理資料。它還為您連線至資料來源提供多種選項。現代資料策略應賦予您的團隊以下權利:

  • 使用您喜好的工具或技術來執行分析或 ML
  • 使用適當的安全與資料控管控制項來管理有資料存取的人員
  • 打破資料孤島,同時為您帶來最好的資料湖和專用資料儲存體
  • 以低廉的成本,以及開放、標準的資料格式,存放任意數量的資料。AWS 現代資料架構將您的資料湖、資料倉儲和其他專門打造的服務連結為一個連貫的整體。

依據下面五個支柱在 AWS 上實作現代資料策略:

可擴展的資料湖

為了快速做出決策,您將希望以開放的格式存放任何數量的資料,並能夠打破中斷連線的資料孤島。您可能還需要讓組織中的人員能夠執行分析或 ML (使用您喜好的工具或技術來執行此操作),以及管理誰可以使用適當的安全與資料控管控制項來存取特定的資料片段。

現代資料架構從資料湖著手。資料湖可讓您以經濟高效的方式存放所有資料 (關聯式、非關聯式、結構化和非結構化)。使用 AWS,您可以將任何數量的資料從各種孤島移至 Amazon S3 資料湖。Amazon S3 隨後會使用基於標準的開放格式來存放資料。

專為效能和成本而打造

內部部署資料管道通常會對您目前使用的工具進行改造,從而提供低於次佳體驗。AWS 提供廣泛且深入的專用資料服務,讓您能夠針對適當的任務選擇合適的工具,因此您不必在功能、效能、規模或成本上做出妥協。

無伺服器且易於使用

針對眾多類型的分析需求,AWS 提供無伺服器選項,旨在讓您專注於應用程式,而不必管理任何基礎設施。

將原始資料轉變為可用於衍生商業洞察的狀態,並且透過資料管道的擷取、轉換和載入 (ETL) 階段來執行,這一程序可能極具挑戰性。AWS 正朝著零 ETL 方法邁進 (消除傳統 ETL 程序的需求)。這種方法將協助您無需使用 ETL,即可分析資料駐留位置。AWS 服務支援此方法的功能包括:


  • Amazon 零 ETL Aurora 到 Redshift
  • Amazon Redshift Streaming Ingestion 直接從 Kinesis 和 MSK 到 Redshift
  • Amazon Redshift 和 Amazon Athena 中的聯合查詢

統一的資料存取、安全和治理

您擁有集中式資料湖和專用分析服務集合後,隨後就需要能夠存取駐留在任何位置資料,接著多資料進行保護並制定治理政策,以遵守相關法規和安全最佳實務。

治理從 AWS Lake Formation 開始。此服務可讓您存取駐留在任何位置的資料,無論是資料庫、資料倉儲、專門建置的資料儲存體,還是資料湖都沒問題,並且無論您將資料存放在何處,都能確保資料安全。

針對資料控管,AWS 會對資料自動探索、標記、編目,並保持資料同步,您可以集中定義和管理安全、治理和稽核政策,以滿足您的產業和地區特定的法規。

內建的機器學習

AWS 提供內建的 ML 整合,作為我們專用分析服務的一部分。您可以使用熟悉的 SQL 命令建置、訓練和部署 ML 模型,而無需任何先驗 ML 經驗。

在不同的使用案例中,使用不同類型的資料儲存體 (關聯式、非關聯式、資料倉儲和分析服務) 並不罕見。AWS 提供一系列整合功能,讓您可以選擇根據資料來訓練各種模型,或直接從資料儲存體新增推論結果,而無需匯出和處理您的資料。

考慮

在 AWS 上建置分析管道的原因有很多。您可能需要支援 Greenfield 或試驗專案,來做為雲端遷移之旅的第一步。或者,您可能會以儘可能少的中斷,來遷移現有的工作負載。無論您的目標為何,以下考量可能會對您做出選擇有用。

  • 分析可用的資料來源和資料類型,以全面了解資料多樣性、頻率和品質。了解處理和分析資料時的任何潛在挑戰。 此分析非常重要,原因如下:

    • 資料來源多種多樣,包括各種系統、應用程式、裝置和外部平台。
    • 資料來源具有獨特的結構、格式和資料更新頻率。分析這些來源有助於確定合適的資料收集方法和技術。
    • 分析資料類型 (例如結構化、半結構化資料和非結構化資料),可確定適當的資料處理和儲存方法。
    • 分析資料來源和類型可促進資料品質評估,協助您預測潛在的資料品質問題,例如缺少值、不一致或不準確。
  • 確定資料如何擷取、轉換、清除和準備進行分析的資料處理要求。關鍵考量包括:

    • 資料轉換:確定讓原始資料適合分析所需的特定轉換。這涉及資料彙總、標準化、篩選和擴充等任務。
    • 資料清除:評估資料品質並定義處理遺失、不準確或不一致資料的程序。實作資料清除技術,確保高品質的資料,以獲得可靠的洞察。
    • 處理頻率:根據分析需求,確定是需要即時處理、近乎即時處理,還是批次處理。即時處理可實現即時洞察,而批次處理可能足以進行定期分析。
    • 可擴展性和輸送量:評估處理資料量、處理速度,以及並行資料請求數目的可擴展性要求。確保選擇的處理方法可適應未來增長。
    • 延遲:考慮可接受的資料處理延遲,以及從資料擷取到分析結果所需的時間。這對於即時分析或時效性分析特別重要。
  • 確定整個分析管道中資料的儲存方式和位置,來判斷儲存需求。重要考量包括:

    • 資料量:評估產生和收集的資料量,並預估未來的資料增長,以規劃足夠的儲存容量。
    • 資料保留:定義用於歷史分析或合規用途而保留資料的持續時間。確定適當的資料保留政策。
    • 資料存取模式:了解如何存取和查詢資料,以選擇最合適的儲存解決方案。考慮讀取和寫入操作、資料存取頻率和資料位置。
    • 資料安全:評估加密選項、存取控制和資料保護機制,來保護敏感資訊,藉此優先考量資料安全。
    • 成本優化:根據資料存取模式和用量,選擇最符合成本效益的儲存解決方案,藉以優化儲存成本。
    • 與分析服務整合:確保選擇的儲存解決方案與管道中的資料處理和分析工具順暢整合。
  • 決定用於收集和擷取資料的分析服務時,考慮與組織需求和目標相關的各種資料類型。您可能需要考慮的常見資料類型包括:

    • 交易資料:包括個別互動或交易相關資訊,例如客戶購買、財務交易、線上訂單及使用者活動記錄。
    • 以檔案為基礎的資料:指存放在檔案中的結構化或非結構化資料,例如日誌檔案、試算表、文件、影像、音訊檔和影片檔案。分析服務應支援擷取不同的檔案格式/
    • 事件資料:擷取重大事件或事故,例如使用者動作、系統事件、機器事件或商業事件。事件可以包括任何以高速傳送的資料,並擷取該資料供串流或下游處理。
  • 您與 AWS 之間具有共同的營運責任,責任分配因不同的現代化層級而異。您可以選擇自行管理 AWS 上的分析基礎設施,或利用眾多無伺服器分析服務來減緩基礎設施管理負擔。

    自我管理選項授予使用者更大的控制權來管理基礎設施和組態,但這些選項需要更多操作性工作。

    無伺服器選項可減少大部分營運負擔,提供自動可擴展性、高可用性和強大的安全功能,讓使用者更專注於建置分析解決方案和推進洞察,而不是管理基礎設施和營運任務。考慮無伺服器分析解決方案的以下優勢:

    • 基礎設施抽象化:無伺服器服務可抽象化基礎設施管理,讓使用者免於佈建、擴展和維護任務。AWS 可處理這些營運方面的事務,從而降低管理開銷。
    • 自動擴展和效能:無伺服器服務可根據工作負載需求自動擴展資源,無需手動干預即可確保最佳效能。
    • 高可用性和災難復原:AWS 為無伺服器服務提供高可用性。AWS 可管理資料備援、複寫和災難復原,以提升資料可用性和可靠性。
    • 安全性與合規性:AWS 可管理無伺服器服務的安全措施、資料加密與合規性,並遵守產業標準和最佳實務。
    • 監控和日誌記錄:AWS 為無伺服器服務提供內建的監控、日誌記錄和提醒功能。使用者可透過 AWS CloudWatch 存取詳細的指標和日誌。
  • 建置現代分析管道時,決定要支援的工作負載類型對於有效滿足不同的分析需求至關重要。針對每種工作負載需要考慮的關鍵決策點包括:

    批次工作負載

    • 資料量和頻率:批次處理適用於定期更新的大量資料。
    • 資料延遲:相較於即時處理,批次處理可能會導致提供洞察出現一些延遲。

    互動式分析

    • 資料查詢複雜度:互動式分析需要低延遲回應才能快速回饋。
    • 資料視覺化:評估互動式資料視覺化工具的需求,讓企業使用者能夠以視覺化方式探索資料。

    串流工作負載

    • 資料速度和資料量:串流工作負載需要即時處理才能處理高速資料。
    • 資料視窗:針對串流資料定義資料視窗和基於時間的彙總,以擷取相關洞察。
  • 清楚地定義您希望從分析中衍生的商業目標和洞察。不同類型的分析服務具有不同的用途。例如:

    • 描述性分析是獲取歷史概觀的理想選擇
    • 診斷分析有助於了解過去事件背後的原因
    • 預測性分析會預測未來的結果
    • 規範性分析會提供最佳動作的建議

    將您的商業目標與相關分析類型進行比對。以下是一些關鍵決策準則,可協助您選擇適當的分析類型:

    • 資料可用性和品質:描述性和診斷分析依賴於歷史資料,而預測性和規範性分析需要足夠的歷史資料和高品質資料,才能建置準確的模型。
    • 資料量和複雜性:預測性和規範性分析需要大量的資料處理和運算資源。確保您的基礎設施和工具能夠處理資料量和複雜性。
    • 決策複雜性:如果決策涉及多個變數、限制和目標,則規範性分析可能更適合指導最佳動作。
    • 風險承受性:規範性分析可能會提供建議,但會帶來關聯的不確定性。確保決策者能夠了解與分析輸出關聯的風險。
  • 評估架構的可擴展性和效能需求。設計必須處理不斷增加的資料量、使用者需求和分析工作負載。需要考慮的關鍵決策因素包括:

    • 資料量和增長:評估目前的資料量並預測未來增長。 
    • 資料速度和即時要求:確定資料是否需要即時或近乎即時處理和分析資料。
    • 資料處理複雜性:分析資料處理和分析任務的複雜性。針對運算密集型任務,Amazon EMR 等服務可為大數據處理提供可擴展和受管環境。
    • 並行和使用者負載:考慮並行使用者的數目及系統上的使用者負載層級。 
    • 自動擴展功能:考慮提供自動擴展功能的服務,允許資源根據需求自動擴展或縮減。這可確保高效的資源使用率和成本優化。
    • 地理分佈:如果您的資料架構需要分散到多個區域或位置,考慮具有全域複寫和低延遲資料存取的服務。
    • 成本效能平衡:平衡效能需求與成本考量。高效能服務可能會產生更高的成本。
    • 服務水準協議 (SLA):檢查 AWS 服務提供的 SLA,以確保其符合您的可擴展性和效能期望值。
  • 資料控管是您需要實作的一組程序、政策和控制項,以確保資料資產的有效管理、品質、安全與合規。需要考慮的關鍵決策點包括:

    • 資料保留政策:根據法規要求和商業需求來定義資料保留政策,並建立不再需要資料時對其進行安全處理的程序。
    • 稽核記錄和日誌記錄:決定日誌記錄和稽核機制,以監控資料存取和用量。實作全面的稽核記錄,以追蹤資料變更、存取嘗試及使用者活動,從而進行合規與安全監控。
    • 合規要求:了解適用於您組織的產業特定及地區性資料合規法規。確保資料架構符合這些法規和指導方針。
    • 資料分類:根據資料的敏感度對其進行分類,並針對每個資料類別定義適當的安全控制。 
    • 災難復原和業務持續性:針對災難復原和業務持續性做出規劃,以確保在發生非預期事件或系統故障時的資料可用性和恢復能力。
    • 第三方資料共用:如果與第三方實體共用資料,請實施安全的資料共用協議和協議,以保護資料機密性並防止資料濫用。
  • 分析管道中資料安全涉及在管道的各個階段為資料提供保護,以確保資料的機密性、完整性和可用性。需要考慮的關鍵決策點包括:

    • 存取控制和授權:實作強大的身分驗證和授權通訊協定,以確保只有經授權的使用者才能存取特定資料資源。
    • 資料加密:針對存放在資料庫、資料湖中的資料,以及資料在架構的不同元件之間移動期間,選擇適當的加密方法。
    • 資料遮罩和匿名化:考慮是否需要資料遮罩或匿名化,以保護敏感性資料 (例如 PII 或敏感性商業資料),同時允許某些分析程序繼續執行。
    • 安全資料整合:建立安全的資料整合實務,以確保資料在架構的不同元件之間安全流動,避免資料洩漏,或在資料移動期間未經授權存取。
    • 網路隔離:考慮支援 AWS VPC 端點的服務,以避免將資源開放給公有網際網路。
  • 定義分析管道各個元件之間的整合點和資料流程,以確保無縫的資料流程和互通性。需要考慮的關鍵決策點包括:

    • 資料來源整合:識別要從中收集資料的資料來源,例如資料庫、應用程式、檔案或外部 API。決定資料擷取方法 (批次、即時、以事件為基礎),以高效地將資料傳送至管道,最大限度地減少延遲。
    • 資料轉換:確定準備資料進行分析所需的轉換。決定在管道中移動時清除、彙總、標準化或擴充資料的工具和程序。
    • 資料移動架構:選擇適當的架構,以便在管道元件之間移動資料。根據即時需求和資料量,考量批次處理、串流處理或兩者的組合。
    • 資料複寫與同步:決定資料複寫和同步機制,讓所有元件的資料保持最新狀態。視乎資料新鮮度要求,考量即時複寫解決方案或定期資料同步。
    • 資料品質與驗證:實作資料品質檢查和驗證步驟,以確保資料在管道中移動時的完整性。決定資料驗證失敗時要採取的動作,例如提醒或錯誤處理。
    • 資料安全與加密:確定如何保護傳輸中的資料和靜態資料。決定保護整個管道中敏感資料加密方法,根據資料敏感性來考慮所需的安全層級。
    • 可擴展性和彈性:確保資料流程設計允許水平可擴展性,並且可處理增加的資料量和流量。
  • 在 AWS 上建置分析管道可提供各種成本優化機會。為確保成本效益,考慮以下策略:

    • 資源大小和選擇:根據實際工作負載要求來調整資源大小。選擇符合工作負載效能需求的 AWS 服務和執行個體類型,同時避免過度佈建。
    • 自動擴展:針對處理不同工作負載的服務來實作自動擴展。自動擴展會根據需求動態調整執行個體數目,從而在低流量期間降低成本。
    • Spot 執行個體:利用 AWS EC2 Spot 執行個體來處理非關鍵且容錯的工作負載。相較於隨需執行個體,Spot 執行個體可顯著降低成本。
    • 預留執行個體:考慮購買 AWS 預留執行個體,相較於適合穩定工作負載與可預測用量的隨需定價,可實現顯著的成本節省。
    • 資料儲存層級:根據資料存取頻率,使用不同的儲存類別來優化資料儲存成本。
    • 資料生命週期原則:設定資料生命週期政策,以根據資料的存留時間和用量模式來自動移動或刪除資料。這有助於管理儲存成本,並確保資料儲存與其價值保持一致。

選擇

現在您已了解評估分析需求的準則,那麼您已準備好選擇適合貴組織需求的 AWS 分析服務。下表根據您需要達成的業務目標,將一組服務進行分類,例如進行進階分析、執行資料管理或預測型分析,以及 ML。

目標區域
關閉

進階分析

AWS 提供廣泛且經濟高效的分析服務集,協助您更快地從資料中獲得洞察。

使用案例
相關分析服務

互動式分析
執行即時資料分析和探索的程序,讓使用者可互動式查詢和視覺化資料,以獲得洞察並快速做出資料驅動型決策。

關閉

Amazon Athena

Amazon Athena 是以開放原始碼架構為基礎建置的無伺服器互動式分析服務,支援開放表格和檔案格式。Athena 提供簡化、靈活的方式來分析其所在位置的數 PB 資料。從 Amazon S3 資料湖和 30 個資料來源 (包括內部部署資料來源或使用 SQL 或 Python 的其他雲端系統) 分析資料或建立應用程式。Athena 建立在開放原始碼 Trino 和 Presto 引擎和 Apache Spark 框架之上,無需佈建或設定。

大數據處理
大數據以其三個維度為特徵:資料量、速度和多樣性。 大數據處理解決方案旨在克服大數據的龐大規模和複雜性所帶來的挑戰。

關閉

Amazon EMR

Amazon EMR 是領先業界的雲端大數據解決方案,用於使用開放原始碼架構 (如 Apache Spark、Apache Hive 和 Presto) 來進行 PB 級資料處理、互動式分析和機器學習。

資料倉儲
集中儲存、整理和擷取組織內各種來源的大量結構化,有時為半結構化的資料。

關閉

Amazon Redshift

Amazon Redshift 使用 SQL 跨資料倉儲、操作資料庫和資料湖分析結構化和半結構化資料,從而使用 AWS 設計的硬體和機器學習在任何規模都能提供最佳價格效能。

即時分析
在產生、接收或擷取資料的同時分析和處理資料的程序,而不會有任何明顯延遲。

關閉

Amazon Kinesis Data Analytics

使用 Amazon Kinesis Data Analytics,您可以更輕鬆地即時轉換和分析串流資料。

營運分析
使用即時資料分析和洞察,來優化和改善組織內持續的營運程序和活動。

關閉

AWS OpenSearch Service

OpenSearch 是一種 Apache 2.0 授權、100% 開放原始碼的分散式、社群驅動型搜尋和分析套件,用於廣泛的使用案例,如即時應用程式監控、日誌分析和網站搜尋。OpenSearch 提供了一個高度可擴展的系統,透過整合的視覺化工具 OpenSearch Dashboards 提供對大量資料的快速存取和回應,可讓使用者輕鬆地探索資料

儀表板和視覺化
儀表板和視覺化可提供複雜資料集的視覺呈現,讓使用者更輕鬆且一目了然地查看模式、趨勢和洞察。它們以視覺上引人入勝和直覺化的方式呈現資訊,甚至為非技術使用者簡化了對資料的理解。

關閉

Amazon QuickSight

Amazon QuickSight 透過超大規模的統一商業智慧 (BI) 為資料驅動的組織提供支援。有了 QuickSight,所有使用者都可以透過現代化互動式儀表板、分頁報告、內嵌分析和自然語言查詢,滿足來自相同的事實來源的各種分析需求。

視覺化資料準備
使用視覺化工具和介面,以視覺化和直覺化的方式來探索、清除、轉換和操控資料。

關閉

AWS Glue DataBrew

AWS Glue DataBrew 是一款視覺化資料準備工具,能讓資料分析師和資料科學家輕鬆地清理和標準化資料,為分析和機器學習做好準備。您可以從 250 多個預先建置的轉換中進行選擇,以自動化資料準備任務,這一切都無須編寫任何程式碼。 

關閉

資料管理

這些服務可讓您輕鬆地跨多個資料存放區和資料湖結合、移動和複寫資料。

使用案例
相關分析服務

即時資料移動
即時資料移動涉及讓傳輸資料的延遲降至最低,通常是在資料變得可用後的幾秒或毫秒內。

關閉

Amazon MSK

Amazon Managed Streaming for Apache Kafka (Amazon MSK) 是一項全受管服務,可讓您建置和執行應用程式,使用 Apache Kafka 處理串流資料。Amazon MSK 提供控制平面操作,例如用於建立、更新和刪除叢集的操作。

關閉

Amazon Kinesis Data Streams

Amazon Kinesis Data Streams 是一項無伺服器串流資料服務,可輕鬆擷取、處理和存放任何規模的資料串流。

關閉

Amazon Kinesis Data Firehose

Amazon Kinesis Data Firehose 是一種擷取、轉換和載入 (ETL) 服務,可穩定地擷取串流資料並將其轉換及傳送給資料湖、資料存放區和分析服務。

關閉

Amazon Kinesis Video Streams

Amazon Kinesis Video Streams 可讓您安全輕鬆地將影片從連線裝置串流到 AWS,以進行分析、ML、播放及其他處理。Kinesis Video Streams 可自動佈建和彈性地擴展所需的全部基礎設施,以便從數百萬台裝置導入串流影片資料。能在您的串流內長期存放及加密串流影片資料並編製索引,方便您透過容易使用的 API 存取資料。

關閉

AWS Glue

AWS Glue 是一種無伺服器、可擴展的資料整合服務,可讓您更輕鬆地探索、準備、移動和整合來自多個來源的資料,以進行分析、ML 和應用程式開發。

資料控管
一系列程序、政策和指導方針,確保資料在其整個生命週期內具有適當的管理、可用性、實用性、完整性和安全性。

關閉

Amazon DataZone

使用 Amazon DataZone 跨組織邊界大規模共用、搜尋和發現資料。透過統一的資料分析入口網站協作處理資料專案,該入口網站為您提供所有資料的個人化檢視,同時執行您的控管和合規性政策。

關閉

AWS Lake Formation

AWS Lake Formation 是一項全受管服務,可更輕鬆地建置、保護和管理資料湖。Lake Formation 可簡化和自動執行建立資料湖通常所需的眾多複雜手動步驟。這些步驟包括收集、清除、移動和編目資料,以及安全地提供資料用於分析和機器學習。

資料湖的物件儲存
在 AWS 上建置的資料湖使用 Amazon S3 做為其主要儲存平台。Amazon S3 因其幾乎無限的可擴展性和高耐久性,為資料湖提供了最佳基礎。 

關閉

Amazon S3

Amazon Simple Storage Service (Amazon S3) 物件儲存服務提供可擴展性、資料可用性、安全性及效能。Amazon S3 提供各種管理功能,以便您最佳化、整理資料,以及設定其存取權,進而滿足您的特定業務、組織和合規要求。

關閉

AWS Lake Formation

AWS Lake Formation 是一項全受管服務,可更輕鬆地建置、保護和管理資料湖。Lake Formation 可簡化和自動執行建立資料湖通常所需的眾多複雜手動步驟。這些步驟包括收集、清除、移動和編目資料,以及安全地提供資料用於分析和機器學習。

資料湖的備份和封存
資料湖採用 Amazon S3 技術,為組織提供現代分析方法所需的可用性、敏捷性和靈活性,以獲得更深入的洞察。保護存放在這些 S3 儲存貯體中的敏感或業務關鍵型資訊,是組織的首要任務。

關閉

Amazon S3 Glacier

Amazon S3 Glacier 儲存類別類專為資料封存而設,為您提供最高的效能、最大的擷取靈活性和最低成本的雲端封存儲存。所有 S3 Glacier 儲存類別均提供幾乎無限的可擴展性,並且旨在實現 99.999999999% (11 個 9) 的資料耐久性。 

關閉

AWS Backup

AWS Backup 是經濟高效、全受管、政策型服務,可簡化大規模資料保護。

資料型錄
這是一種中繼資料管理工具,提供有關可用資料、其結構、特性和關係的詳細資訊。

關閉

Amazon Glue

AWS Glue 是一種無伺服器、可擴展的資料整合服務,可讓您更輕鬆地探索、準備、移動和整合來自多個來源的資料,以進行分析、機器學習 (ML) 和應用程式開發。

第三方資料
在現代資料驅動型環境中,第三方資料和軟體即服務 (SaaS) 資料在業務營運中變得日益重要。

關閉

AWS Data Exchange

AWS Data Exchange 是一項服務,可讓 AWS 客戶輕鬆地尋找、訂閱和使用 AWS 雲端中的第三方資料。

關閉

Amazon AppFlow

透過 Amazon AppFlow,只要按幾下滑鼠,即可自動化 SaaS 應用程式和 AWS 服務之間的雙向資料流程。您可以按您選擇的頻率 (按照排程、回應業務事件或隨需),來執行資料流。 

關閉

預測性分析和機器學習

針對預測分析使用案例,AWS 提供一系列廣泛的機器學習服務,以及在 AWS 資料湖上執行的工具。

使用案例
相關分析服務

架構和介面
AWS ML 基礎設施支援所有領先的 ML 架構。 

關閉

AWS Deep Learning AMI

AWS Deep Learning AMI (DLAMI) 為 ML 從業人員和研究人員提供精選且安全的架構、相依項和工具,以加速雲端深度學習。Amazon Machine Images (AMI) 專為 Amazon Linux 和 Ubuntu 而設計,同時已預先設定 TensorFlow、PyTorch、Apache MXNet、Chainer、Microsoft Cognitive Toolkit (CNTK)、Gluon、Horovod 和 Keras,讓您能夠快速部署並大規模執行這些架構和工具。

平台服務
這是全受管基礎設施,用於建置、訓練和部署機器學習模型。 

關閉

Amazon SageMaker

建置、訓練和部署機器學習 (ML) 模型,用於具有全受管基礎設施、工具和工作流程的任何使用案例。

直接資料整合
使用熟悉的 SQL 命令,來建立、訓練和部署 ML 模型。

關閉

Amazon Athena ML

Athena ML 可讓您在 Amazon SageMaker 中建置和部署 ML 模型,並使用 Amazon Athena 中的 SQL 函數,透過您的 SageMaker 模型來產生預測。 

這讓分析團隊能夠為企業使用者和分析師提供模型驅動型洞察,而無需專門的工具和基礎設施。

關閉

Amazon QuickSight ML

QuickSight ML Insights 善用 AWS 經過驗證的 ML 和自然語言功能,協助您從資料中獲得更深入的洞察。這些強大的即用功能可讓任何人輕鬆發現隱藏的趨勢和異常、識別業務關鍵型驅動因素,並執行強大的假設分析和預測,而無需技術專業知識或 ML 經驗。

關閉

Amazon Redshift ML

Amazon Redshift ML 讓資料分析師和資料庫開發人員可以在 Amazon Redshift 資料倉儲中使用熟悉的 SQL 命令輕鬆建立、訓練和套用機器學習模型。藉助 Redshift ML,您可以利用全受管的機器學習服務 Amazon SageMaker,而無需學習新工具或語言。您可透過 SQL 陳述式利用您的 Redshift 資料,建立和訓練 Amazon SageMaker ML 模型,然後使用模型進行預測。

使用

現在,您應當已經清楚了解您的商業目標,以及您將擷取和分析的資料量和速度,以便開始建置您的資料管道。

若要探索如何使用並了解有關每項可用服務的更多資訊,我們提供了探索每個服務運作方式的途徑。以下各節提供了深入文件、實作教學課程和資源的連結,讓您從基本用量開始,再到更進階的深入探究。

進階分析

  • 互動式分析
  • Amazon Athena

    Amazon Athena 入門

    了解如何使用 Amazon Athena 查詢資料,依據存放在 Amazon S3 中的範例資料建立資料表,查詢資料表,以及檢查查詢結果。

    立即開始本教學課程 »

    Amazon Athena

    開始在 Amazon Athena 上使用 Apache Spark

    藉助 Amazon Athena 主控台中的簡化筆記本體驗,使用 Python 或 Athena 筆記本 API 來開發 Apache Spark 應用程式。

    立即開始本教學課程 »

    Amazon Athena

    AWS re:Invent 2022 – Amazon Athena 中的新功能

    了解如何在您的資料中使用 Athena,並將其套用至涵蓋資料湖、外部來源等所有資料。


    觀看專題講座 »

    Amazon Athena

    在 S3 中使用 Amazon Athena 分析資料
     
    探索如何在 Elastic Load Balancer 的日誌中使用 Athena,以預先定義格式產生為文字檔案。我們將向您展示如何建立資料表,以 Athena 使用的格式來分割資料,將其轉換為 Parquet,並比較查詢效能。

    閱讀部落格文章 »

  • 大數據處理
  • Amazon EMR

    AWS EMR 入門

    了解如何使用 Spark 啟動範例叢集,以及如何執行存放在 Amazon S3 儲存貯體中的簡單 PySpark 指令碼。
     


    立即開始本教學課程 »


    Amazon EMR

    Amazon EMR on EKS 入門
     

    我們將向您展示如何在虛擬叢集上部署 Spark 應用程式,以開始使用 Amazon EMR on EKS。

    立即開始本教學課程 »

    Amazon EMR

    開始使用 EMR Serverless
     

    探索 EMR Serverless 如何提供無伺服器執行期環境,簡化使用最新開放原始碼架構的分析應用程式的操作。

    立即開始本教學課程 »

    Amazon EMR

    Amazon EMR 最新消息

    了解最新的 Amazon EMR 發展,包括 Amazon EMR Serverless、Amazon EMR Studio 等。

    觀看專題講座 »

  • 資料倉儲
  • Amazon Redshift

    Amazon Redshift 入門

    了解 Amazon Redshift Serverless 的基本流程,以建立無伺服器資源、連線至 Amazon Redshift Serverless、載入範例資料,然後對資料執行查詢。

    探索指南 »

    Amazon Redshift

    現代化您的資料倉儲


    探索如何使用 Amazon Redshift 的新功能,藉由取得所有資料的存取權,來現代化您的資料倉儲。



    觀賞影片 »

    Amazon Redshift

    在 AWS 上部署資料倉儲


    了解如何建立和設定 Amazon Redshift 資料倉儲、載入範例資料,以及使用 SQL 用戶端來分析資料。


    立即開始本教學課程 »

    Amazon Redshift

    Amazon Redshift 深入探究研討會

    探索一系列練習,這可協助使用者開始使用 Redshift 平台。

    立即開始本研討會 »

  • 即時分析
  • Amazon Kinesis Data Analytics

    Amazon Kinesis Data Analytics for Apache Flink 入門
     

    了解 Kinesis Data Analytics for Apache Flink 和 DataStream API 的基本概念。

    探索指南 »

    Amazon Kinesis Data Analytics

    串流分析研討會
     


    了解如何建置一個端對端串流架構,近乎即時地擷取、分析和視覺化串流資料。

    立即開始本研討會 »

    Amazon Kinesis Data Analytics

    適用於 Java 應用程式的 Amazon Kinesis Data Analytics 簡介
     

    探索您可以如何使用 Amazon Kinesis Data Analytics 中的 Apache Flink 應用程式,來更及時地深入了解您的資料。

    觀賞專題講座 (需要登入) »

    Amazon Kinesis Data Analytics

    點擊流實驗室

    針對點擊流使用案例的端對端實驗室,使用 Amazon MSK 進行串流儲存,以及使用適用於 Java 應用程式的 Amazon KDA 搭配 Apache Flink 引擎來進行串流處理。

    立即開始本實驗室 »

  • 營運分析
  • Amazon OpenSearch Service

    Amazon OpenSearch Service 入門


    了解如何使用 Amazon OpenSearch Service 來建立和設定測試網域。

     





    立即開始本教學課程 »

    Amazon OpenSearch Service

    使用 OpenSearch Service 和 OpenSearch Dashboards 來視覺化客戶支援呼叫

    探索以下情況的完整演練:企業接收某些客戶支持呼叫並希望進行分析。每次呼叫的主旨是什麼? 有多少正面? 有多少負面? 管理人員如何搜尋或檢閱這些呼叫的記錄?

    立即開始本教學課程 »

    Amazon OpenSearch Service

    Amazon OpenSearch Serverless 入門研討會

    了解如何在 AWS Console 中設定全新的 Amazon OpenSearch Serverless 網域。探索不同類型的可用搜尋查詢,設計引人注目的視覺效果,並了解如何依據指派的使用者權限來保護您的網域和文件。


    立即開始本研討會 »

    Amazon OpenSearch Service

    使用 Amazon OpenSearch Service 來建置日誌分析解決方案

    了解如何針對日誌分析工作負載來調整 OpenSearch 叢集大小。 


    閱讀部落格文章 »

  • 儀表板和視覺化
  • Amazon QuickSight

    Amazon QuickSight 入門資料分析

    了解如何建立您的第一個分析。使用範例資料來建立簡單或更進階的分析。或者,您可以連線自己的資料來建立分析。


    探索指南 »

    Amazon QuickSight

    使用 QuickSight 來視覺化


    藉助 AWS 在技術方面探索商業智慧 (BI) 和資料視覺化。了解如何將儀表板內嵌至應用程式和網站,並安全地管理存取權和許可。

    立即開始本教學課程 »

    Amazon QuickSight

    QuickSight 研討會


    透過研討會,讓您的 QuickSight 之旅贏得先機。

     



    立即開始本研討會 »

  • 視覺化資料準備
  • AWS Glue DataBrew

    AWS Glue DataBrew 入門

    了解如何建立您的第一個 DataBrew 專案。您可以載入範例資料集、在該資料集上執行轉換、建置擷取這些轉換的配方,以及執行任務將轉換的資料寫入 Amazon S3。

    立即開始本教學課程 »

    AWS Glue DataBrew

    使用 AWS Glue DataBrew 轉換資料

    了解 AWS Glue DataBrew,這是一個視覺化資料準備工具,能讓資料分析師和資料科學家輕鬆地清理和標準化資料,為分析和機器學習做好準備。了解如何使用 AWS Glue DataBrew 來建構 ETL 程序。

    立即開始本實驗室 »

    AWS Glue DataBrew

    AWS Glue DataBrew Immersion Day

    探索如何使用 AWS Glue DataBrew 清除和標準化資料,以進行分析和機器學習。 





    立即開始本研討會 »

資料管理

  • 即時資料移動
  • Amazon Kinesis Data Streams

    開始從 Amazon Kinesis Data Streams 串流擷取內容

    探索如何將資料從 Kinesis Data Streams 直接串流至 Amazon Redshift,降低存取資料所需的時間並降低儲存成本。

    探索指南 »

    Amazon MSK

    開始從 Amazon Managed Streaming for Apache Kafka 串流擷取內容

    了解如何將資料從 Amazon MSK 直接串流至 Amazon Redshift,降低存取資料所需的時間並降低儲存成本。

    探索指南 »

    Amazon Redshift

    開始搭配 Amazon Redshift 使用 Amazon Aurora 零 ETL 整合

    了解如何搭配 Amazon Redshift 使用 Amazon Aurora 零 ETL 整合,開始進行近乎即時的營運分析。

    閱讀部落格文章 »

    AWS Glue

    AWS Glue Immersion Day 研討會
     
    在多個實作實驗室上操作,向您展示如何使用 AWS Glue 和關聯的 AWS 服務來解決真實世界的問題。


    立即開始本研討會 »

    Amazon Kinesis Firehose

    Amazon Kinesis Data Firehose Immersion Day

    了解如何透過幾個組態設定步驟,輕鬆地將串流資料擷取到 Amazon OpenSearch 和 Amazon Redshift 中。


    立即開始本研討會 »

    Amazon Kinesis Video Streams

    Amazon Kinesis Video Streams 研討會

    了解如何使用 Amazon Kinesis Video Streams 擷取和存放攝影機裝置的影片、即時和隨需播放,以及下載影片檔案。

    立即開始本研討會 »

  • 資料控管
  • AWS Lake Formation

    使用 AWS Lake Formation 集中管控您的資料湖

    探索如何使用 AWS Lake Formation 來集中進行資料控管和資料存取管理,同時使用 Amazon Redshift Spectrum 來查詢您的資料湖。 

    閱讀部落格文章 »

     

    Amazon EMR

    Amazon DataZone 入門
     


    了解如何建立 Amazon DataZone 根網域、取得資料入口網站 URL,演練適用於資料生產者和資料取用者的基本 Amazon DataZone 工作流程。

    探索指南 »

    Amazon EMR

    開始使用 EMR Serverless
     



    探索 EMR Serverless 如何提供無伺服器執行期環境,簡化使用最新開放原始碼架構的分析應用程式的操作

    探索指南 »

  • 資料湖的物件儲存
  • AWS Lake Formation

    開始使用 AWS Lake Formation

    了解如何首次設定 Lake Formation,來管理 Amazon S3 中現有的 AWS Glue Data Catalog 物件和資料位置。

    探索指南 »

    AWS Lake Formation

    AWS Lake Formation 研討會


    探索如何使用 AWS Lake Formation 在 AWS 上建置、保護和管理資料湖。



    立即開始本研討會 »

    Amazon S3

    中央儲存 – Amazon S3 做為資料湖儲存平台

    探索 Amazon S3 如何因其幾乎無限的可擴展性和高耐久性,成為資料湖的最佳基礎。


    閱讀白皮書 »

  • 資料型錄
  • AWS Glue Data Catalog

    AWS Glue 中的資料型錄和爬蟲程式

    探索如何使用 Data Catalog 中的資訊來建立和監控 ETL 任務。


    探索指南 »

    AWS Glue Data Catalog

    AWS Glue Data Catalog 入門

    了解如何建立您的第一個 AWS Glue Data Catalog,其使用 Amazon S3 儲存貯體做為資料來源。

    立即開始本教學課程 »

  • 第三方資料
  • AWS Data Exchange

    AWS Data Exchange 訂閱用戶入門

    了解使用 AWS Data Exchange 主控台,成為 AWS Data Exchange 訂閱用戶的完整程序。

    探索指南 »

    AWS Data Exchange

    AWS Data Exchange 提供者入門

    了解使用 AWS Data Exchange 主控台,成為 AWS Data Exchange 資料產品提供者的完整程序。

    探索指南 »

    Amazon AppFlow icon

    Amazon AppFlow 入門

    了解 Amazon AppFlow 的相關資訊,並探索入門先決條件。



    探索指南 »

    AWS Data Exchange

    AWS Data Exchange 研討會

    探索自助式實驗室,您可以用於了解和學習 AWS 服務如何與第三方資料結合使用,在您的資料分析專案中新增洞察。 

    立即開始本研討會 »

    Amazon AppFlow icon

    Amazon AppFlow 研討會

    了解 Amazon AppFlow 相關資訊,以及如何在熱門 SaaS 服務與 AWS 之間輕鬆地傳輸資料。



    立即開始本研討會 »

預測型分析和 ML

  • 架構和介面
  • Amazon Deep Learning AMI

    AWS Deep Learning AMI 入門

    探索有關選擇適合您的 DLAMI、選擇適合您使用案例和預算的執行個體類型的提示,以及描述自訂設定的額外資訊。
    探索指南 »

    Amazon Deep Learning AMI

    Deep Learning AMI 教學課程


    向您展示如何搭配 Conda 軟體使用 Deep Learning AMI 的一系列教學課程。



    立即開始本教學課程 »

    Amazon Deep Learning AMI

    藉助 AWS Deep Learning AMI 開始使用深度學習

    了解 AWS Deep Learning AMIs (Amazon Machine Images) 的相關資訊,這些 AMI 可讓您建立自訂環境和工作流程。


    閱讀部落格文章 »

  • 平台服務
  • Amazon SageMaker

    Amazon SageMaker 的運作方式


    探索機器學習概觀,以及 Amazon SageMaker 的運作方式。 



    探索指南 »

    Amazon SageMaker

    Amazon SageMaker 入門

    我們將向您展示如何在虛擬叢集上部署 Spark 應用程式,以開始使用 Amazon EMR on EKS。

    探索指南 »

    Amazon SageMaker

    在不編寫程式碼的情況下產生機器學習預測
     

    了解如何使用 Amazon SageMaker Canvas 在不編寫任何程式碼的情況下建置 ML 模型並產生準確的預測。

    立即開始本教學課程 »

  • 直接資料整合
  • AWS Athena ML

    搭配 Amazon Athena 使用機器學習

    探索 ML 如何搭配 Amazon Athena,讓您藉助 Amazon SageMaker,使用 Athena 來編寫執行機器學習 (ML) 推論的 SQL 陳述式。



    探索指南 »

    AWS QuickSight ML

    使用 Amazon QuickSight 透過機器學習獲得洞察

    了解機器學習和自然語言功能如何搭配 Amazon QuickSight 企業版,讓您擺脫描述性和診斷性分析,並進行預測和做出決策。

    探索指南 »

    AWS Redshift ML

    Amazon Redshift ML 入門

    了解如何使用 Redshift 叢集中的資料,透過 Amazon SageMaker 來訓練模型。





    探索指南 »

    AWS Neptune ML

    如何開始使用 Neptune ML

    我們將向您展示如何輕鬆地設定 Neptune ML,並推斷圖形中的頂點屬性。

    閱讀部落格文章 »

探索

架構圖

探索架構圖,以協助您在 AWS 上開發、擴展和測試分析解決方案。

探索架構圖 »

 

白皮書

探索白皮書,以協助您開始使用、學習最佳實務,以及了解您的分析選項。

探索白皮書 »

 

AWS 解決方案

探索經審核的解決方案和常見分析服務使用案例的架構指引。

探索解決方案 »

 

本頁對您是否有幫助?