什麼是資料管控?
資料控管包括確保資料處於適當狀態以支援業務計畫和營運的程序和政策。現代組織大規模收集來自各種來源的資料,以增強營運和服務交付。但是,資料驅動型決策只有在資料符合所需品質和完整性標準時才有效。
資料控管決定資料使用的角色、責任和標準。概述了誰可以根據什麼資料、使用什麼方法以及在什麼情況下採取什麼動作。隨著越來越多的資料用於支援人工智慧 (AI) 和機器學習 (ML) 使用案例,所有資料使用都滿足監管和道德要求變得至關重要。資料控管平衡資料安全與戰術和策略目標,以確保最大效率。
什麼是分析管控?
分析管控既可管控用於分析應用程式的資料,也可以管控分析系統的使用情況。您的分析管控團隊可以建立管控機制,例如分析報告版本控制和文件。與往常一樣,追蹤法規要求,制定公司政策,並為更廣泛的組織提供防護機制。
為什麼資料管控很重要?
過去一直採用資料控管來鎖定孤島中的資料,從而防止資料洩露或濫用。但是,資料孤島的結果是合法使用者必須有效處理障礙,以便在需要時存取資料。無意之間,資料驅動型創新就此被扼殺了。
在 2024 年對 350 個資料長和資料長同級角色進行的調查中,MIT CDOIQ 發現 45% 的資料長將資料控管視為首要考量。這些資料領導者希望建立資料控管架構,讓他們在需要時將資料提供給適當的人員和應用程式,同時透過適當的控制措施確保資料安全無虞。
平衡存取和控制
您擁有兩個可以使管控成為創新推動者的槓桿:存取與控制。成功的關鍵在於,在兩者之間找到合適的平衡點,而每個組織的平衡點也不並一樣。當您執行過多控制時,資料會被鎖定在孤島中,且使用者無法在需要時存取資料。這會扼殺創造力,而且會導致影子 IT 系統的建立,其中這些系統會致使資料過時且不安全。相反,當您提供過多的存取權時,資料風險在應用程式和資料存放區中會變得不受監管,從而增加未經授權的存取風險並影響資料品質。
資料控管程序將平衡存取與控制,賦予使用者對資料的信任與信心。促進適當的探索、策管、保護和資料共享,鼓勵創新,同時保護資料。
資料控管有哪些優勢?
資料控管提供了一個結構化架構,用於管理整個組織的資料。以下是一些主要優點。
提升資料品質
資料控管可建立資料準確性、完整性和一致性的標準。您可以取得所有利害關係人都信任的相關、最新、易於解譯的資料。這些高品質的資料可以減少錯誤,並為策略和營運決策提供準確、及時的洞察。
支援資料驅動型文化
有效的資料控管策略可培養重視資料的文化,鼓勵所有員工在工作中使用和了解資料。激勵業務社群參與並推動參與業務領域的資料整合。資料工程師與業務使用者之間的協調可提升組織的整體資料素養和分析能力。
提高營運效率
資料控管可協助確定正確的營運模式,尤其是所需的集中化和去中心化等級。您可以建立一致的資料管理實務,以簡化操作。明確定義的資料擁有權和存取權限可促進跨部門的協作,確保每個人都使用相同、可靠的資料來源。跨團隊協調工作,以減少重複工作、降低營運成本並提高生產力。
支援法律合規
資料控管架構採用主動的風險管理方法,確保資料實務符合法律和產業法規。您可以集中定義誰可以存取或修改資料的政策,來防止未經授權的存取。資料控管工具支援遵守隱私權法規,來保護敏感資料。
什麼是機器學習 (ML) 管控?
ML 管控將許多相同的資料管控實務套用至 ML。資料品質和資料整合需要提供模型訓練和生產部署所需的資料 (特徵商店是其中一個重要的方面)。負責任的人工智慧 (AI) 尤其要注意使用敏感資料來建置模型。其他 ML 管控功能包括讓人們能夠參與模型建置、部署和監控;記錄模型訓練、版本控制、支援的使用案例,以及指導道德模型使用;並監控生產中的模型,以確保準確性、漂移、過度擬合和擬合不足。
生成式 AI 需要額外的資料管控功能,例如資料的品質和完整性,以支援基礎模型的採用,進而進行訓練和推論、管控生成式 AI 毒性與偏差,以及基礎模型 (FM) 操作:FMOp。
您可以使用相同的資料管控計畫來支援 AI/ML。資料準備是將資料轉換為 AI/ML 模型可用於訓練和生產推論的表單所必須的,但最高效的資料準備就是您不需要做任何準備。資料科學家花費過多時間來為每個使用案例準備資料 — 您的資料管控團隊可協助減輕這一無差別的繁重工作。此外,資料管控可監督既定特徵商店的建立,以便在 AI 和 ML 使用案例中使用。
最後,敏感資料需要受到適當保護,因此您的團隊可以降低敏感資料用於訓練基礎模型的風險。
就像一般分析一樣,您必須管控您建置或自訂的 AI/ML 模型的使用。理想情況下,這應該與分析管控密切關聯,因為該功能將知道如何支援各種業務領域。
由誰建置資料管控?
建置強大的資料控管策略需要許多職務職能。
高層贊助者
他們識別並建立整個組織的資料控管原則、標準和政策。也了解公司藍圖上的許多業務計畫,並可協助確定推動資料控管活動的優先順序。
資料管理員
他們來自業務部門,參與專案的日常細節。可協助了解可能對目標業務計畫造成挑戰的資料問題。還在專案中實作資料控管程序,並確保資料受到適當管理。他們監控員工和客戶的合規性,並在出現任何問題時向上呈報。
資料擁有者
他們制定有關資料的政策,包括誰應有權存取資料,以及在什麼情況下如何解析和套用法規與關鍵術語定義。還負責您的資料集的技術管理和存取控制。
資料工程師
他們來自 IT,選取並實作最佳資料控管工具來保護資料、整合不同來源的資料、管理資料品質並尋找合適的資料。
什麼是資料控管的風格?
您的資料管控方案應平衡集中化和去中心化 (包括自助服務)。在整個組織中,您將擁有集中式、聯合式和分散式管控的組合 — 同樣須根據業務需求而定。您應該盡可能多地賦予域團隊權限,同時保持跨域的一致性 (例如能夠將資料連結在一起)。
集中式資料控管
中央組織最終負責任務陳述、政策、工具選擇等。但是,日常動作經常被推入業務線 (LOB)。
聯合資料治理
聯合資料控管可賦予個別業務單位或計畫權限,從而以最符合其需求的方式操作。然而,較小的集中式團隊專注於解決經常重複的問題,例如企業範圍的資料品質工具。
自助或去中心化資料控管
每個部門都會針對特定專案執行所需的工作,同時遵循集中式政策。若其他專案中有適用使用的任何工具或流程,每個專案皆會予以使用。隨著資料網格 (本身已去中心化) 等主題的普及度越來越高,自助式資料控管也會增加。
資料管控如何運作?
資料控管需要跨越各種功能的員工、程序和技術解決方案。
大規模策劃資料,以限制資料無序擴張
大規模策劃資料意味著識別和管理最有價值的資料來源,包括資料庫、資料湖和資料倉儲。您可以限制重要資料資產的激增和轉換。策劃資料也意味著確保正確的資料準確、全新且沒有敏感資訊,以便使用者對資料驅動型決策和資料饋送應用程式充滿信心。
功能:資料品質管理、資料整合與主資料管理
結合情境探索並了解您的資料。
結合情境了解您的資料意味著,所有使用者都可以探索及理解其資料的含義,以便他們可以放心地使用資料來推動商業價值。透過集中式資料目錄,可以輕鬆找到資料、請求存取,以及使用資料來做出業務決策。
功能:資料分析、資料譜系和資料目錄
充滿信心地保護及安全共用您的資料。
保護您的資料意味著在資料隱私權、安全和存取之間取得適當的平衡。使用同時適合商業和工程使用者的直覺式工具,控管跨組織界限的資料存取至關重要。
功能:資料生命週期、資料合規和資料安全
降低業務風險並改善法律合規。
降低風險意味著了解如何使用該資料以及由誰使用。AWS 服務可協助您監控和稽核資料存取 (包括透過 ML 模型存取),以協助確保資料安全和法律合規。機器學習還需要稽核透明度,以確保負責任的使用和簡化報告。
功能:資料和 ML 的用量稽核
如何完善您的資料管控團隊?
有效的資料管控計畫的關鍵在於,連接到已有挹注資金的業務計畫上。確保您的團隊了解支援這些計畫所需的資料域、來源和元素。
什麼是資料控管最佳實務?
資料控管如何影響分析、機器學習和人工智慧?
資料控管在資料大量使用案例中扮演關鍵角色。
分析控管
分析控管 – 既可控管用於分析應用程式的資料,也可以控管分析系統的使用情況。您的分析管控團隊可以建立管控機制,例如分析報告版本控制和文件。與往常一樣,追蹤法規要求,制定公司政策,並為更廣泛的組織提供防護機制。
AI 管控
AI 控管將許多相同的資料控管實務套用至 AI/ ML 使用案例。資料品質和整合必須提供模型訓練和生產部署所需的資料 (特徵存放區是其中一個重要的方面)。負責任的人工智慧 (AI) 尤其要注意使用敏感資料來建置模型。其他 AI 控管功能包括讓人們能夠參與模型建置、部署和監控;記錄模型訓練、版本控制和支援的使用案例,以及指導道德模型使用;並監控生產中的模型,以確保準確性、漂移、過度擬合和擬合不足。
生成式 AI 需要額外的資料控管功能,例如資料品質和完整性,以支援基礎模型的採用,進而進行訓練和推論、控管生成式 AI 毒性與偏差,以及基礎模型 (FM) 操作:FMOps。
您可以使用相同的資料管控計畫來支援 AI/ML。資料準備是將資料轉換為 AI/ML 模型可用於訓練和生產推論的表單所必需的,但最高效的資料準備就是您不需要做任何準備。資料科學家花費過多時間來為每個使用案例準備資料 — 您的資料管控團隊可協助減輕這一無差別的繁重工作。此外,資料控管可監督 AI 和 ML 使用案例的既定特徵存放區的建立。
最後,敏感資料必須受到適當保護,因此您的團隊可以降低使用敏感資料來訓練基礎模型的風險。
就像分析一樣,您必須控管您建置或自訂的 AI/ML 模型的使用。理想情況下,這應該與分析管控密切關聯,因為該功能將知道如何支援各種業務領域。
資料控管的主要挑戰是什麼?
資料控管最常見的策略挑戰是讓您的計畫與業務計畫保持一致,而不是直接提出資料控管的價值。例如,您可能會提出讓最終使用者更容易找到所需資料的價值,或者您可能會提出解決資料品質問題的價值。但是,這些都是自找麻煩的解決方案。如果您這樣做,您最終將與您應支援的業務計畫競爭資助與贊助。相反,位置資料管控可支援業務計畫。每個主要的業務計畫都需要資料。資料控管應確保資料處於正確的狀態,以支援業務計畫的成功。不要忽視有關資料管控如何支援這些計畫的報告和稽核實務。
另一個常見策略挑戰是避免過於狹隘地套用資料控管。過於狹隘的定義可能使計畫與個別業務領域或使用案例保持一致,而不會從更廣泛的視野角度來查看業務領域。狹隘定義也可能意味著僅透過一個或兩個功能來定義資料控管。例如,擁有資料目錄並不構成資料管控計畫。
有哪些用於資料管控的 AWS 產品?
透過 AWS 上的端對端資料管控,組織可以控制其資料的所在位置、可存取資料的人員,以及在資料工作流程的每個步驟中可以執行動作。AWS 的資料管控可讓合適的人員和應用程式在需要時輕鬆安全地尋找、存取和共用正確的資料,進而協助組織加速資料導向型決策。您可以透過自動化資料整合和資料品質來策劃資料,以限制資料激增。您可以使用可提高資料素養的集中化目錄來探索和了解您的資料。您可以使用精準的許可來保護資料,從而讓您充滿信心地共用資料。
您可以透過監控和稽核資料存取來降低風險並改善法律合規。
- Amazon DataZone – 使用內建控管功能,解鎖跨組織界限的資料
- AWS Glue – 發現、準備和整合任何規模的所有資料
- AWS Lake Formation – 在幾天內建置、管理和保護資料湖
- Amazon QuickSight 超大規模的統一商業智慧
- Amazon SageMaker – 建置、訓練和部署機器學習模型,用於具有全受管基礎架構、工具和工作流程的使用案例
- ML 控管網頁
- Amazon Bedrock – 使用基礎模型 (FM) 建置和擴展生成式 AI 應用程式
- Amazon Macie – 大規模探索及保護敏感資料
- Amazon Simple Storage Service (Amazon S3) 存取點 – 專為從任何位置擷取任何數量資料所建立的物件儲存服務
- AWS Data Exchange – 輕鬆尋找、訂閱及使用雲端中的第三方資料
- AWS Clean Rooms – 在幾分鐘之內建立無塵室,以在不共用原始資料的情況下與您的合作夥伴協作
立即建立免費帳戶,開始在 AWS 上進行資料控管。