AWS AI Service Card 解釋了該服務預期的使用案例、該服務如何使用機器學習 (ML),以及負責任地設計和使用服務時的關鍵注意事項。Service Card 將隨著 AWS 收到客戶意見回饋以及服務在其開發過程中的反覆運算而演變。AWS 建議客戶針對他們需要解決的每個使用案例在自己的內容上評估任何 AI 服務的效能。有關更多資訊,請參閱《AWS 負責任地使用機器學習》指南和末尾的參考文獻。另請務必檢閱您計劃使用的服務的 AWS 負責任的 AI 政策和 AWS 服務使用條款。
本 Service Card 適用於截至 2022 年 7 月 11 日發佈的 Rekognition 臉部比對版本。
概觀
Amazon Rekognition 臉部比對可讓應用程式建置者比對一張臉部影像和另一張臉部影像之間的相似度。此 AI Service Card 描述使用我們的 CompareFaces 和 SearchFaces API 負責任地比對典型識別風格照片中的臉部和媒體 (例如電影、相冊和在不受控制或自然環境中拍攝的「野生」影像) 中的臉部的注意事項。通常,客戶使用 CompareFaces 將來源臉部與目標臉部進行比較 (1:1 比對),並且使用 SearchFaces 將來源臉部與目標臉部集合進行比較 (1:N 比對)。Rekognition 不會為客戶提供預建置的臉部集合;客戶必須建立和填充自己的臉部集合。在此 Card 中,我們將使用「臉部比對」來指代 Rekognition 的 CompareFaces API 和 SearchFaces API。
如果兩張影像包含同一個人的臉部,則兩張臉部影像稱為「真實相符」,否則就是「真實不相符」。給定輸入一對「來源」和「目標」影像,Rekognition 會傳回來源影像中來源臉部與目標影像中目標臉部的相似度分數。最小相似度分數為 0,表示相似度很低;最大相似度分數為 100,表示相似度非常高。Rekognition 本身並不能獨立決定影像中的兩張臉部是真實相符還是真實不相符;客戶呼叫 CompareFaces 和/或 SearchFaces 的工作流程透過使用自動邏輯 (將相似度閾值設定在 0 到 100 之間,如果相似度分數超過閾值,則預測為真實相符)、人工判斷或兩者混合來決定相符。
臉部在物理上有所不同,例如膚色和幾何形狀。但是,可以用不同的影像來表示任何一個人;相反,可以用非常相似的影像來代表不同的個體。例如,如果戴著同一副太陽鏡,僅眼睛形狀不同的兩個人可能看起來相同。這是因為有許多可能的因素 (稱為「混雜差異」) 共同變更代表臉部的影像圖元的位置和顏色。這些混雜因素包括 (1) 照明方向、強度和波長的分佈;(2) 頭部姿勢;(3) 相機對焦和成像缺陷;(4) 圖元解析度;(5) 手部、面部毛髮、頭髮、手機、伸出的舌頭、圍巾、眼鏡、帽子、珠寶或其他物體的遮擋;(6) 面部表情 (例如面無表情或睜開眼睛);以及 (7) 膚色改變 (例如,透過化妝、面部彩繪、曬傷或青春痘)。Rekognition 的相似度分數設計為對於不同個體的臉部影像較低,而對於同一張臉部的影像較高,並且忽略混雜差異。Rekognition 僅使用來源影像和目標影像中可用的資訊來評估臉部影像的相似性。
預期使用案例和限制
Rekognition 臉部比對僅用於比較人類的臉部。該功能不支援識別來自動畫片、動畫角色或非人類實體的臉部。它也不支援使用過於模糊和顆粒感以至於無法人為識別的臉部影像,以及大部分被頭髮、手和其他物體遮擋的臉部影像。此外,作為刑事調查的一部分,AWS 已暫停警方使用 Rekognition::CompareFaces 和 Rekognition::SearchFaces API (有關更多資訊,請參閱 AWS 服務使用條款第 50.9 節)。
Rekognition 臉部比對支援許多應用程式,例如識別失蹤兒童、授予進入建築物或會議招待套房的許可權、線上驗證身分以及整理個人照片庫。這些應用程式因涉及的個體數、每個個體可用的不同影像數量、預期的混雜差異量、虛假相符和虛假不相符的相對成本以及其他因素而異。我們將這些應用程式分為兩個廣泛的使用案例。
身分驗證使用案例:身分驗證應用程式使用臉部比對來登記新使用者並授予現有使用者存取資源的許可。在此使用案例中,通常透過使用政府簽發 ID 證件 (例如護照和駕駛執照) 中的照片,和即時自拍照 (鼓勵人們在光線充足的環境下擺出不受遮擋的臉部正面姿勢) 以盡量降低混雜差異。這樣就可用少量臉部影像來表示目標集合中的每個個體,並且集合中可涵蓋大量不同個體 (例如數百萬個個體)。在此使用案例中,某些最終使用者可能會試圖欺騙系統以取得存取權,因此客戶可以透過如下方式來降低這種風險:手動檢查提交給 Rekognition 的來源影像和目標影像是否符合客戶的期望,和/或要求相符項具有較高的相似度分數 (例如 95)。
媒體使用案例:媒體應用程式使用臉部比對從一組已知個體中識別照片和視訊中的個體 (例如,在度假視訊中尋找家庭成員)。在此使用案例中,同一個個體的來源影像和目標影像之間存在很大的混雜差異,因此目標集合可能包含較少的個體,其中每位使用者擁有更多的影像 (可能跨越此使用者人生的多個階段)。在此使用案例中,最終使用者試圖欺騙系統的動機不足,因此客戶可以選擇高度自動化的工作流程,並且考慮到高度的混雜差異,可能會允許相符項具有較低的相似度分數 (例如 80)。
Rekognition 臉部比對的設計
機器學習:使用機器學習和電腦視覺技術建置 Rekognition 臉部比對。其運作方式如下:(1) 找到包含臉部的輸入影像的部分。(2) 擷取包含頭部的影像區域,對齊該區域,使臉部處於「正常」垂直位置,並且輸出裁剪後的臉部影像。(3) 將每張裁剪後的臉部影像轉換為「臉部向量」(從技術上來說,這是臉部影像的數學表示)。請注意,SearchFaces 搜尋的集合是臉部向量集,而不是臉部影像集。(4) 比較來源和目標臉部向量,並傳回系統針對臉部向量給出的相似度分數。如需 API 呼叫的詳細資訊,請參閱開發人員文件。
效能期望:客戶應用程式之間的個體差異和混雜差異將有所不同。這意味著即使應用程式支援相同的使用案例,其效能也會有所不同。以兩個身分驗證應用程式 A 和 B 為例。對於每個應用程式,使用者首先使用護照風格的影像註冊自己的身分,然後使用即時自拍照來驗證自己的身分。應用程式 A 透過使用智慧手機攝像頭拍攝光線充足、對焦良好、正面姿勢、高解析度和不遮擋的自拍照來支援智慧手機存取。應用程式 B 透過使用門口攝像頭拍攝光線較差、更模糊、解析度較低的自拍照來允許人員進入建築物。由於 A 和 B 的輸入類型不同,因此即使假設使用 Rekognition 完美部署每個應用程式,它們的臉部比對錯誤率也可能不同。
測試驅動的方法:我們使用多個資料集來評估效能。沒有任何單一的評估資料集能提供絕對的效能全景。這是因為評估資料集因其人口構成 (已定義群體的數量和類型)、混雜差異數量 (內容品質、適合用途)、可用標籤的類型和品質以及其他因素而有所不同。我們透過如下方式衡量 Rekognition 的效能:在包含相同個體成對影像 (相符對) 和不同個體成對影像 (非相符對) 的評估資料集上對其進行測試。我們選擇相似度閾值,使用 Rekognition 計算每對影像的相似度分數,然後依據閾值確定該影像對是相符還是不相符。資料集的整體效能由兩個數字表示:真實相符率 (相似度分數超過閾值的相符對的百分比) 和真實非匹配率 (相似度分數低於閾值的非相符對的百分比)。變更相似度閾值會相應變更真實相符率和真實非相符率。資料集中的群體可以由人口統計屬性 (例如性別)、混雜變數 (例如面部毛髮的存在性) 或兩者的混合來定義。不同的評估資料集因這些因素和其他因素而異。因此,每個資料集的真實相符率和不相符率 (包括總體和群體) 均有所不同。考慮到這種差異,我們的開發過程使用多個評估資料集來檢查 Rekognition 的效能,採取措施提高 Rekognition 效能最差的群體的真實相符率和/或真實不相符率,努力改進評估資料集套件,然後進行反覆運算。
公平性與偏見:我們的目標是讓 Rekognition 的臉部比對適用於所有臉部。為此,我們使用上面描述的反覆運算開發過程。在此過程中,我們建置資料集,涵蓋在各種混雜差異下獲取的不同人類面部特徵和膚色。我們會在擁有可靠人口統計標籤 (例如性別、年齡和膚色) 的臉部影像資料集上對各種使用案例定期進行測試。我們發現,Rekognition 在人口屬性方面效能出眾。例如,專門從事負責任 AI 的公司 Credo AI 使用身分驗證資料集對 Rekognition 進行第三方評估,該資料集包含光線充足、非模糊且無遮擋的高品質主體影像。Credo AI 觀察到,在由膚色和性別定義的六種人口群體中,最低的真實相符率為 99.94816%,最低的真實不相符率為 99.99995%,並且相似度閾值設為 95。由於效能結果取決於各種因素,包括 Rekognition、客戶工作流程和評估資料集,因此,我們建議客戶使用自己的內容對 Rekognition 進行額外的測試。
可解釋性:如果客戶對 Rekognition 傳回的給定來源影像和目標影像的相似度分數有疑問,我們建議客戶使用邊框和 Rekognition 傳回的臉部特徵點資訊直接檢查臉部影像。
穩健性:我們透過多種技術盡量提高穩健性,包括使用擷取許多個體中多種差異的大型訓練資料集。由於 Rekognition 不能對不同個體 (例如同卵雙胞胎) 之間的微小差異具有很高的敏感度,同時對混雜差異 (例如為加強顴骨而塗上化妝品) 具有非常低的敏感度,因此客戶必須設定適合其使用案例的真實相符率和真實不相符率預期值,並在其內容上測試工作流程性能,包括其選擇的相似度閾值。
隱私權和安全性:Rekognition 臉部比對處理三種資料:客戶輸入影像、輸入影像的臉部向量以及輸出相似度分數和輸出中繼資料。臉部向量絕不會包含在服務傳回的輸出中。客戶之間絕不會共用輸入和輸出。客戶可透過 AWS Organizations 或我們提供的其他退出機制,選擇退出客戶內容培訓。如需詳細資訊,請參閱 AWS 服務條款第 50.3 節和 AWS 資料隱私常見問題集。 如需特定服務的隱私權和安全性資訊,請參閱 Rekognition 常見問題集中的「資料隱私權」部分以及 Amazon Rekognition 安全性文件。
透明度:在適合其使用案例的情況下,將 Amazon Rekognition 臉部比對 API 納入其工作流程的客戶,應考慮向最終使用者和其他受應用程式影響的個人,披露使用機器學習和臉部識別技術的情況,並讓最終使用者能夠提供意見回饋以改進工作流程。在其文件中,客戶還可以引用此 AI Service Card。
管控:我們採用嚴格的方法來,以負責任的方式建置我們的 AWS AI 服務,包括在設計階段融入負責任 AI 的逆向工作產品開發程序,由專職的負責任 AI 科學和資料專家設計諮詢和實作評估,執行例行測試,與客戶一起檢閱,以及進行最佳實務開發、分發和培訓。
部署和效能最佳化最佳實務
- 個體差異:在一組目標臉部中搜尋來源臉部時,成功率會隨著目標集中不同個體之間的身體差異程度而增加。例如,同卵雙胞胎之間的比對比異卵雙胞胎或無親屬關係個體之間的比對要困難得多。通常,具有更多獨特個體的目標集合存在兩個看上去相似的獨特個體的風險較高,因此在做出相符的最終決定時需要更加謹慎。在解釋來源影像傳回的相似度分數時,工作流程應考慮目標集合中個體可能的相似度。
- 混雜差異:在選擇成對的來源影像和目標影像時,工作流程應包括盡量減少來源影像和目標影像之間差異 (如照明條件的差異) 的步驟。如果差異很大,可以考慮為每個目標個體新增多個臉部影像 (「選項」),以涵蓋預期的差異 (例如姿勢、光照和年齡),並將源臉部影像與每個目標選項進行比較。如果唯一可行的方式是採用單個選項,可以考慮使用護照風格、正面、無遮擋的頭部特寫。工作流程應為允許的輸入影像制定政策,並透過定期和隨機採樣輸入來監控合規性。
- 相似度閾值:為應用程式設定適當的相似度閾值非常重要。否則,工作流程可能會得出結論,認為存在不應有的相符 (虛假相符) 或反之亦然 (虛假不相符)。虛假相符的成本可能與虛假不相符的成本不同。例如,身分驗證的適當相似度閾值可能比媒體的相似度閾值高得多。要設定適當的相似度閾值,客戶應收集一組代表性的輸入對,將每個輸入對標記為相符或不相符,並嘗試提高或降低相似度閾值直到對結果滿意。
- 人為監督:如果客戶的應用程式工作流程涉及高風險或敏感使用案例,例如影響個人權利或基本服務存取權限的決定,則應在適當的情况下將人工檢閱納入應用程式工作流程。臉部比對系統可以用作工具,減少全手動解決方案所產生的工作量,並可讓使用者快速檢閱和評估可能的相符和不相符項。
- 一致性:客戶應針對如下方面制定並實施政策:允許的來源影像和目標影像種類,以及人類如何將相似度閾值的使用與自己的判斷相結合來確定相符項。這些政策應在所有人口群體中保持一致。不一致地修改來源影像和目標影像或相似度閾值可能會給不同的人口群體帶來不公平的結果。
- 效能偏差:客戶提交給 Rekognition 的影像種類的變化或服務的變更可能會導致不同的輸出。為了應對這些變更,客戶應考慮定期重新測試 Rekognition 的效能,並在必要時調整工作流程。
更多資訊
- 如需服務文件,請參閱 Rekognition、CompareFaces、SearchFaces。
- 如需身分驗證工作流程設計的範例,請參閱使用 Amazon Rekognition 的身分驗證。
- 如需協助最佳化工作流程,請參閱 AWS 客戶支援、AWS Professional Services、Amazon SageMaker Ground Truth Plus、Amazon Augmented AI。
- 如果您對 AWS AI Service Cards 有任何疑問或意見,請填寫此表單。
詞彙表
公平性和偏見是指 AI 系統如何影響不同的使用者亞群 (例如,按性別、種族)。
可解釋性是指擁有理解和評估 AI 系統輸出的機制。
穩健性是指擁有確保 AI 系統可靠執行的機制。
隱私權與安全性是指保護資料免遭盜竊和洩露。
管控是指採用程序在組織內定義、實作和執行負責任 AI 實務。
透明度是指傳達有關 AI 系統的資訊,以便利害關係人對其系統的使用做出明智的選擇。