ภาพรวม

Amazon Transcribe ช่วยให้ลูกค้าของ AWS สามารถเพิ่มการแปลงเสียงพูดเป็นข้อความได้ในแอปพลิเคชันที่เปิดใช้งานเสียงของพวกเขา การใช้เทคโนโลยีการจดจำเสียงพูดอัตโนมัติ (ASR) ทำให้ลูกค้าสามารถใช้ Amazon Transcribe กับแอปพลิเคชันทางธุรกิจที่หลากหลายได้ คุณสมบัติที่มีในบริการนี้ ได้แก่ การจดจำเสียงพูดอัตโนมัติ การบันทึกข้อมูลผู้พูด การแก้ไขข้อมูลที่ระบุตัวตนของบุคคลได้ (PII) และการระบุภาษา โปรดดูเอกสารสำหรับรายละเอียดเพิ่มเติม บัตรบริการ AI นี้ช่วยอธิบายถึงหนึ่งในคุณสมบัติเหล่านี้ Transcribe - Batch (อังกฤษ-สหรัฐอเมริกา) ซึ่งดำเนินการโดย Transcribe: :StartTranscriptionJob API คุณสมบัตินี้ทำการ ASR ในภาษาท้องถิ่น en-US ที่แบนด์วิดท์ต่ำ (8kHz) หรือสูง (16kHz) โดยทำงานกับเสียงพูดที่บันทึกไว้ซึ่งได้จากไฟล์เสียงแบบคงที่ (โหมดแบตช์) สำหรับ ASR บนสื่อสตรีมมิ่งที่ใกล้เคียงระดับเรียลไทม์ โปรดดู Transcribe::StartStreamTranscription API

เราประเมินคุณภาพของ Transcribe Speech โดยการวัดว่าคำจากการถอดเสียงใน ASR ตรงกับคำที่พูดในตัวอย่างคำพูดได้ดีเพียงใด เทียบกับที่ถอดเสียงโดยผู้ฟังที่เป็นมนุษย์ เมื่อผู้พูดพูดว่า “This system can really recognize speech” เราคาดหวังว่าข้อความที่ถอดเสียงจะประกอบด้วยคำที่พูดไป ไม่ใช่คำว่า “This system can wreak a nice beach” ข้อผิดพลาดสามประเภทที่อาจปรากฏในการถอดเสียง ได้แก่ การทดแทน (เช่น wreck แทน recognize) การแทรก (คำเกิน เช่น "nice") และการลบ (คำที่ขาดหายไป เช่น "really") คำที่ถอดเสียงอย่างถูกต้องเรียกว่า ฮิต (hit) ตัวชี้วัดคุณภาพอย่างความแม่นยำ, การจำได้, F1, และอัตราข้อผิดพลาดของคำ (WER) ขึ้นอยู่กับจำนวนฮิตและข้อผิดพลาด

มีปัจจัยหลายประการที่ส่งผลต่อความถูกต้องของระบบ ASR สัญญาณเสียงอินพุตประกอบด้วยตัวเสียงพูด ซึ่งถูกปรับแต่งจากหลายปัจจัยที่สร้างความสับสน คำพูดและการเปล่งเสียงของแต่ละคนจะแตกต่างกันไปตามความถี่ที่ใช้ วิธีการออกเสียง และลักษณะที่ใช้ร่วมกับคำอื่นๆ คำพูดที่สะกดและมีความหมายแตกต่างกันอาจมีเสียงเหมือนกัน ลำโพงอาจส่งเสียงทับซ้อนกันหรือรบกวนซึ่งกันและกัน อุปกรณ์บันทึกมีคุณภาพและตำแหน่งจากลำโพงแตกต่างกัน (เช่น ระยะไกลกับระยะใกล้) สภาพแวดล้อมการบันทึกมีระดับเสียงพื้นหลัง ความไวต่อเสียงสะท้อน และจำนวนลำโพงแตกต่างกัน สายส่งสัญญาณต่างๆ มีระดับเสียงรบกวนแตกต่างกัน Transcribe ได้รับการออกแบบมาเพื่อแยกแยะเสียงสำหรับคำที่แตกต่างกัน โดยไม่สนใจความแปรปรวนที่สร้างความสับสน

กรณีการใช้งานและข้อจำกัดที่ตั้งไว้

Transcribe — Batch (อังกฤษ-สหรัฐอเมริกา) ใช้กับตัวอย่างเสียงที่มนุษย์พูดโดยธรรมชาติ ไม่ได้ออกแบบมาสำหรับคำพูดที่มีการดัดแปลงทางกลไกหรือดิจิทัลหรือเสียงพูดสังเคราะห์ ใช้เพื่อถอดเสียงคำภาษาอังกฤษของสหรัฐอเมริกา ดูภาษาที่รองรับสำหรับภาษาท้องถิ่นเพิ่มเติม Transcribe รองรับคำศัพท์ใช้งานทั่วไปจำนวนมาก ลูกค้าสามารถเพิ่มคำศัพท์ที่กำหนดเองและโมเดลภาษาที่กำหนดเองเพื่อให้ครอบคลุมคำและวลีในขอบเขตที่เฉพาะเจาะจงได้ Transcribe รองรับการแบ่งพาร์ทิชันผู้พูด หรือที่เรียกว่าการแบ่งส่วนเสียงตามผู้พูด โดยสามารถแยกผู้พูดที่แตกต่างกันได้สูงสุดถึง 10 คนด้วยการเปิดใช้การแบ่งพาร์ทิชันผู้พูดในการเรียกใช้ API

Transcribe Batch (อังกฤษ-สหรัฐอเมริกา) สามารถนำไปใช้งานได้มากมาย เช่น การวิเคราะห์ข้อมูลของศูนย์ติดต่อ (ความรู้สึก/การจัดหมวดหมู่/ความเร็วในการพูด) การถอดเสียงข้อความเสียง การสร้างคำบรรยายในการประชุม การสร้างคำบรรยายสำหรับเนื้อหาสื่อ (เสียงหรือวิดีโอ) และการค้นหา/วิเคราะห์ข้อมูล/วิเคราะห์คีย์เวิร์ดสำหรับสื่อ รวมถึงการจัดทำแค็ตตาล็อกหรือดัชนีคลังสื่อ แอปพลิเคชันเหล่านี้แตกต่างกันไปตามการออกแบบโดยขึ้นกับ 1/จำนวนลำโพง 2/จำนวนลำโพงต่อช่อง (เช่น ต่อกับอุปกรณ์บันทึก เช่น แล็ปท็อปหรือโทรศัพท์มือถือ) 3/รูปแบบการพูดที่ใช้โดยลำโพง 4/สภาวะในการบันทึก (เช่น ตำแหน่งและอุปกรณ์) และปัจจัยอื่นๆ ตัวอย่างเช่น แอปพลิเคชันการถอดเสียงของศูนย์ติดต่ออาจต้องการลำโพงสองตัว ลำโพงหนึ่งตัวต่อหนึ่งช่อง การบันทึกในระยะใกล้ (โดยให้ปากลำโพงอยู่ใกล้กับไมโครโฟน) และเสียงรบกวนพื้นหลังสูงทั้งจากสภาพแวดล้อมในบ้านของผู้โทรและสภาพแวดล้อมการทำงานของผู้ให้บริการศูนย์ติดต่อ ตัวอย่างที่สองคือแอปพลิเคชันสำหรับการทำคำบรรยายของวิดีโอการสอน จุดเริ่มต้นสู่การวิเคราะห์สื่อ การจัดทำดัชนี และการค้นหา แอปพลิเคชันเช่นนี้จะต้องการลำโพงหลายตัว ช่องเสียงหนึ่งช่องสำหรับลำโพงทุกตัว เสียงพูดตามสคริปต์โดยมีการเติมคำเพียงเล็กน้อย มีการหยุดชั่วคราวและไม่แน่นอน แต่มีคำศัพท์ในขอบเขตที่เฉพาะเจาะจงกว่า และระดับเสียงรบกวนพื้นหลังและการปิดกั้นเสียงอื่นๆ ต่ำกว่า

การออกแบบของ Transcribe – Batch (อังกฤษ-สหรัฐอเมริกา)

แมชชีนเลิร์นนิง: Transcribe สร้างขึ้นโดยใช้เทคโนโลยี ML และ ASR โดยทำงานดังนี้: (1) ระบุคุณสมบัติทางเสียงที่เกี่ยวข้องของอินพุตเสียง (2) สร้างชุดสตริงระดับคำ (word-level strings) ของคำที่เป็นไปได้ตามคุณสมบัติเหล่านี้ (3) ใช้โมเดลภาษาเพื่อจัดอันดับคำที่เป็นไปได้และส่งกลับการถอดเสียงที่ได้อันดับสูงที่สุด ดูเอกสารสำหรับนักพัฒนาสำหรับรายละเอียดของการเรียกใช้ API

ความคาดหวังด้านประสิทธิภาพ: ความแปรปรวนของแต่ละบุคคลและที่สับสนจะแตกต่างกันไปตามแอปพลิเคชันของลูกค้า ซึ่งหมายความว่าประสิทธิภาพจะแตกต่างกันไปตามแอปพลิเคชันแม้ว่าจะรองรับกรณีการใช้งานเดียวกันก็ตาม พิจารณาแอปพลิเคชันการถอดเสียงสองแอป A และ B โดยแอปพลิเคชัน A เปิดใช้งานคำบรรยายวิดีโอสำหรับรายการทอล์คโชว์ทางทีวี และมีหลายเสียงต่อหนึ่งช่องบันทึก ไมโครโฟนแบบบูมคุณภาพสูง และเสียงรบกวนพื้นหลังเล็กน้อย แอปพลิเคชัน B ใช้ช่วยศูนย์ติดต่อบันทึกการโทรของลูกค้า และมีลูกค้าพูดใกล้กับไมโครโฟนของลูกค้า หนึ่งเสียงต่อหนึ่งช่องบันทึก และบทสนทนาของลูกค้าที่เป็นแบบไม่มีสคริปต์ เนื่องจาก A และ B มีอินพุตที่ต่างกัน ทั้งสองแอปจึงมีอัตราข้อผิดพลาดที่แตกต่างกันแม้ว่าแต่ละแอปพลิเคชันจะใช้ Transcribe อย่างสมบูรณ์แบบ

วิธีการที่ขับเคลื่อนโดยการทดสอบ: เราใช้ชุดข้อมูลหลายชุดเพื่อประเมินประสิทธิภาพ ชุดข้อมูลการประเมินเพียงชุดเดียวไม่สามารถแสดงภาพที่แท้จริงของประสิทธิภาพได้ นั่นเป็นเพราะชุดข้อมูลการประเมินจะแตกต่างกันไปตามองค์ประกอบเชิงประชากร (จำนวนและประเภทของกลุ่มที่กำหนด) จำนวนความแปรปรวนที่สร้างความสับสน (คุณภาพของเนื้อหา ความตรงตามวัตถุประสงค์) ประเภทและคุณภาพของป้ายกำกับที่มีอยู่ และปัจจัยอื่นๆ เราวัดประสิทธิภาพของ Transcribe โดยการทดสอบในชุดข้อมูลการประเมินที่มีการบันทึกเสียงจากลำโพงที่หลากหลายซึ่งเป็นตัวแทนของประชากรของผู้ใช้ปลายทาง โดยที่การบันทึกแต่ละรายการมีทำป้ายกำกับว่าเป็นการถอดเสียงตามจริง และคุณลักษณะเชิงประชากรของลำโพง เราแสดงประสิทธิภาพโดยรวมของชุดข้อมูลผ่านตัวชี้วัดหลายตัว รวมทั้งอัตราข้อผิดพลาดของคำและ F1 ซึ่งเป็นเปอร์เซ็นต์ที่จะปรับสมดุลของคำที่คาดการณ์ไว้อย่างถูกต้อง (ความแม่นยำ) เทียบกับเปอร์เซ็นต์ของคำที่ถูกต้องที่รวมอยู่ในการคาดการณ์ (การจำได้) อย่างเท่าๆ กัน กลุ่มในชุดข้อมูลสามารถกำหนดได้จากคุณลักษณะเชิงประชากร (เช่น เพศ อายุ และเชื้อชาติ) ตัวแปรที่สร้างความสับสน (เช่น ความหลากหลายของอุปกรณ์บันทึก ระยะห่างของผู้พูดแต่ละคนจากอุปกรณ์บันทึก ขั้นตอนหลังการบันทึก และเสียงรบกวนพื้นหลัง) หรือทั้งสองอย่างรวมกัน ชุดข้อมูลการประเมินจะแตกต่างกันไปตามปัจจัยเหล่านี้และปัจจัยอื่นๆ ด้วยเหตุนี้ตัวชี้วัดทั้งหมด ทั้งโดยรวมและสำหรับกลุ่ม จึงแตกต่างกันไปตามชุดข้อมูลแต่ละชุด เมื่อคำนึงถึงความแปรปรวนนี้ กระบวนการพัฒนาของเราจะตรวจสอบประสิทธิภาพของ Transcribe โดยใช้ชุดข้อมูลการประเมินหลายชุด ดำเนินการตามขั้นตอนเพื่อเพิ่มความแม่นยำสำหรับกลุ่มที่ Transcribe มีประสิทธิภาพต่ำที่สุด ทำงานเพื่อปรับปรุงชุดชุดข้อมูลการประเมิน จากนั้นทำซ้ำ

ความยุติธรรมและอคติ: เป้าหมายของเราคือให้ Transcribe — Batch (อังกฤษ-สหรัฐอเมริกา) ทำงานได้ดีสำหรับผู้พูดภาษาอังกฤษของสหรัฐอเมริกาในรูปแบบของการออกเสียง ระดับเสียงสูงต่ำ คำศัพท์ และคุณสมบัติทางไวยากรณ์อันหลากหลายที่ผู้พูดเหล่านี้อาจใช้ เราพิจารณาชุมชนผู้พูดที่กำหนดตามภูมิภาค เช่น มิดเวสต์หรือนิวยอร์กซิตี้ และชุมชนที่กำหนดโดยเอกลักษณ์หลายมิติ รวมถึงเชื้อชาติ อายุ และเพศ เพื่อให้บรรลุเป้าหมายนี้ เราได้ใช้กระบวนการพัฒนาซ้ำดังที่อธิบายไว้ข้างต้น ในฐานะที่เป็นส่วนหนึ่งของกระบวนการนี้ เราสร้างชุดข้อมูลเพื่อบันทึกกลุ่มผู้พูดที่หลากหลายภายใต้ปัจจัยต่างๆ ที่สร้างความสับสน เราทดสอบบนชุดข้อมูลเป็นประจำซึ่งเรามีป้ายกำกับเชิงประชากรที่เชื่อถือได้ เราพบว่า Transcribe ทำงานได้ดีกับคุณลักษณะเชิงประชากรต่างๆ ตัวอย่างเช่น ในชุดข้อมูลหนึ่งซึ่งมีภาษาธรรมชาติของกลุ่มประชากร 65 กลุ่ม ซึ่งกำหนดตามอายุ เชื้อชาติ เพศ และภาษาถิ่นตามภูมิภาค (เช่น เพศหญิง+ชาวยุโรป, เพศชาย+ต่ำกว่า 45 ปี) เราพบว่า F1 สำหรับความแม่นยำของการจดจำคำอยู่ที่ 92% หรือมากกว่าสำหรับกลุ่มผู้พูดทุกกลุ่ม สำหรับการถอดเสียงที่เปิดใช้การแบ่งพาร์ทิชันผู้พูด (การแบ่งส่วนเสียงตามผู้พูด) ในชุดข้อมูลเดียวกัน เราพบว่าความแม่นยำของการแบ่งส่วนเสียงตามผู้พูดอยู่ที่ 98% หรือมากกว่าสำหรับกลุ่มผู้พูดทุกกลุ่ม เนื่องจากผลลัพธ์ขึ้นอยู่กับ Transcribe, เวิร์กโฟลว์ของลูกค้า และชุดข้อมูลการประเมิน เราจึงแนะนำให้ลูกค้าทดสอบ Transcribe บนเนื้อหาของตนเองเพิ่มเติม

ความสามารถในการอธิบาย: เมื่อ Amazon Transcribe ถอดความเสียง ระบบจะสร้างการถอดเสียงเดียวกันในเวอร์ชันที่แตกต่างกันและกำหนดคะแนนความเชื่อมั่นให้กับแต่ละเวอร์ชัน หากลูกค้าเปิดใช้งานการถอดเสียงทางเลือก Amazon Transcribe จะส่งกลับการถอดเสียงเวอร์ชันอื่นๆ ที่มีระดับความเชื่อมั่นต่ำกว่าไปด้วย ลูกค้าสามารถสำรวจการถอดเสียงทางเลือกเพื่อรับข้อมูลเชิงลึกมากขึ้นเกี่ยวกับคำและวลีที่เป็นไปได้อื่นๆ ที่สร้างขึ้นตามอินพุตเสียงแต่ละรายการ

ความครอบคลุม: เราเพิ่มความครอบคลุมสูงสุดด้วยเทคนิคหลายอย่าง รวมถึงการใช้ชุดข้อมูลการฝึกขนาดใหญ่ที่บันทึกความแปรปรวนหลายประเภทของบุคคลจำนวนมาก อินพุตเสียงที่เหมาะสมสำหรับ Transcribe ASR ประกอบด้วยเสียงที่มีคุณภาพการบันทึกสูง เสียงพื้นหลังต่ำ และการสะท้อนเสียงในห้องต่ำ อย่างไรก็ตาม Transcribe ได้รับการฝึกให้มีความยืดหยุ่น แม้ว่าอินพุตจะแตกต่างจากสภาวะที่เหมาะสมและสามารถทำงานได้ดีในบริเวณที่มีเสียงดังรบกวนและผู้พูดหลายคน

ความเป็นส่วนตัวและความปลอดภัย: Amazon Transcribe ประมวลผลเฉพาะข้อมูลอินพุตเสียงเท่านั้น อินพุตเสียงจะไม่รวมอยู่ในเอาต์พุตที่บริการส่งกลับ เราจะไม่แบ่งปันอินพุตและเอาต์พุตกับลูกค้ารายอื่น ลูกค้าสามารถเลือกไม่เข้าร่วมการฝึกอบรมเกี่ยวกับเนื้อหาของลูกค้าได้ทาง AWS Organizations หรือวิธีไม่เข้าร่วมอื่นๆ ที่เราอาจมีให้ ดูข้อมูลเพิ่มเติมในส่วนที่ 50.3 ของข้อกำหนดการให้บริการ AWS และคำถามที่พบบ่อยเกี่ยวกับความเป็นส่วนตัวของข้อมูลบน AWS สำหรับข้อมูลความเป็นส่วนตัวและการรักษาความปลอดภัยเฉพาะบริการ โปรดดูส่วนความเป็นส่วนตัวของข้อมูลในคำถามที่พบบ่อยเกี่ยวกับ Transcribe และเอกสารประกอบสำหรับการรักษาความปลอดภัยของ Amazon Transcribe

ความโปร่งใส: เราขอแนะนำให้ลูกค้าที่รวม Amazon Transcribe ไว้ในเวิร์กโฟลว์เปิดเผยการใช้เทคโนโลยี ML และ ASR ให้กับผู้ใช้ปลายทางและบุคคลอื่นๆ ที่ได้รับผลกระทบจากการใช้งาน และให้ผู้ใช้ปลายทางสามารถให้ข้อเสนอแนะเพื่อปรับปรุงเวิร์กโฟลว์ได้ หากเหมาะสมสำหรับกรณีการใช้งาน ลูกค้ายังสามารถอ้างอิงบัตรบริการ AI นี้ได้ในเอกสารของพวกเขา

การกำกับดูแล: เรามีวิธีการที่เข้มงวดในการสร้างบริการ AWS AI ของเราอย่างรับผิดชอบ รวมไปถึงกระบวนการพัฒนาผลิตภัณฑ์ที่ทำงานย้อนกลับซึ่งรวม AI ที่รับผิดชอบในขั้นตอนการออกแบบ การให้คำปรึกษาด้านการออกแบบและการประเมินการใช้งานโดยผู้เชี่ยวชาญด้านวิทยาศาสตร์และข้อมูล AI ที่รับผิดชอบ การทดสอบตามปกติ การตรวจสอบร่วมกับลูกค้า และการพัฒนาแนวทางปฏิบัติที่ดีที่สุด การเผยแพร่ และการฝึกอบรมด้วย

แนวทางปฏิบัติที่ดีที่สุดในการนำไปใช้จริงและการเพิ่มประสิทธิภาพการทำงาน

เราสนับสนุนให้ลูกค้าสร้างและใช้งานแอปพลิเคชันของตนอย่างรับผิดชอบ ตามที่อธิบายไว้ใน คู่มือการใช้แมชชีนเลิร์นนิงอย่างรับผิดชอบ AWS ซึ่งรวมถึงการใช้แนวทางปฏิบัติ AI ที่รับผิดชอบเพื่อจัดการประเด็นที่สำคัญ ได้แก่ ความยุติธรรมและอคติ ความครอบคลุม ความสามารถในการอธิบาย ความเป็นส่วนตัวและความปลอดภัย ความโปร่งใส และการกำกับดูแล
 
การออกแบบเวิร์กโฟลว์: ประสิทธิภาพของแอปพลิเคชันใดๆ ที่ใช้ Transcribe ขึ้นอยู่กับการออกแบบเวิร์กโฟลว์ของลูกค้า สภาวะเช่นเสียงรบกวนพื้นหลัง อุปกรณ์บันทึก และอื่นๆ จะกล่าวถึงในส่วนกรณีการใช้งานที่ตั้งใจไว้ สภาวะเหล่านี้อาจได้รับการปรับให้เหมาะสมโดยลูกค้า Transcribe ซึ่งกำหนดเวิร์กโฟลว์ที่บันทึกเสียงจากผู้ใช้ปลายทาง ขึ้นอยู่กับแอปพลิเคชัน Transcribe มีคุณสมบัติสำหรับลูกค้าเพื่อเพิ่มประสิทธิภาพการจดจำภายใน API คุณสมบัติเหล่านี้รวมถึงสภาวะในการบันทึก อัตราของตัวอย่าง คำศัพท์ที่กำหนดเอง โมเดลภาษาที่กำหนดเอง และการกรองคำศัพท์หรือข้อมูลที่ระบุตัวบุคคลได้ (PII) การควบคุมดูแลของมนุษย์ ความสอดคล้องกันของเวิร์กโฟลว์ และการทดสอบการเปลี่ยนแปลงของประสิทธิภาพเป็นระยะ ยังเป็นข้อพิจารณาที่สำคัญที่อยู่ภายใต้การควบคุมของลูกค้า และนำไปสู่ผลลัพธ์ที่ถูกต้องและยุติธรรม
 
  1. สภาวะในการบันทึก: เวิร์กโฟลว์ควรมีขั้นตอนในการจัดการกับความแปรปรวนของสภาวะในการบันทึก เช่น การพูดห่างจากไมโครโฟนหรือในสภาวะที่มีเสียงดังรบกวน หากความแปรปรวนสูง ให้พิจารณาให้ความช่วยเหลือและคำแนะนำที่ผู้ใช้ปลายทางทุกคนสามารถเข้าถึงได้ และตรวจสอบคุณภาพการบันทึกโดยการตรวจตัวอย่างอินพุตทั้งแบบเป็นระยะและแบบสุ่ม

  2. อัตราของตัวอย่าง: ลูกค้ามีพารามิเตอร์เสริมเพื่อระบุอัตราตัวอย่างของเสียงอินพุต ไม่ว่าจะเป็นอินพุตแบนด์วิดท์ที่ต่ำกว่า (8kHZ) หรือบรอดแบนด์ (16kHz)

  3. คำศัพท์ที่กำหนดเอง: Transcribe จดจำคำศัพท์ที่ใช้ในชุมชนผู้พูดที่หลากหลาย (ภูมิภาคภาษาถิ่น, กลุ่มประชากร) ในกรณีที่ลูกค้าต้องการให้การสนับสนุนเพิ่มเติมสำหรับคำที่เฉพาะเจาะจงตามขอบเขตหรือสถานการณ์ของตน เช่น ชื่อแบรนด์ หรือคำนามเฉพาะและคำย่อ ลูกค้าสามารถปรับใช้คำศัพท์ที่กำหนดเองเพื่อปรับปรุงความแม่นยำในการถอดเสียงสำหรับคำดังกล่าวได้ สำหรับข้อมูลเพิ่มเติม โปรดดูเอกสารสำหรับ คำศัพท์ที่กำหนดเอง

  4. โมเดลภาษาที่กำหนดเอง: เมื่อแอปพลิเคชันของลูกค้าต้องจัดการคำพูดที่เฉพาะเจาะจงตามขอบเขตซึ่งมีความซับซ้อนมากกว่าคำเดี่ยวๆ ลูกค้าสามารถใช้โมเดลภาษาที่กำหนดเองเพื่อปรับปรุงความแม่นยำในการถอดเสียงได้ ตัวอย่างเช่น เมื่อถอดเสียงการบันทึกการพูดคุยทางภูมิอากาศวิทยา อาจเป็นไปได้ที่จะเพิ่มความแม่นยำในการถอดเสียงโดยเรียนรู้บริบทที่คำปรากฏขึ้น (เช่น “ice flow” กับ “ice floe”) ในกรณีนี้ลูกค้าสามารถฝึกโมเดลภาษาที่กำหนดเองเพื่อรับรู้คำศัพท์เฉพาะได้ สำหรับข้อมูลเพิ่มเติม โปรดดูเอกสารสำหรับ โมเดลภาษาที่กำหนดเอง

  5. การกรองคำศัพท์และการตรวจทาน PII: การเพิ่มประสิทธิภาพเหล่านี้สามารถปรับปรุงความปลอดภัยและความเป็นส่วนตัวของภาษาที่ผลิตจากการถอดเสียงได้ การกรองคำศัพท์ช่วยให้ลูกค้าสามารถปกปิดหรือลบคำที่ละเอียดอ่อนหรือไม่เหมาะกับผู้ชมออกจากผลการถอดเสียง โดยอิงจากรายการที่กำหนดโดยลูกค้า การตรวจทาน PII ช่วยให้ลูกค้าสามารถสร้างสคริปต์ที่ PII ถูกนำออก โดยอิงจากประเภท PII ที่ระบุโดย Transcribe — Batch (อังกฤษ-สหรัฐอเมริกา) ซึ่งรวมถึงชื่อ, ที่อยู่, หมายเลขบัตรเครดิต, SSN และอื่นๆ สำหรับข้อมูลเพิ่มเติม รวมถึงรายการประเภท PII ทั้งหมดและข้อพิจารณาเกี่ยวกับการใช้การตรวจทาน PII สำหรับเวิร์กโหลดที่มีการควบคุม โปรดดูเอกสารสำหรับการกรองคำศัพท์และสำหรับการตรวจทาน PII

  6. การกำกับดูแลของมนุษย์: หากเวิร์กโฟลว์แอปพลิเคชันของลูกค้าเกี่ยวข้องกับกรณีการใช้งานที่มีความเสี่ยงสูงหรือมีความละเอียดอ่อน เช่น การตัดสินใจที่มีผลต่อสิทธิหรือการเข้าถึงบริการที่สำคัญของบุคคล เราขอแนะนำให้มีการตรวจสอบจากมนุษย์ไว้ในเวิร์กโฟลว์แอปพลิเคชันตามความเหมาะสมด้วย ระบบ ASR สามารถทำหน้าที่เป็นเครื่องมือในการลดความพยายามที่เกิดขึ้นจากการแก้ปัญหาด้วยตนเองได้อย่างเต็มรูปแบบ และช่วยให้มนุษย์สามารถตรวจสอบและประเมินเนื้อหาเสียงได้อย่างรวดเร็ว

  7. ความสอดคล้องกัน: ลูกค้าควรกำหนดและบังคับใช้นโยบายสำหรับประเภทของการปรับแต่งเวิร์กโฟลว์และอินพุตเสียงที่ได้รับอนุญาต และสำหรับวิธีที่มนุษย์ใช้การตัดสินของตนเองในการประเมินเอาต์พุตของ Transcribe นโยบายเหล่านี้ควรมีความสอดคล้องกันในกลุ่มประชากร การปรับแต่งอินพุตเสียงที่ไม่มีความสอดคล้องกันอาจส่งผลให้เกิดผลลัพธ์ที่ไม่ยุติธรรมสำหรับกลุ่มประชากรที่แตกต่างกัน

  8. การเปลี่ยนแปลงของประสิทธิภาพ: การเปลี่ยนแปลงประเภทของเสียงที่ลูกค้าส่งไปยัง Transcribe หรือการเปลี่ยนแปลงบริการอาจนำไปสู่ผลลัพธ์ที่แตกต่างกัน เพื่อจัดการกับการเปลี่ยนแปลงเหล่านี้ ลูกค้าควรพิจารณาทดสอบประสิทธิภาพของ Transcribe ซ้ำเป็นระยะๆ และปรับเวิร์กโฟลว์ หากจำเป็น

ข้อมูลเพิ่มเติม

อภิธานศัพท์

ความยุติธรรมและอคติ หมายถึงวิธีที่ระบบ AI ส่งผลกระทบต่อกลุ่มย่อยของผู้ใช้ที่แตกต่างกัน (เช่น ตามเพศ เชื้อชาติ)

ความสามารถในการอธิบายได้ หมายถึงการมีกลไกในการทำความเข้าใจและประเมินผลลัพธ์ของระบบ AI

ความครอบคลุม หมายถึงการมีกลไกเพื่อให้แน่ใจว่าระบบ AI ทำงานได้อย่างน่าเชื่อถือ

ความเป็นส่วนตัวและความปลอดภัย หมายถึงข้อมูลที่ได้รับการปกป้องจากการโจรกรรมและการถูกเปิดเผย

การกำกับดูแล หมายถึงการมีกระบวนการในการกำหนด การนำไปใช้ และบังคับใช้แนวปฏิบัติ AI ที่ผิดชอบภายในองค์กร

ความโปร่งใส หมายถึงการสื่อสารข้อมูลเกี่ยวกับระบบ AI เพื่อให้ผู้มีส่วนได้ส่วนได้เสียมีข้อมูลในการเลือกใช้อุปกรณ์ได้