Gambaran Umum

Layanan Amazon Textract mengekstrak teks cetak, tulisan tangan, dan data terstruktur dari gambar dokumen. Dalam layanan ini, fitur AnalyzeID membaca dan mengekstrak data teks terstruktur dari gambar dokumen identitas, saat ini termasuk SIM AS dan paspor AS. Fitur ini memudahkan pelanggan untuk mengotomatiskan dan mempercepat pemrosesan dokumen mereka.

AnalyzeID berfungsi pada teks yang muncul dalam dokumen identitas untuk memprediksi pasangan kunci-nilai eksplisit dan tersirat. AnalyzeID dapat mengekstrak pasangan kunci-nilai eksplisit, yang kuncinya (“Tanggal Penerbitan”) muncul di dokumen dan selaras dengan nilainya (“03/18/2018”), dan pasangan kunci-nilai tersirat yang mungkin tidak memiliki kunci eksplisit yang muncul di sampingnya (“María” muncul di bagian tengah SIM, tetapi tidak ditandai sebagai “Nama Depan”). Layanan ini menormalkan pasangan kunci-nilai menjadi taksonomi umum dari 21 kunci yang diketahui, sehingga pelanggan dapat membandingkan informasi di semua jenis kartu identitas. Misalnya, layanan mengekstrak LIC# dari SIM dan Nomor Paspor dari paspor AS, dengan melabeli keduanya sebagai “Nomor ID Dokumen.” Untuk mengevaluasi keakuratan AnalyzeID, kami membandingkan prediksi ini dengan kebenaran dasar. Kunci dan nilai kebenaran dasar dikoreksi oleh annotator manusia. Setiap pasangan kunci-nilai yang diprediksi disebut berhasil jika prediksi cocok dengan kebenaran dasar, dan gagal jika sebaliknya. Metrik kualitas, seperti presisi, ingatan, dan F1 bergantung pada jumlah keberhasilan dan kegagalan.

Dokumen identitas berbeda antaryurisdiksi (SIM Virginia berbeda dengan SIM California) dan di dalam yurisdiksi, karena setiap yurisdiksi mengembangkan dokumen mereka dari waktu ke waktu. Setiap versi dokumen identifikasi dapat berbeda menurut kunci yang disertakan dan nilai yang diizinkan untuk setiap kunci. Ada juga faktor (disebut “variasi perancu”) yang mempersulit pengenalan. Desain dokumen bisa saja memiliki desain grafis kompleks yang mengaburkan teks, dan plastik mengkilap atau laminasi lainnya yang menutupi teks. Dokumen dapat mengalami keausan, misalnya karena dibawa dalam dompet atau saku, yang memudarkan informasi penting. Terakhir, gambar dokumen mungkin kurang pencahayaan, tertutupi (seperti di bagian tangan yang memegang dokumen selama pengambilan gambar), atau memiliki fokus yang kurang baik. AnalyzeID dirancang untuk mengenali teks dalam gambar dokumen tersebut, dengan mengabaikan variasi perancu.

Kasus dan batasan penggunaan yang dimaksudkan

AnalyzeID dibuat untuk digunakan pada SIM yang dikeluarkan oleh negara bagian AS dan paspor yang dikeluarkan oleh pemerintah AS. Fitur ini belum disiapkan untuk digunakan pada dokumen yang dikeluarkan oleh pemerintah teritorial (misalnya Puerto Rico) atau pada bentuk dokumen identifikasi lain, seperti kartu masuk global atau akta kelahiran. AnalyzeID mendukung dokumen yang dikeluarkan dalam lima belas tahun terakhir (2007). Dukungan ini mencakup sekitar tiga iterasi pembaruan desain tingkat negara bagian, yang dilakukan kira-kira setiap lima tahun. Kerangka waktu ini mendukung semua dokumen yang belum kedaluwarsa; SIM AS kedaluwarsa paling lama dua belas tahun, dan paspor AS kedaluwarsa paling lama sepuluh tahun.

AnalyzeID memungkinkan langkah ekstraksi teks dalam berbagai aplikasi yang dikembangkan pelanggan. Aplikasi tersebut biasanya mendukung pengguna akhir dalam menyelesaikan tugas online. Misalnya aplikasi layanan keuangan dapat mendaftarkan pengguna baru dengan lebih sedikit pengetikan dan kesalahan dengan memungkinkan pengguna untuk memindai isi SIM. Demikian pula, aplikasi perawatan kesehatan dapat memungkinkan pengguna untuk mengonfirmasi alamat atau informasi akun lainnya secara lebih cepat dan dengan lebih sedikit kesalahan saat menjadwalkan janji temu. Aplikasi dibedakan terutama oleh 1/pasangan kunci-nilai yang relevan, 2/proses pengambilan gambar yang digunakan, dan 3/resolusi gambar yang dikirimkan. Saat menyertakan AnalyzeID ke alur kerja aplikasi apa pun, pelanggan harus menilai kebutuhan akan pengawasan manusia dan mendukung peninjauan output AnalyzeID oleh peninjau manusia sesuai kebutuhan.

Desain Textract AnalyzeID

Machine Learning: AnalyzeID dibangun menggunakan teknologi ML dan pengenalan karakter optik (OCR). Cara kerja fitur ini adalah sebagai berikut: AnalyzeID mengambil gambar dokumen identitas sebagai input. Model OCR mengidentifikasi teks dalam dokumen. Model kedua yang menerapkan pembelajaran mesin memproses gambar dokumen lengkap ditambah output OCR untuk mengembalikan nama dan isi bidang sebagai pasangan kunci-nilai. Lihat dokumentasi developer untuk detail panggilan API.

Harapan kinerja: Variasi perancu berbeda antaraplikasi pelanggan. Artinya kinerja juga akan berbeda antaraplikasi. Pertimbangkan dua aplikasi verifikasi nama dan alamat yang berbeda, yakni A dan B. Aplikasi A memungkinkan agen keamanan bangunan untuk membandingkan nama dan alamat pada SIM pengunjung dengan nama dan alamat orang yang diharapkan akan mengunjungi lokasi. Aplikasi B memungkinkan perekrut untuk mengumpulkan informasi pribadi pelamar selama wawancara video. Dengan A, agen keamanan bangunan menggunakan pemindai dokumen ID perusahaan untuk mengambil gambar SIM yang cukup terang, memiliki fokus tajam, dan tidak tertutupi. Dengan B, orang yang diwawancarai menggunakan webcam mereka sendiri untuk mengambil gambar SIM saat mereka memegangnya, yang meningkatkan risiko gambar kabur, terlalu terang, dan tertutupi. Karena A dan B memiliki kualitas gambar input yang berbeda dengan perangkat dan proses pengambilan gambar yang berbeda, keduanya kemungkinan akan memiliki tingkat kesalahan yang berbeda, bahkan dengan asumsi bahwa deploy setiap aplikasi dilakukan secara sempurna menggunakan Textract.

Metodologi berbasis tes: Kami menggunakan beberapa set data untuk mengevaluasi kinerja. Tidak ada set data evaluasi tunggal yang memberikan gambaran mutlak kinerja. Alasannya set data evaluasi bervariasi berdasarkan susunan demografinya (jumlah dan jenis kelompok yang ditentukan), jumlah variasi perancu (kualitas konten, kesesuaian dengan tujuan), jenis dan kualitas label yang tersedia, dan faktor lainnya. Kami mengukur kinerja Textract dengan mengujinya pada set data evaluasi yang berisi gambar dokumen identitas. Kinerja keseluruhan pada set data diwakili oleh skor F1 (F1), yang menyeimbangkan persentase bidang yang diprediksi yang benar (presisi) terhadap persentase bidang yang benar yang termasuk dalam prediksi (ingatan). Skor F1 dibatasi oleh kisaran [0,1]. Jika ambang batas kepercayaan diri pada pasangan nilai kunci diubah, skor F1 akan ikut berubah. Grup dalam set data dapat ditentukan oleh atribut utama (seperti yurisdiksi, panjang nama belakang), variabel perancu (seperti tata letak desain grafis, kualitas gambar), atau kombinasi dari keduanya. Set data evaluasi bervariasi di antara faktor-faktor tersebut dan faktor lainnya. Karena itu, skor F1 – baik keseluruhan maupun untuk grup – bervariasi di setiap data set. Dengan mempertimbangkan variasi ini, proses pengembangan kami menyelidiki kinerja AnalyzeID menggunakan beberapa kumpulan data evaluasi, mengambil langkah-langkah untuk meningkatkan F1 untuk grup tempat AnalyzeID berkinerja paling buruk, berupaya untuk meningkatkan rangkaian set data evaluasi, dan kemudian mengulangi.

Keadilan dan bias: Target kami adalah AnalyzeID mampu mengekstrak bidang teks dari dokumen identitas dengan akurasi tinggi terlepas dari yurisdiksi SIM atau atribut demografis orang yang diwakili oleh dokumen tersebut. Untuk mencapainya, kami menerapkan proses pengembangan berulang yang dijelaskan di atas. Sebagai bagian dari proses ini, kami membuat set data untuk menangkap berbagai yurisdiksi (negara bagian AS) dan templat yang ditangani oleh AnalyzeID, di bawah berbagai kondisi terkait kualitas gambar. Kami secara rutin menguji set data gambar dokumen yang memiliki pasangan kunci-nilai yang andal. Kami menemukan bahwa AnalyzeID berkinerja baik di seluruh atribut yurisdiksi dan demografis. Misalnya pada kumpulan data internal yang berisi sisi depan SIM AS dari 50 negara bagian, akurasi F1 terendah di antara negara bagian adalah 95%, dan F1 terendah untuk kelompok demografis yang ditentukan oleh usia, status veteran, dan panjang nama belakang adalah 99%. Karena hasil tidak hanya bergantung pada AnalyzeID, tetapi juga pada alur kerja pelanggan dan set data evaluasi, sebaiknya pelanggan menguji AnalyzeID pada konten mereka sendiri.

Kemampuan Menjelaskan: Pelanggan memiliki akses ke skor kepercayaan diri untuk setiap bidang teks, yang dapat mereka manfaatkan untuk ambang batas kepercayaan diri serta pemahaman yang lebih baik tentang output AnalyzeID. Kunci yang diprediksi memberikan wawasan tentang prediksi untuk nilai tersebut.

Ketahanan: Kami memaksimalkan ketahanan dengan sejumlah teknik, termasuk menggunakan set data pelatihan besar yang menangkap berbagai jenis variasi di banyak dokumen. Input ideal ke AnalyzeID berisi gambar yang secara relatif tidak berbayang, terlalu terang, atau terlihat jelas karena alasan lainnya, dengan dokumen berorientasi tegak di dalam bingkai gambar. Namun, model AnalyzeID dilatih agar tetap tangguh meski input tidak memiliki kondisi ideal.

Privasi dan keamanan: AnalyzeID menangkap gambar dan memproses teks. Input dan output tidak akan dibagikan di antara pelanggan.  Pelanggan dapat memilih tidak mengikuti pelatihan tentang konten pelanggan melalui AWS Organizations atau mekanisme pilihan tidak mengikuti lainnya yang mungkin kami sediakan. Lihat Bagian 50.3 dari Ketentuan Layanan AWS dan FAQ Privasi Data AWS untuk informasi selengkapnya. Untuk informasi privasi dan keamanan spesifik layanan, lihat bagian Privasi Data dari FAQ Textract dan dokumentasi Keamanan Amazon Textract.

Transparansi: Jika sesuai untuk kasus penggunaan mereka, pelanggan yang menyertakan AnalyzeID dalam alur kerja mereka harus mempertimbangkan untuk mengungkapkan penggunaan ML kepada pengguna akhir dan individu lain yang terkena dampak dari aplikasi, serta memungkinkan pengguna akhir mereka untuk memberikan umpan balik guna meningkatkan alur kerja. Dalam dokumentasi mereka, pelanggan juga dapat mereferensikan Kartu Layanan AI ini.

Tata kelola: Kami memiliki metodologi yang ketat untuk membangun layanan AI AWS dengan cara yang bertanggung jawab, termasuk proses pengembangan produk beralur mundur yang menggabungkan AI yang Bertanggung Jawab pada tahap desain, konsultasi desain, dan penilaian implementasi oleh pakar sains dan data khusus AI yang Bertanggung Jawab, pengujian rutin, peninjauan dengan pelanggan, pengembangan praktik terbaik, penyebaran informasi, dan pelatihan.

Praktik terbaik deployment dan pengoptimalan kinerja

Kami mendorong pelanggan untuk membangun dan mengoperasikan aplikasi mereka secara bertanggung jawab, seperti yang dijelaskan dalam panduan Penggunaan Machine Learning yang Bertanggung Jawab dari AWS. Hal ini termasuk menerapkan praktik AI yang bertanggung jawab untuk menangani dimensi utama termasuk keadilan dan bias, ketahanan, kemampuan menjelaskan, privasi dan keamanan, transparansi, dan tata kelola.
 
Desain Alur Kerja: Kami mendefinisikan kinerja sebagai pengalaman pengguna akhir yang berinteraksi dengan aplikasi yang dikembangkan pelanggan dan menyertakan AnalyzeID untuk ekstraksi teks. Kinerja aplikasi apa pun yang menggunakan AnalyzeID bergantung pada desain alur kerja pelanggan, termasuk: (1) variasi gambar, (2) ambang batas kepercayaan diri, (3) pengawasan manusia, (4) konsistensi alur kerja, dan (5) pengujian berkala terkait penyimpangan kinerja.
 
  1. Variasi gambar: Gambar ideal secara relatif tidak berbayang, terlalu terang. atau terlihat jelas karena alasan lainnya, dengan gambar dokumen yang ditangkap pada sudut langsung dan berorientasi tegak di dalam bingkai gambar. Pelanggan dapat mendukung pengguna akhir mereka dengan panduan yang tepat untuk menangkap gambar yang bagus.

  2. Ambang kepercayaan diri: Pelanggan dapat menyesuaikan kinerja dengan menetapkan filter atau ambang batas pada pasangan nilai kunci yang dihasilkan AnalyzeID, berdasarkan skor kepercayaan diri yang ditetapkan untuk pasangan tersebut. Untuk presisi yang lebih baik, pilih ambang batas yang tinggi. Untuk mengingat yang lebih baik, pilih ambang batas yang lebih rendah. Untuk mengatur ambang batas yang sesuai, pelanggan dapat mengumpulkan set input yang representatif, melabeli bidang teks masing-masing, dan mencoba ambang batas yang lebih tinggi atau lebih rendah sampai pengalaman pengguna yang diinginkan tercapai.

  3. Pengawasan manusia: Jika alur kerja aplikasi pelanggan melibatkan kasus penggunaan yang berisiko tinggi atau sensitif, seperti keputusan yang berdampak pada hak individu atau akses ke layanan penting, peninjauan manusia harus dimasukkan ke alur kerja aplikasi jika sesuai. Ekstraksi nilai-kunci otomatis dengan AnalyzeID dapat berfungsi sebagai alat untuk mengurangi upaya dari solusi yang sepenuhnya manual, dan agar manusia dapat meninjau serta menilai dokumen identitas dengan cepat.

  4. Konsistensi: Pelanggan harus menetapkan dan menegakkan kebijakan untuk jenis gambar input yang diizinkan, dan untuk cara manusia menggabungkan penggunaan ambang batas kepercayaan diri dan penilaian mereka sendiri dalam menentukan hasil akhir. Kebijakan ini harus konsisten di seluruh kelompok demografis. Modifikasi gambar input atau ambang batas kepercayaan diri yang tidak konsisten dapat mengakibatkan hasil yang tidak adil bagi kelompok demografis yang berbeda.

  5. Penyimpangan kinerja: Perubahan jenis gambar yang dikirimkan pelanggan ke AnalyzeID, atau perubahan pada layanan, dapat berujung pada output yang berbeda. Untuk mengatasi perubahan ini, pelanggan harus mempertimbangkan untuk menguji ulang kinerja Textract secara berkala, dan menyesuaikan alur kerja mereka bila perlu.

Informasi lebih lanjut

Glosarium

Keadilan dan Bias merujuk pada cara sistem AI memengaruhi subpopulasi pengguna yang berbeda (misalnya berdasarkan jenis kelamin, etnis).

Kemampuan Menjelaskan merujuk pada memiliki mekanisme untuk memahami dan mengevaluasi output dari sistem AI.

Ketahanan merujuk pada memiliki mekanisme untuk memastikan sistem AI beroperasi dengan andal.

Privasi dan Keamanan merujuk pada data yang dilindungi dari pencurian dan paparan.

Tata Kelola merujuk pada proses untuk menentukan, menerapkan, dan menegakkan praktik AI yang bertanggung jawab dalam suatu organisasi.

Transparansi merujuk pada mengomunikasikan informasi tentang sistem AI sehingga pemangku kepentingan dapat membuat pilihan terbaik terkait penggunaan sistem mereka.