Thị giác máy tính là gì?
Thị giác máy tính là một công nghệ mà máy sử dụng để tự động nhận biết và mô tả hình ảnh một cách chính xác và hiệu quả. Ngày nay, các hệ thống máy tính có quyền truy cập vào khối lượng lớn hình ảnh và dữ liệu video bắt nguồn từ hoặc được tạo bằng điện thoại thông minh, camera giao thông, hệ thống bảo mật và các thiết bị khác. Ứng dụng thị giác máy tính sử dụng trí tuệ nhân tạo và máy học (AI/ML) để xử lý dữ liệu này một cách chuẩn xác cho việc xác định đối tượng và nhận diện khuôn mặt, cũng như phân loại, đề xuất, giám sát và phát hiện.
Tại sao thị giác máy tính lại quan trọng?
Tuy rằng công nghệ xử lý thông tin hình ảnh đã xuất hiện từ lâu nhưng phần lớn quy trình vẫn đòi hỏi sự can thiệp của con người, tốn nhiều thời giờ và dễ bị lỗi. Ví dụ: việc triển khai hệ thống nhận diện khuôn mặt trước đây yêu cầu nhà phát triển phải gắn thẻ thủ công hàng ngàn hình ảnh bằng các điểm dữ liệu chính, chẳng hạn như chiều rộng sống mũi và khoảng cách giữa hai mắt. Tự động hóa các tác vụ này đòi hỏi sức mạnh điện toán rộng lớn vì dữ liệu hình ảnh không có cấu trúc và phức tạp để máy tính có thể sắp xếp. Do đó, ứng dụng thị giác tốn kém và hầu hết các tổ chức không thể tiếp cận.
Ngày nay, tiến bộ trong lĩnh vực này kết hợp với sự tăng cường đáng kể của sức mạnh điện toán đã cải thiện cả quy mô và độ chính xác của quy trình xử lý dữ liệu hình ảnh. Các hệ thống thị giác máy tính được hỗ trợ bởi tài nguyên điện toán đám mây hiện giờ trở nên dễ tiếp cận với tất cả mọi người. Bất kỳ tổ chức nào cũng có thể sử dụng công nghệ này để xác minh danh tính, kiểm duyệt nội dung, phân tích video phát trực tuyến, phát hiện lỗi và nhiều tính năng khác.
Các trường hợp sử dụng của thị giác máy tính là gì?
Nhiều ứng dụng thị giác máy tính được sử dụng trong lĩnh vực giải trí, kinh doanh, chăm sóc sức khỏe, giao thông vận tải và cuộc sống hàng ngày. Hãy cùng xem xét một số trường hợp sử dụng dưới đây:
Bảo mật và an toàn
Chính phủ và doanh nghiệp sử dụng thị giác máy tính để tăng cường bảo mật tài sản, cơ sở và trang thiết bị. Ví dụ: camera và cảm biến giám sát các không gian công cộng, cơ sở công nghiệp và môi trường bảo mật cao. Các thiết bị này gửi cảnh báo tự động nếu có điều gì bất thường xảy ra, chẳng hạn như một người đột nhập trái phép vào khu vực bị hạn chế.
Tương tự, thị giác máy tính có thể nâng cao tính an toàn cá nhân tại nhà cũng như tại nơi làm việc. Ví dụ: công nghệ nhận dạng có thể giám sát vô số các vấn đề liên quan đến an toàn, bao gồm các luồng thời gian thực tại nhà phát hiện thú cưng, hoặc camera trực tiếp trước cửa phát hiện khách ghé thăm hoặc gói hàng được giao. Tại nơi làm việc, tác vụ giám sát này bao gồm việc nhân viên mang thiết bị bảo hộ cá nhân thích hợp, cung cấp thông tin cho hệ thống cảnh báo hoặc tạo báo cáo.
Hiệu quả hoạt động
Thị giác máy tính có thể phân tích hình ảnh và trích xuất siêu dữ liệu cho nghiệp vụ thông minh, từ đó tạo ra hiệu quả hoạt động và các cơ hội doanh thu mới. Ví dụ, công nghệ này có thể:
- Tự động xác định các khiếm khuyết về chất lượng trước khi sản phẩm rời khỏi nhà máy
- Phát hiện các vấn đề an toàn và bảo trì máy móc
- Phân tích hình ảnh trên các kênh truyền thông xã hội để khám phá các xu hướng và kiểu mẫu trong hành vi của khách hàng
- Xác thực nhân viên bằng nhận diện khuôn mặt tự động
Chăm sóc sức khỏe
Y tế là một trong những ngành đi đầu trong áp dụng công nghệ thị giác máy tính. Đáng chú ý, phân tích hình ảnh y khoa tạo hiển thị trực quan mô và các cơ quan giúp chuyên gia y tế chẩn đoán nhanh và chính xác, từ đó cải thiện kết quả điều trị và kéo dài tuổi thọ. Ví dụ:
- Phát hiện khối u thông qua phân tích nốt ruồi và tổn thương trên da
- Phân tích tia X tự động
- Phát hiện triệu chứng từ phép chụp MRI
Phương tiện tự hành
Công nghệ xe tự hành sử dụng thị giác máy tính để nhận biết hình ảnh theo thời gian thực và xây dựng bản đồ 3D từ nhiều camera được trang bị cho vận chuyển tự động. Phương tiện tự hành có khả năng phân tích hình ảnh và xác định những người đi đường khác, biển báo trên đường, người đi bộ hoặc chướng ngại vật.
Ở các phương tiện bán tự hành, thị giác máy tính sử dụng máy học (ML) để giám sát hành vi của người lái. Ví dụ: nó tìm kiếm các dấu hiệu phân tâm, mệt mỏi và buồn ngủ dựa theo vị trí đầu của người lái xe, theo dõi mắt và chuyển động của phần trên cơ thể. Nếu công nghệ nhận được một số dấu hiệu cảnh báo nhất định, nó sẽ cảnh báo cho người lái xe và giảm nguy cơ xảy ra sự cố khi lái xe.
Nông nghiệp
Ứng dụng thị giác máy tính tăng cường hoạt động tổng thể của ngành nông nghiệp, từ tăng năng suất đến giảm chi phí với công nghệ tự động hóa thông minh. Hình ảnh vệ tinh cũng như cảnh quay UAV giúp phân tích các vùng đất rộng lớn và cải thiện các phương pháp canh tác. Ứng dụng thị giác máy tính tự động hóa các tác vụ như giám sát tình trạng ruộng đồng, xác định bệnh ở cây trồng, kiểm tra độ ẩm của đất và dự đoán thời tiết cũng như năng suất cây trồng. Giám sát động vật bằng thị giác máy tính là một chiến lược canh tác thông minh quan trọng khác.
Thị giác máy tính hoạt động như thế nào?
Hệ thống thị giác máy tính sử dụng công nghệ trí tuệ nhân tạo (AI) để bắt chước khả năng của não người trong việc nhận biết đối tượng và phân loại đối tượng. Các nhà khoa học máy tính đào tạo máy tính nhận biết dữ liệu hình ảnh bằng cách nhập khối lượng lớn thông tin. Thuật toán máy học (ML) xác định các kiểu mẫu thông thường trong những hình ảnh hoặc video này và áp dụng kiến thức đó để xác định chính xác những hình ảnh chưa biết. Ví dụ: nếu máy tính xử lý hàng triệu hình ảnh ô tô, chúng sẽ bắt đầu xây dựng kiểu mẫu nhận dạng và có thể phát hiện chính xác phương tiện trong một hình ảnh. Thị giác máy tính sử dụng các công nghệ như được đưa ra dưới đây.
Học sâu
Học sâu là một loại ML sử dụng mạng nơ-ron. Các mạng nơ-ron học sâu được tạo thành từ nhiều lớp mô-đun phần mềm, được gọi là nơ-ron nhân tạo, hoạt động cùng nhau bên trong máy tính. Mạng nơ-ron sử dụng các phép tính toán học để tự động xử lý các khía cạnh khác nhau của dữ liệu hình ảnh và dần dần xây dựng sự hiểu biết kết hợp về hình ảnh.
Mạng nơ-ron tích chập
Mạng nơ-ron tích chập (CNN) sử dụng hệ thống ghi nhãn để phân loại dữ liệu hình ảnh và hiểu toàn bộ hình ảnh. Mạng nơ-ron này phân tích hình ảnh dưới dạng điểm ảnh và cung cấp cho mỗi điểm ảnh một giá trị nhãn. Giá trị được nhập vào để thực hiện một phép toán gọi là phép nhân chập và đưa ra các dự đoán về hình ảnh. Giống như một người cố gắng nhận biết một đối tượng ở khoảng cách xa, CNN trước tiên sẽ xác định đường nét và hình dạng đơn giản trước khi điền vào các chi tiết bổ sung như màu sắc, hình thức bên trong và kết cấu. Cuối cùng, nó lặp lại quy trình dự đoán qua nhiều lần lặp để nâng cao độ chính xác.
Mạng nơ-ron hồi quy
Mạng nơ-ron hồi quy (RNN) tương tự như CNN, nhưng chúng có thể xử lý một loạt hình ảnh để tìm mối liên kết giữa các ảnh đó. Trong khi CNN được sử dụng để phân tích hình ảnh đơn lẻ, thì RNN có thể phân tích video và hiểu được mối liên hệ giữa các hình ảnh.
Điểm khác biệt giữa thị giác máy tính và xử lý hình ảnh là gì?
Xử lý hình ảnh sử dụng các thuật toán để chỉnh sửa ảnh, bao gồm làm sắc nét, làm mịn, lọc hoặc tăng cường. Thị giác máy tính thì khác vì nó không làm thay đổi hình ảnh, mà thay vào đó hiểu những gì nó nhìn thấy và thực hiện một tác vụ, chẳng hạn như gắn nhãn. Trong một số trường hợp, bạn có thể sử dụng xử lý hình ảnh để sửa đổi hình ảnh sao cho hệ thống thị giác máy tính có thể hiểu rõ hơn về hình ảnh đó. Trong các trường hợp khác, bạn sử dụng thị giác máy tính để xác định hình ảnh hoặc các phần của một hình ảnh rồi sau đó sử dụng xử lý hình ảnh để sửa đổi hình ảnh.
Thị giác máy tính có thể thực hiện những tác vụ phổ biến nào?
Hãy xem xét một số ví dụ về tác vụ thị giác máy tính mà các tổ chức có thể thực hiện dưới đây.
Phân loại hình ảnh
Phân loại hình ảnh cho phép máy tính quan sát và phân loại chính xác một hình ảnh thuộc loại nào. Thị giác máy tính hiểu rõ và gắn nhãn các loại, ví dụ như cây cối, máy bay hoặc tòa nhà. Một ví dụ là camera có thể nhận diện khuôn mặt trong ảnh và lấy nét khuôn mặt.
Nhận diện vật thể
Phát hiện đối tượng là một tác vụ thị giác máy tính nhằm phát hiện và bản địa hóa hình ảnh. Tác vụ này sử dụng phân loại để xác định, sắp xếp và tổ chức hình ảnh. Phát hiện đối tượng được sử dụng để điều khiển các ứng dụng tự động và giám sát dây chuyền sản xuất trong các quy trình công nghiệp và sản xuất. Các nhà cung cấp dịch vụ và nhà sản xuất camera gia đình kết nối cũng dựa vào phát hiện đối tượng để xử lý các luồng video trực tiếp từ camera để phát hiện người và vật thể trong thời gian thực cũng như đưa ra các cảnh báo hữu ích cho người dùng cuối.
Theo dõi đối tượng
Theo dõi đối tượng sử dụng mô hình học sâu để xác định và theo dõi các mục thuộc danh mục. Tác vụ này có nhiều ứng dụng thực tế trong nhiều ngành. Yếu tố đầu tiên của theo dõi đối tượng là phát hiện đối tượng; đối tượng có một ô viền quanh được tạo xung quanh, được gán một ID đối tượng và được theo dõi thông qua các khung hình. Ví dụ: có thể sử dụng theo dõi đối tượng để giám sát giao thông trong môi trường đô thị, giám sát con người và chụp ảnh y khoa.
Phân đoạn
Phân đoạn là một thuật toán thị giác máy tính có khả năng xác định đối tượng bằng cách chia hình ảnh đối tượng thành các vùng khác nhau dựa trên các điểm ảnh quan sát được. Phân đoạn cũng đơn giản hóa một hình ảnh, chẳng hạn như đặt một hình dạng hoặc đường nét của một mục để xác định đó là gì. Bằng cách đó, phân đoạn cũng nhận ra nếu có nhiều hơn một đối tượng trong hình ảnh hoặc khung hình.
Ví dụ: nếu có một con mèo và một con chó trong hình ảnh, có thể dùng phân đoạn để nhận biết hai con vật. Không giống như phát hiện đối tượng, trong đó xây dựng một ô xung quanh đối tượng, phân đoạn theo dõi các điểm ảnh để xác định hình dạng của đối tượng, giúp phân tích và gắn nhãn dễ dàng hơn.
Truy xuất hình ảnh dựa trên nội dung
Truy xuất hình ảnh dựa trên nội dung là một ứng dụng của kỹ thuật thị giác máy tính, có khả năng tìm kiếm các hình ảnh kỹ thuật số cụ thể trong cơ sở dữ liệu lớn. Ứng dụng này phân tích các siêu dữ liệu như thẻ, thông tin mô tả, nhãn và từ khóa. Truy xuất ngữ nghĩa sử dụng các lệnh như ‘tìm ảnh tòa nhà’ để truy xuất nội dung thích hợp.
AWS giúp bạn thực hiện các tác vụ thị giác máy tính bằng cách nào?
AWS cung cấp bộ dịch vụ trí tuệ nhân tạo và máy học (AI/ML) bao quát nhất và hoàn thiện nhất được kết nối với một tập hợp nguồn dữ liệu toàn diện cho khách hàng ở mọi cấp độ chuyên môn.
Đối với khách hàng đang xây dựng trên các khung và quản lý cơ sở hạ tầng riêng, chúng tôi tối ưu hóa các phiên bản khung học sâu phổ biến nhất, bao gồm PyTorch, MXNet và TensorFlow. AWS cung cấp danh mục sâu rộng gồm các dịch vụ ML về cơ sở hạ tầng điện toán, kết nối mạng và lưu trữ cùng lựa chọn về bộ vi xử lý và trình tăng tốc nhằm đáp ứng nhu cầu về hiệu năng và ngân sách riêng biệt.
Đối với những khách hàng muốn tạo giải pháp thị giác máy tính tiêu chuẩn trong toàn doanh nghiệp của họ, Amazon SageMaker sẽ giúp họ dễ dàng chuẩn bị dữ liệu cũng như xây dựng, đào tạo và triển khai các mô hình ML cho mọi trường hợp sử dụng với cơ sở hạ tầng, công cụ và luồng công việc được quản lý toàn phần, bao gồm các dịch vụ không cần mã dành cho các chuyên viên phân tích kinh doanh.
Đối với những khách hàng thiếu kỹ năng ML, cần rút ngắn thời gian tiếp cận thị trường hoặc muốn thêm thông tin vào quy trình hiện có hoặc ứng dụng, AWS cung cấp một loạt các dịch vụ thị giác máy tính dựa trên ML. Các dịch vụ này cho phép bạn dễ dàng thêm thông tin vào ứng dụng AI thông qua các API được đào tạo trước. Amazon Rekognition tự động hóa tác vụ phân tích hình ảnh và video bằng ML và phân tích hàng triệu hình ảnh, luồng trực tiếp và video được lưu trữ trong vài giây. Amazon Deep Lens là máy quay video hỗ trợ học sâu đầu tiên trên thế giới dành cho các nhà phát triển tìm hiểu kiến thức căn bản về học sâu thông qua các dự án thị giác máy tính, tài liệu hướng dẫn và khám phá thực tế bằng thiết bị vật lý.
Bắt đầu sử dụng thị giác máy tính bằng cách tạo tài khoản AWS miễn phí ngay hôm nay.
Các bước tiếp theo trên AWS
Bắt đầu xây dựng với AWS trên bảng điều khiển quản lý AWS.