This post is also available in: Tiếng Việt (Vietnamese)
Trong khoa học, trí tuệ nhân tạo hay AI (Artificial Intelligence), đôi khi được gọi là trí thông minh nhân tạo, là trí thông minh được thể hiện bằng máy móc, trái ngược với trí thông minh tự nhiên được con người thể hiện. Thông thường, thuật ngữ “trí tuệ nhân tạo” thường được sử dụng để mô tả các máy móc (hoặc máy tính) bắt chước các chức năng “nhận thức” mà con người liên kết với tâm trí con người, như “học tập” và “giải quyết vấn đề”.
AI được thành lập như một môn học thuật vào năm 1956, song chỉ đến khi bùng nổ công nghệ thông tin kỷ nguyên 4.0, thì trí tuệ nhân tạo mới thực sự làm rung chuyển thế giới. Trong năm 2018, AI đã được con người ứng dụng vào nhiều mặt cuộc sống và đang trở thành một xu thế tất yếu trong nhiều lĩnh vực đời sống kinh tế, khoa học, giáo dục của nhân loại.
Trí tuệ nhân tạo có khả năng trở thành công nghệ mang tính đột phá nhất trong 10 năm tới nhờ có những tiến bộ về công suất tính toán, sự nhảy vọt về khối lượng, tốc độ, sự đa dạng của dữ liệu.
Các nghiên cứu về công nghệ trí tuệ nhân tạo cho những sản phẩm mới đang tạo ra những ứng dụng khó tin khi máy móc, thiết bị đang ngày càng tiến sát đến khả năng của con người.
Thậm chí, trong nhiều lĩnh vực, máy móc có trí tuệ nhân tạo có khả năng vượt trội hơn con người. Hơn 10 năm trước, nhiều người hoài nghi trước dự báo “50 năm nữa loài người sẽ có máy tính nhận dạng hình ảnh tốt như mắt người”.
Nhưng thực tế cho thấy, chỉ 10 năm sau, máy tính nhận dạng được hình ảnh đã xuất hiện. Đến năm 2016, nhiều máy móc đã vượt qua khả năng nhận diện, phân tích hình ảnh bằng mắt thường của con người. Ngày nay, trí tuệ nhân tạo đã hiện diện ở hầu hết các ngành, lĩnh vực, làm thay đổi đời sống hàng ngày.
Thị giác máy tính được xem là một trong những lĩnh vực thuộc trí tuệ nhân tạo (AI) và mang lại những ứng dụng hiện đại tuyệt vời.
1. Thị giác máy tính là gì
Thị giác máy tính là một hình thức công nghệ dùng để mô tả khả năng của bộ máy có thể thu nhận và phân tích các dữ liệu trực quan và sau đó sẽ tiến hành đưa ra các quyết định về nó. Nói cho dễ hiểu đây là một công nghệ thuộc lĩnh vực trí tuệ nhân tạo và khoa học máy tính, thiết lập cho máy có tầm nhìn và xử lý nhận dạng như con người.
Hiện nay công nghệ này đã có được một số ứng dụng nhất định, trên cấp độ người dùng, nó đã được ứng dụng vào máy bay không người lái điều khiển để tránh các chướng ngại vật, áp dụng tương tự trên các chiếc xe hơi từ Tesla và Volvo.
Thị giác máy tính (computer vision) đề cập đến toàn bộ quá trình mô phỏng tầm nhìn của con người trong một bộ máy phi sinh học. Điều này bao gồm việc chụp ảnh ban đầu, phát hiện và nhận dạng đối tượng, nhận biết bối cảnh tạm thời giữa các cảnh và phát triển sự hiểu biết ở mức độ cao về những gì đang xảy ra trong khoảng thời gian thích hợp.
Công nghệ này từ lâu đã trở nên phổ biến trong khoa học viễn tưởng, và vì thế, chúng thường được thừa nhận như một điều điều hiển nhiên. Trong thực tế, một hệ thống cung cấp khả năng thị giác máy tính đáng tin cậy, chính xác và trong thời gian thực là một vấn đề đầy thách thức vẫn chưa được phát triển một cách đầy đủ.
Khi các hệ thống này trưởng thành, sẽ có vô số ứng dụng dựa vào thị giác máy tính như một thành phần chính. Những ví dụ điển hình đó là xe hơi tự lái, robot tự động, máy bay không người lái, thiết bị hình ảnh y tế thông minh hỗ trợ phẫu thuật và cấy ghép phẫu thuật phục hồi thị lực của con người.
2. Tại sao thị giác máy tính lại cần thiết
Thị giác máy tính cho phép các máy tính cũng như robot, các phương tiện điều khiển từ máy tính và mọi thứ từ nhà máy, thiết bị nông trại đến xe hơi và máy bay có thể thực hiện một số hoạt động tự động, nó hoạt động một cách hiệu quả, thậm chí an toàn hơn.
Tầm quan trọng của nó đã trở nên rõ ràng hơn trong một thời đại kỹ thuật số. Chúng ta đã nhìn thấy được ứng dụng công nghệ này qua việc hỗ trợ người dùng tổ chức và truy cập vào bộ sưu tập hình ảnh của họ mà không cần gắn thẻ tag hoặc đánh dấu trong Google Photos. Nhưng điều đáng nói làm thế nào nó vẫn duy trì liên tục khi mà số lượng hình ảnh được chia sẻ mỗi ngày lên đến hàng tỷ. Với con người thao tác thủ công là điều không thể làm được.
Một nghiên cứu vào năm ngoái của dịch vụ in ảnh Photoworld đã cho ra một số liệu như sau một người sẽ mất đến 10 năm để có thể xem qua tất cả hình ảnh được chia sẻ trên snapchat (chỉ trong 1 giờ) chưa đề cập đến việc phân loại. Và dĩ nhiên trong 10 năm đó thì số lượng ảnh tương ứng cũng tăng theo cấp số nhân. Điều này cho thấy thế giới ngày nay tràn ngập những hình ảnh kỹ thuật số và chúng ta cần những công nghệ máy tính này mới có thể xử lý được tất cả – nó đã vượt qua khả năng mà con người không thể xử lý được.
3. Thị giác máy tính hoạt động như thế nào
Trên một cấp độ nhất định thì đây chính là tất cả về công nghệ nhận dạng mẫu. Cách để huấn luyện cho máy tính hiểu được dữ liệu hình ảnh thực tế chính là cung cấp cho nó hình ảnh, rất nhiều hình có thể là hàng ngàn, hàng triệu được tổ chức và gắn nhãn trước.
Bước tiếp theo đó, các nhà phát triển phần mềm sẽ vẽ nên một thuật toán tuân theo các kỹ thuật phần mềm khác nhau cho phép máy tính dò tìm tất cả các mẫu theo nhiều yếu tố liên quan đến các nhãn đó.
Ví dụ, nếu bạn cung cấp cho máy tính một triệu hình ảnh về loài chim cánh cụt, thị giác máy tính sẽ tuân theo tất cả các thuật toán cho phép chúng phân tích màu sắc trong ảnh, các hình dạng và khoảng cách giữa các bộ phận. Khi kết thúc thuật toán, máy tính sẽ có thể ứng dụng trải nghiệm của nó nếu được cung cấp các hình ảnh không nhãn khác để định dạng những hình ảnh của chim cánh cụt.
4. Thị giác máy tính trong quá khứ và xu hướng hiện nay
Các hệ thống thị giác máy tính truyền thống là sự kết hợp của các thuật toán phối hợp với nhau trong nỗ lực giải quyết các nhiệm vụ nói trên. Mục tiêu chính là trích xuất các đặc điểm (feature) từ hình ảnh, bao gồm các tác vụ phụ như phát hiện cạnh, phát hiện góc và phân đoạn dựa trên màu. Độ chính xác của các thuật toán được sử dụng để trích xuất các đặc điểm phụ thuộc vào thiết kế và tính linh hoạt của từng thuật toán.
Ví dụ về các thuật toán trích xuất feature truyền thống là Scale-invariant feature transform (SIFT), Speeded up robust features (SURF) và Binary Robust Independent Elementary Features (BRIEF). Các thuật toán khác nhau thực hiện với mức độ thành công khác nhau, tùy thuộc vào loại và chất lượng của hình ảnh được sử dụng làm đầu vào. Cuối cùng, độ chính xác của toàn bộ hệ thống phụ thuộc vào các phương pháp được sử dụng để trích xuất các features. Khi các features đã được trích xuất, việc phân tích được thực hiện bằng các phương pháp Machine Learning truyền thống.
Vấn đề chính với cách tiếp cận này là hệ thống cần được cho biết những đặc điểm cần tìm trong hình ảnh. Về cơ bản, do thuật toán hoạt động như đã được xác định bởi nhà thiết kế thuật toán, các features được trích xuất được thiết kế bởi con người. Trong các triển khai như vậy, hiệu suất kém của thuật toán có thể được xử lý thông qua tinh chỉnh, chẳng hạn như bằng cách điều chỉnh các tham số hoặc sửa đổi cấp mã để điều chỉnh hành vi. Tuy nhiên, những thay đổi như thế này cần phải được thực hiện thủ công và được mã hóa cứng hoặc cố định cho một ứng dụng cụ thể.
Xu hướng hiện nay từ Deep Learning
Mặc dù vẫn còn những trở ngại đáng kể trong con đường phát triển của thị giác máy tính đến “cấp độ con người”, các hệ thống Deep Learning đã đạt được tiến bộ đáng kể trong việc xử lý một số nhiệm vụ phụ có liên quan. Lý do cho sự thành công này một phần dựa trên trách nhiệm bổ sung được giao cho các hệ thống deep learning.
Điều hợp lý để nói rằng sự khác biệt lớn nhất với các hệ thống deep learning là chúng không còn cần phải được lập trình để tìm kiếm các đặc điểm cụ thể. Thay vì tìm kiếm các đặc điểm cụ thể bằng thuật toán được lập trình cẩn thận, các mạng lưới thần kinh bên trong các hệ thống deep learning được đào tạo. Ví dụ: nếu ô tô trong hình ảnh bị phân loại sai thành xe máy thì bạn không tinh chỉnh các tham số hoặc viết lại thuật toán. Thay vào đó, bạn tiếp tục đào tạo cho đến khi hệ thống làm cho đúng.
Với sức mạnh tính toán tăng lên được cung cấp bởi các hệ thống deep learning hiện đại, có sự tiến bộ ổn định và đáng chú ý hướng tới điểm mà một máy tính sẽ có thể nhận ra và phản ứng với mọi thứ mà nó nhìn thấy.
5. Ứng dụng của thị giác máy tính trong thực tiễn
Phát hiện các khiếm khuyết
Đây có lẽ là ứng dụng phổ biến nhất của thị giác máy tính. Cho đến bây giờ thì việc phát hiện ra các yếu tố bị lỗi thường được tiến hành bởi những người giám sát chỉ định và mở rộng hơn họ không thể nào kiểm soát được toàn bộ cả một quy trình hệ thống được.
Với thị giác máy tính, chúng ta có thể kiểm tra tất cả các lỗi nhỏ nhất từ vết nứt kim loại, lỗi sơn, bản in xấu, có kích thước nhỏ hơn 0,05mm. Việc xử lý này còn nhanh và tốt hơn mắt thường của con người gấp nhiều lần. Thuật toán này được thiết kế và đào tạo đặc biệt cho từng ứng dụng cụ thể thông qua hình ảnh có khiếm khuyết và không có khuyết tật.
Trình đọc tự động
Nếu bạn đã từng sử dụng ứng dụng Google translate, bạn có thể đã phát hiện ra khả năng trỏ camera điện thoại thông minh của bạn vào văn bản từ bất kỳ số ngôn ngữ nào và dịch nó sang ngôn ngữ khác trên màn hình gần như ngay lập tức. Sử dụng thuật toán nhận dạng ký tự (OCR) để trích xuất thông tin, cụ thể là nhận dạng ký tự quang học – cho phép một bản dịch chính xác sau đó chuyển thành lớp phủ lên văn bản thực.
Vận hành tự động
Có lẽ bạn đã thấy trên tivi những chiếc xe không người lái, lĩnh vực này phụ thuộc rất nhiều vào Computer vision và Deep learning. Mặc dù chưa đến thời điểm thay thế hoàn toàn người lái, công nghệ xe tự hành đã tiến bộ đáng kể trong vài năm qua.
Công nghệ AI phân tích dữ liệu thu thập được từ hàng triệu người lái xe, học hỏi từ hành vi lái xe để tự động tìm làn đường, ước tính độ cong đường, phát hiện các mối nguy hiểm và giải thích các tín hiệu và tín hiệu giao thông.
Xử lí dữ liệu
Để hỗ trợ con người thực hiện các nhiệm vụ nhận dạng và tổ chức thông tin, các công cụ Computer Vision và mô hình Deep Learning đã được đưa vào nghiên cứu, đòi hỏi khối lượng dữ liệu lớn được dán nhãn. Khi các thuật toán Deep Learning phát triển, chúng chủ yếu thay thế quy trình gắn thẻ thủ công thông qua một phương pháp tiếp cận được gọi là nghiên cứu dữ liệu đám đông – thu thập theo thời gian thực tự động và gắn thẻ dữ liệu do các chuyên gia tạo ra và từ đó máy học sẽ bắt đầu quy trình nhận dạng các đối tượng.
Lĩnh vực y tế
Những tiến bộ lớn liên tục xuất hiện trong các lĩnh vực nhận dạng mẫu và xử lý hình ảnh. Đồng thời, không có gì đáng ngạc nhiên khi cộng đồng y tế và các chuyên gia trong lĩnh vực chăm sóc sức khỏe cho rằng hình ảnh y khoa (kỹ thuật tạo hình ảnh trực quan về bên trong của cơ thể để phân tích lâm sàng và can thiệp y tế, cũng như biểu thị trực quan chức năng của một số cơ quan hoặc mô sinh lý học) đã trở thành một phần thiết yếu trong cách thức làm việc của họ, hướng đến các công cụ chẩn đoán tốt hơn và tăng đáng kể khả năng đưa ra các hành động hiệu quả hơn.
Phân tích hình ảnh y khoa là một trợ giúp lớn cho phân tích dự đoán và trị liệu. Ví dụ, thị giác máy tính được áp dụng cho hình ảnh nội soi có thể làm tăng mức độ hợp lệ và đáng tin cậy của dữ liệu để giảm tỷ lệ tử vong liên quan đến ung thư đại trực tràng.
Trong một ví dụ khác, công nghệ thị giác máy tính cũng cung cấp hỗ trợ kỹ thuật cho phẫu thuật. Mô hình hình ảnh 3D của hộp sọ, như là một phần của điều trị khối u não, cung cấp tiềm năng to lớn trong việc chuẩn bị phẫu thuật thần kinh tiên tiến. Ngoài ra, khi mà học sâu ngày càng được sử dụng trong các công nghệ AI, việc tận dụng nó để phân loại các nốt phổi đã đạt được tiến bộ to lớn để chẩn đoán sớm ung thư phổi.
Một ví dụ khác điển hình của thị giác máy tính ứng dụng trong lĩnh vực này là IBM Watson for Oncology – Một phác đồ điều trị ung thư tối ưu ứng dụng trí tuệ nhân tạo tiên tiến đến từ Hoa Kỳ. Phác đồ này đã được ứng dụng tại hơn 230 bệnh viện và 13 quốc gia, trong đó có Việt Nam.
Hệ thống IBM Watson for Oncology có khả năng xác định, đánh giá và so sánh các lựa chọn điều trị cho từng trường hợp bệnh nhân cụ thể; 83% là tỉ lệ tương đồng giữa IBM Watson for Oncology và Hội đồng chẩn đoán khi đưa ra những phương án điều trị ung thư.
Về IBM Watson for Oncology: https://www.ibm.com/products/clinical-decision-support-oncology
Bán lẻ
Thị giác máy tính đang được sử dụng trong các cửa hàng ngày càng nhiều, đặc biệt là giúp cải thiện trải nghiệm của khách hàng. Pinterest Lens là một công cụ tìm kiếm sử dụng thị giác máy tính để phát hiện các đối tượng. Bằng cách sử dụng ứng dụng điện thoại thông minh trong các cửa hàng, bạn có thể hình dung một sản phẩm trông như thế nào và nhận được các sản phẩm khác liên quan đến nó.
Nhận dạng khuôn mặt là một ứng dụng nổi tiếng về thị giác máy tính có thể được sử dụng trong trung tâm mua sắm hoặc trong cửa hàng. Lolli & Pops, một cửa hàng kẹo có trụ sở tại Mỹ, đang sử dụng nhận dạng khuôn mặt để tích điểm cho khách hàng trung thành. “Hãy tưởng tượng: Bạn bước vào cửa hàng yêu thích của mình và nhân viên bán hàng chào đón bạn bằng tên và bất cứ lúc nào bạn cần, họ chia sẻ với bạn những sản phẩm mới nhất của mình mà bạn có thể sẽ quan tâm nhất.” Sự đổi mới công nghệ có thể đưa ra các giới thiệu được cá nhân hóa cụ thể cho từng khách hàng.
Dường như không có giới hạn khi nói về các trường hợp sử dụng của thị giác máy tính trong lĩnh vực bán lẻ, chúng cũng có thể bao gồm phân tích các kệ hoặc tầng trong cửa hàng, thậm chí cả phân tích tâm trạng của khách hàng, cụ thể phát hiện cảm xúc dựa trên các thuật toán thông qua hình ảnh trong video và phân tích các biểu cảm nhỏ nhất trên gương mặt, xử lý chúng và cuối cùng, diễn giải cảm xúc chung.
Chấm dứt việc phải xếp hàng để thanh toán có thể là mục tiêu cuối cùng của cải tiến công nghệ trong các cửa hàng. Amazon đã phát triển một mô hình mới, Amazon Go, thúc đẩy các công nghệ bao gồm thị giác máy tính, IoT và AI để phát hiện, theo dõi và phân tích hành vi cũng như hành động của khách hàng trong cửa hàng để xử lý tự động quá trình thanh toán và gửi cho họ hóa đơn điện tử.
Ngân hàng
Khi nói đến việc liên kết các công nghệ AI với ngân hàng, chúng ta chủ yếu nghĩ đến việc phát hiện gian lận. Mặc dù đó là một lĩnh vực tập trung đặc biệt cho công nghệ tiên tiến trong lĩnh vực này, thị giác máy tính có thể cải tiến nhiều thứ hơn nữa. Các ứng dụng nhận dạng hình ảnh sử dụng học máy để phân loại và trích xuất dữ liệu phục vụ cho việc giám sát quá trình xác thực các tài liệu như thẻ căn cước hoặc giấy phép lái xe có thể được sử dụng để cải thiện trải nghiệm của khách hàng từ xa và tăng cường bảo mật.
Phát hiện cháy dựa trên máy bay không người lái
Việc sử dụng rộng rãi và đa dạng thị giác máy tính cũng áp dụng cho các lĩnh vực an ninh. Máy bay không người lái, hoặc UAV, có thể tận dụng các hệ thống thị giác máy tính để tăng cường khả năng phát hiện của con người trong việc phát hiện cháy rừng, sử dụng hình ảnh hồng ngoại (IR) như một phần của các giao thức giám sát cháy rừng. Các thuật toán nâng cao phân tích các đặc điểm hình ảnh video như chuyển động hoặc độ sáng để phát hiện lửa. Hệ thống đang thực hiện các trích xuất được nhắm mục tiêu để phát hiện dễ dàng các mẫu và tính toán cách để thấy sự khác biệt giữa các đám cháy và chuyển động thực tế có thể bị hiểu nhầm là hỏa hoạn.
Máy bay không người lái cũng có thể cải thiện an ninh và hiệu quả của hoạt động cứu hỏa bằng cách giám sát hoặc nghiên cứu các khu vực nguy hiểm. Nhân viên cứu hỏa có thể chạy các phân tích dựa trên thuật toán tiên tiến để kiểm tra khói và lửa, từ đó đánh giá rủi ro và đưa ra dự đoán về sự lan truyền lửa.
Nhận diện khuôn mặt
Nhận diện khuôn mặt lập bản đồ và lưu trữ danh tính kỹ thuật số nhờ vào các thuật toán học sâu. Loại nhận dạng sinh trắc học này có thể được so sánh với các công nghệ nhận dạng giọng nói, mống mắt hoặc dấu vân tay hiện đang rất phổ biến.
Khái niệm này xuất hiện từ năm 2011 khi Google chứng minh rằng có thể tạo ra một máy dò tìm khuôn mặt chỉ bằng những hình ảnh không được gắn nhãn. Họ đã thiết kế một hệ thống có thể tự học để phát hiện hình ảnh con mèo mà không cần giải thích với hệ thống là con mèo trông như thế nào.
Vào thời điểm đó, mạng lưới thần kinh là 1.000 máy tính được tạo thành từ 16.000 lõi. Nó được nuôi dưỡng với 10 triệu video YouTube ngẫu nhiên, Tiến sĩ J. Dean, người làm việc trong dự án này, đã giải thích trong một cuộc phỏng vấn với New York Times rằng họ không bao giờ nói với hệ thống trong quá trình đào tạo rằng “đây là một con mèo”, vì vậy nó, về cơ bản, tự phát minh ra khái niệm về một con mèo.
Ngày nay, điện thoại thông minh có thể sử dụng máy ảnh chất lượng cao để nhận dạng. Ví dụ: iPhone X của Apple chạy công nghệ Face ID để người dùng có thể mở khóa điện thoại của họ. Dữ liệu khuôn mặt này được mã hóa và lưu trữ trên đám mây và nó cũng có thể được sử dụng cho mục đích khác như xác thực khi thanh toán.
Thị giác máy tính đang được sử dụng trong lĩnh vực an ninh để tìm kiếm tội phạm, dự đoán sự di chuyển khẩn cấp của đám đông, v.v. Bằng cách phát triển ngày càng nhiều thuật toán thị giác máy tính tiên tiến phức tạp và hiệu quả, chúng ta đang cải thiện kết quả của nó và nhận dạng giọng nói của con người vì cả hai chủ đề này đều dựa trên các nguyên tắc so sánh. Tất cả những điều này góp phần tăng cường khả năng nhận thức tình huống của AI và robot.
Bên cạnh những ưu việt của thị giác máy tính có được từ các kỹ thuật học sâu và sức mạnh của các thuật toán học máy ngày càng lớn mạnh, những mối lo ngại liên tục gia tăng khi những công nghệ này đang đặt ra các vấn đề về quyền riêng tư và đạo đức.
Tại Trung tâm Phát triển ứng dụng HTI, chúng tôi đã triển khai một số giải pháp về trí tuệ nhân tạo trên thị giác máy tính cho nhiều ứng dụng khác nhau, phục vụ cho các nhu cầu của các tổ chức, doanh nghiệp trong việc kiểm soát, tổ chức hoạt động hay trong lĩnh vực giám sát an ninh, phát hiện tội phạm, có thể kể đến như:
- Nhận diện khuôn mặt: https://htigroup.vn/he-thong-nhan-dien-khuon-mat/
- Nhận diện hình ảnh đường lưỡi bò trên các nguồn tài liệu khác nhau: https://htigroup.vn/giai-phap-phat-hien-duong-luoi-bo/
- Customer insight: https://htigroup.vn/customer-insight/