Một phương pháp phát hiện khuôn mặt tự động được phát triển tại Đại học Carnegie Mellon cho phép các máy tính nhận dạng khuôn mặt trong các hình ảnh ở nhiều mức độ khác nhau, bao gồm các khuôn mặt nhỏ chỉ có một vài điểm ảnh. Ảnh: Đại học Carnegie Mellon
Các nhà nghiên cứu tại Đại học Carnegie Mellon cho
biết thủ thuật tìm các vật nhỏ xíu là tìm kiếm những vật lớn hơn liên quan đến
chúng.
Một phương pháp được cải thiện để mã hóa ngữ cảnh
quan trọng từ một hình ảnh đã cho phép Deva Ramanan, phó giáo sư về robot và
Peiyun Hu, nghiên cứu sinh tiến sĩ về robot, chứng minh một bước tiến quan trọng
trong việc phát hiện ra những khuôn mặt nhỏ bé.
Khi áp dụng cho bộ số liệu chuẩn của khuôn mặt,
phương pháp của họ đã làm giảm sai số, và 81% các khuôn mặt được tìm thấy bằng
cách sử dụng phương pháp của họ là gương mặt thực tế, so với 29 đến 64 phần trăm
đối với các phương pháp trước đó.
Ramanan cho biết: "Nó giống như việc nhận ra một cái
tăm trong tay của ai đó. "Cái tăm sẽ dễ dàng nhìn thấy khi bạn gợi ý rằng ai đó
có thể đang sử dụng tăm. Vì vậy, sự định hướng của ngón tay, sự chuyển động và
vị trí của bàn tay là những đầu mối chính."
Tương tự, để tìm một khuôn mặt có thể chỉ có kích
thước rất nhỏ, trước hết hãy tìm một cơ thể bên trong hình ảnh lớn hơn, hoặc
nhận ra một hình ảnh có chứa một đám đông người.
Nhận ra những khuôn mặt nhỏ bé có thể có các ứng
dụng như đếm đầu người để tính toán kích thước của đám đông. Việc phát hiện các
thứ nhỏ bé nói chung sẽ ngày càng trở nên quan trọng khi những chiếc xe tự lái
chạy nhanh hơn và phải theo dõi và đánh giá điều kiện giao thông ở xa.
Ý tưởng cho rằng bối cảnh có thể giúp phát hiện đối
tượng không có gì mới, Ramanan cho hay. Tuy nhiên, trước đó, vẫn là việc khó
khăn để minh họa trực giác này trên các hệ thống thực tế. Đó là vì ngữ cảnh mã
hóa thường có liên quan đến "mô tả chiều cao", bao gồm rất nhiều thông tin nhưng
cồng kềnh khi sử dụng.
Phương pháp của ông sử dụng "bộ mô tả mặt đáy" để mã
hoá bối cảnh theo một cách tương tự như cấu trúc thị giác của con người. Giống
như trung tâm của thị giác của con người tập trung vào hố thị giác của võng mạc,
nơi có độ sắc nét thị giác cao nhất, bộ mô tả này cung cấp chi tiết sắc nét cho
một mẫu nhỏ của hình ảnh, với khu vực xung quanh được hiển thị mờ đi.
Bằng cách làm mờ hình ảnh ngoại vi, bộ mô tả
mặt đáy cung cấp đủ ngữ cảnh để giúp ích cho việc tìm
hiểu một mẫu nhỏ với độ tập trung cao, nhưng không nhiều đến mức làm cho máy
tính trở nên quá tải. Điều này giúp cho hệ thống của Hu và Ramanan có thể tận
dụng các điểm ảnh tương đối xa với mẫu khi quyết định xem nó có chứa khuôn mặt
nhỏ bé hay không.
Tương tự, chỉ với việc tăng độ phân giải của một
hình ảnh có thể không phải là một giải pháp để tìm ra các vật thể nhỏ. Độ phân
giải cao tạo ra vấn đề gọi là "Waldo ở đâu" – nghĩa là, có rất nhiều điểm ảnh
của các đối tượng, nhưng chúng bị lạc trong một đại dương điểm ảnh. Trong trường
hợp này, bối cảnh có thể hữu ích để tập trung sự chú ý của hệ thống vào những
khu vực có nhiều khả năng chứa đựng một khuôn mặt.
Ngoài lý luận theo ngữ cảnh, Ramanan và Hu còn cải
thiện khả năng phát hiện các vật thể nhỏ bằng cách đào tạo các máy dò riêng biệt
cho các quy mô vật thể khác nhau. Một máy dò tìm diện mạo chỉ với một vài điểm
ảnh sẽ bị lúng túng nếu gặp phải một chiếc mũi nhiều lần cùng một kích cỡ.
Thanh Vân (Eurekalert)