12/11/2024
Tên luận án: Đánh giá hiệu suất cho phát hiện sao chép một phần video ở quy mô dữ liệu lớn.
Chuyên ngành: Khoa học máy tính
Nghiên cứu sinh: Lê Văn Hào
Cán bộ hướng dẫn: GS. CARDOT Hubert; PGS. DELALANDRE Mathieu.
Cơ sở đào tạo: Đại học Tours, Cộng hòa Pháp
Hội đồng chấm luận án gồm 7 thành viên:
- GS. DOMENGER Jean-Philippe, Đại học Bordeaux, Cộng hòa Pháp, Chủ tịch HĐ;
- GS. GROSSI Giuliano, Đại học Milan, Cộng hòa Ý, Phản biện 1;
- GS. DUFFNER Stefan, Đại học Lyon, Cộng hòa Pháp, Phản biện 2;
- GS. CARDOT Hubert, Đại học Tours, Cộng hòa Pháp, Giáo sư hướng dẫn 1;
- PGS. DELALANDRE Mathieu, Đại học Tours, Cộng hòa Pháp, Giáo sư hướng dẫn 2;
- GS. BURIE Jean-Christophe, Đại học La Rochelle, Cộng hòa Pháp, Ủy viên hội đồng;
- PGS. PHAM The Anh, Trường Đại học Hồng Đức, Việt Nam, Ủy viên hội đồng.
Tóm tắt luận án:
Phát hiện sao chép một phần video (Partial Video Copy Detection - PVCD) là một vấn đề nổi tiếng trong lĩnh vực thị giác máy tính. Nó tập trung vào việc phát hiện các đoạn video ngắn được biến đổi/sao chép và chèn vào các video dài hơn. PVCD có nhiều ứng dụng thực tế như truy xuất video, bảo vệ bản quyền, phát hiện quảng cáo và/hoặc xác minh tin tức trong phát sóng truyền hình, các nền tảng ứng dụng video (Youtube, Facebook, Tiktok, …).
Luận án tiến sĩ này đóng góp hai phần chính tập trung vào việc đánh giá hiệu suất của các hệ thống PVCD ở mức dữ liệu lớn. Đóng góp đầu tiên, chúng tôi đề xuất một giao thức mới để thiết kế bộ dữ liệu lớn, có khả năng mở rộng, không nhiễu, và được gán nhãn với độ chính xác ở mức độ khung hình. Bộ dữ liệu của tác giả hiện nay được đánh giá là lớn nhất trong các tài liệu y văn hiện có, chứa gần 83 nghìn video với tổng thời lượng hơn 10 nghìn giờ, và gần 1,7 triệu cặp video bị sao chép một phần.
Trong đóng góp thứ hai, chúng tôi tập trung phân tích vào các nghiên cứu về trí tuệ nhân tạo, cụ thể là các mạng học sâu (deep learning). Cụ thể, chúng tôi đã thực hiện một phân tích và đánh giá chuyên sâu ở mức độ dữ liệu lớn, với trên 4,4 triệu véc-tơ đặc trưng, yêu cầu gần 700 tỷ phép tính so sánh. Thông qua việc kiểm tra các hệ thống PVCD dưới nhiều điều kiện khác nhau, ở mức dữ liệu lớn, chúng tôi đóng góp cho cộng động những tiêu chuẩn mới cho hệ thống PVCD. Với đóng góp này, các hệ thống sử dụng trí tuệ nhân tạo sẽ được đánh giá nghiêm ngặt hơn và xem xét khả năng tổng quát hóa tốt hơn cho các ứng dụng thực tế như phát hiện bản quyền và truy xuất video.
Đóng góp chính của luận án:
+ Công bố 5 bài báo trong các hội nghị khoa học chuyên ngành uy tín (4 quốc tế, 1 tại Pháp);
+ Công bố 3 bộ dữ liệu lớn trong lĩnh vực khoa học máy tính và tối ưu hóa;
+ Phát triển cổng truy cập mở tất cả các bài báo, bộ dữ liệu, chương trình thí nghiệm theo khuyến nghị khoa học mở của UNESCO-2021 tới cộng đồng nghiên cứu CV.
NCS Lê Văn Hào trình bày và bảo vệ luận án.
NCS Lê Văn Hào đọc lời thề liêm chính khoa học.
Tân TS. Lê Văn Hào chụp ảnh lưu niệm cùng thầy hướng dẫn và thành viên hội đồng.
Tân TS. Lê Văn Hào chụp ảnh lưu niệm cùng đồng nghiệp và bạn bè Việt Nam.
Danh sách công bố khoa học liên quan đến chủ đề luận án:
[1] V.H. Le, M. Delalandre and H. Cardot, Performance characterization of 2D CNN features for partial video copy detection, International Conference on Computer Analysis of Images and Patterns (CAIP), pp. 205-215, Limassol, Cyprus, 2023.
[2] V.H. Le, M. Delalandre and D. Conte, A large-Scale TV Dataset for partial video copy detection, International Conference on Image Analysis and Processing (ICIAP), Lecture Notes in Computer Science (LNCS), vol 13233, pp. 388-399, Lecce, Italy, 2022.
[3] F. Rayar, M. Delalandre and V.H. Le, A large-scale TV video and metadata database for French political content analysis and fact-checking, Conference on Content-Based Multimedia Indexing (CBMI), pp. 181-185, Graz, Austria, 2022.
[4] V.H. Le, M. Delalandre and D. Conte, Une large base de données pour la détection de segments de vidéos TV, Journées Francophones des Jeunes Chercheurs en Vision par Ordinateur (ORASIS), Saint-Ferréol, France, 2021.
[5] V.H. Le, M. Delalandre and D. Conte, Real-time detection of partial video copy on TV workstation, Conference on Content-Based Multimedia Indexing (CBMI), pp. 1-4, Lille, France, 2021.