Dataset cho face recognition
Gần đây gặp nhiều project làm về phát hiện và nhận diện khuôn mặt (face recognition). Về tác vụ này thì người ta đã nghiên cứu và thực hiện từ khá lâu rồi. Như ở Nhật thì có một số công ty như Panasonic hay NEC đều có những solution đứng top thế giới về độ chính xác và tốc độ (Có thể tham khảo tại đây (opens new window)).
Ở bài viết này mình thống kê một số datasets được public
# Dataset cho training
Dành cho mục đích phi thương mại, nghiên cứu. Data này gồm 200k ảnh những người nổi tiếng(10k ids), được thu thập và cung cấp từ MMLAB, một lab nghiên cứu của một trường đại học ở HongKong.
Data này gồm 7k ảnh với mỗi ảnh đã được đánh nhãn cho keypoints (các điểm đặc trưng trên khuôn mặt). Trên mỗi ảnh tối đa có 15 keypoints, và thông tin này được lưu riêng trong file CSV.
Gồm 453453 ảnh cho 10575 ids (Các bạn Tàu cung cấp).
Dataset gồm 367888 ảnh cho 8277 ids.
Link tải từ dropbox (opens new window). Dataset gồm 3.31M ảnh cho 9131 ids.
Link download tại đây (opens new window). Dataset gồm 3.8M ảnh cho 85k ids.
Dataset gồm 5.8M ảnh cho 85k ids. Dataset này là một version mở rộng của tập MS1M-IBUG trên.
Dataset gồm 2.8M ảnh cho 94k ids.
Dataset gồm 6.75M ảnh cho 181k ids.
Dataset gồm 1.7M ảnh cho 59k ids.
- Celeb500k
Hiện tại chưa tìm thấy link download. Data này rất lớn, gồm 50M ảnh cho 500k ids.
- MegaFace
Download tại đây (opens new window). Dataset gồm 4.7M ảnh cho 672k ids.
# Dataset cho validation
Dataset gồm 7k ảnh với 500 ids.
Dataset gồm 12240 ảnh cho 570 ids.
Dataset gồm 13233 ảnh cho 5749 ids.
Một phiên bản nâng cấp của tập LFW. Cũng bao gồm 13233 ảnh cho 5749 ids.