Dataset cho face recognition

9/8/2021 datasetface recogntioncomputer visondeep learningai

Gần đây gặp nhiều project làm về phát hiện và nhận diện khuôn mặt (face recognition). Về tác vụ này thì người ta đã nghiên cứu và thực hiện từ khá lâu rồi. Như ở Nhật thì có một số công ty như Panasonic hay NEC đều có những solution đứng top thế giới về độ chính xác và tốc độ (Có thể tham khảo tại đây (opens new window)).

Ở bài viết này mình thống kê một số datasets được public

# Dataset cho training

  1. CelebA (opens new window)

Dành cho mục đích phi thương mại, nghiên cứu. Data này gồm 200k ảnh những người nổi tiếng(10k ids), được thu thập và cung cấp từ MMLAB, một lab nghiên cứu của một trường đại học ở HongKong.

  1. Face Image with Marked Landmark Point (opens new window)

Data này gồm 7k ảnh với mỗi ảnh đã được đánh nhãn cho keypoints (các điểm đặc trưng trên khuôn mặt). Trên mỗi ảnh tối đa có 15 keypoints, và thông tin này được lưu riêng trong file CSV.

  1. Casia WebFace (opens new window)

Gồm 453453 ảnh cho 10575 ids (Các bạn Tàu cung cấp).

  1. UMDFaces (opens new window)

Dataset gồm 367888 ảnh cho 8277 ids.

  1. VGGFace2 (opens new window)

Link tải từ dropbox (opens new window). Dataset gồm 3.31M ảnh cho 9131 ids.

  1. MS1M-IBUG (opens new window)

Link download tại đây (opens new window). Dataset gồm 3.8M ảnh cho 85k ids.

  1. MS1M-ArcFace (opens new window)

Dataset gồm 5.8M ảnh cho 85k ids. Dataset này là một version mở rộng của tập MS1M-IBUG trên.

  1. Asian-Celeb (opens new window)

Dataset gồm 2.8M ảnh cho 94k ids.

  1. DeepGlint (opens new window)

Dataset gồm 6.75M ảnh cho 181k ids.

  1. IMDB-Face (opens new window)

Dataset gồm 1.7M ảnh cho 59k ids.

  1. Celeb500k

Hiện tại chưa tìm thấy link download. Data này rất lớn, gồm 50M ảnh cho 500k ids.

  1. MegaFace

Download tại đây (opens new window). Dataset gồm 4.7M ảnh cho 672k ids.

# Dataset cho validation

  1. CFP-FP (opens new window)

Dataset gồm 7k ảnh với 500 ids.

  1. AgeDB (opens new window)

Dataset gồm 12240 ảnh cho 570 ids.

  1. LFW (opens new window)

Dataset gồm 13233 ảnh cho 5749 ids.

  1. CALFW (opens new window)

Một phiên bản nâng cấp của tập LFW. Cũng bao gồm 13233 ảnh cho 5749 ids.

Last Updated: 10/2/2021, 8:49:39 AM