ODAI

[Summary]FairMOT

Donghun Kang 2024. 12. 29. 18:08
  • Architecture

- CenterNet을 기반으로 설계
- Detection과 re-ID 작업이 동일하게 처리
  • CenterNet

- Anchor-Free 탐지 방식
- 물체마다 단 하나의 Keypoint인 중심점을 추정
- 각 물체들은 모두 하나의 점(Key point)로 표현
=> 고정적이지 않은 단 하나의 Anchor를 사용
<One-Stage Detecotr과의 차이점>
1. Box overlap이 아닌 오직 위치만을 가지고 "Anchor" 할당
2. 오직 하나의 "Anchor"만을 사용

 

  • Backbone Network

- 멀티스케일의 특징을 통합하기 위해 설계된 네트워크
- Feature Pyramid Network(FPN)와 유사하게 고수준(high-level)과 저수준(low-level) 특징 간의 연결을 추가로 제공
- 변형 가능한 컨볼루션(Deformable Convolution)을 적용하여 다양한 객체 크기와 포즈에 적응할 수 있도록 설계.
- 출력 특징 맵은 C X H X W크기를 가지며, 입력 이미지는 1/4로 다운샘플된 해상도로 처리됨.
  • Down-sampling
- 입력 이미지는 네트워크를 통과하며 점점 작은 해상도의 feature map(1/4, 1/8, 1/16, 1/32크기)으로 변환
 - High level feature를 추출
- 각각의 해상도에서 추출된 특징은 이후 Up-sampling을 통해 Multi-scale로 통합

 

# Low-level feature: 네트워크의 초기 계층에서 추출 / 이미지의 기본적인 시각적 속성

# High-level feature: 네트워크의 깊은 계층에서 추출 / 이미지의 추상적이고 의미 있는 패턴

 

  • Up-sampling
- Down sampling 과정에서 얻은 여러 해상도의 특징을 다시 높은 해상도로 복원
- Deformable Convolution이 사용되어 다양한 객체 크기와 모양에 적용

 

# Deformable Convolution

1branch는 offset을 계산하는 conv layer / 2branch는 offset 정보를 받아 conv연산 수행하여 output feature map생성
기존 Conv 방식에 offset을 추가
offset이 추가되어 좀 더 넓은 범위의 Grid 영역에서 특징을 추출

  • Multi-scale Feature Fusion
- 네트워크는 Down-sampling과 Up-sampling 과정에서 생성된 모든 해상도의 Feature map을 sum하여 최종 Feature map을 생성
=> 최종출력은 1/4 크기의 고해상도 Feature map / Detection, re-ID Branch에 모두 사용(동일한 고해상도 Feature 공유)

 

 


 

- 입력 이미지 크기: 

- 출력 Feature map 크기

 

=>

 

  • Detection Branch

- input: 이미지를 Encoder-Decoder 네트워크를 통해 처리한 후 고해상도 Feature map을 생성
- output: Heatmap(객체 중심), Box size(객체의 H, W), Center Offset(위치 보정을 위한 offset)
  • Heatmap Head
- 객체 중심의 확률 값을 포함하는 Heatmap을 생성

4로 나누는 이유는 Backbone 네트워크에서 입력 이미지의 해상도가 1/4로 Down sampling되기 때문

- 각 픽셀의 Heatmap 값은 1보다 작다. 중심에서 멀어질수록 0에 가깝다.(Gaussian 분포)

 

# Loss

 

  • Boxsize Head
- 객체의 중심점에서 width, height를 예측하여 Bounding Box를 형성

 

  • Boxoffset Head
- Down sampling으로 인한 위치 정보 손실(Quantization Error)을 보정

 

# Loss

전체 Detection Branch Loss

 

  • re-ID Branch
- 중심점에 해당하는 Re-ID embedding을 추출하여 객체를 구별다른 객체와 구별할 수 있는 특징을 생성
- 다른 객체와 구별할 수 있는 특징을 생성
  • re-ID Embedding

- Backbone에서 생성된 re-ID Feature map으로 각 픽셀마다 128차원 Embedding Vector 생성

- Heatmap에서 추출된 객체 중심 (x,y)의 128차원 Embedding Vector

  • Embedding Classification

 

  • Training FairMOT
- Detection Task와 re-ID Task를 동시에 학습

 

 

'ODAI' 카테고리의 다른 글

[Review]DETR(End-to-End Object with Transformers)  (1) 2025.01.04
[Review]Spiking YOLO  (1) 2024.12.31
Object Detection Milestones  (1) 2024.12.28
Object Detection Model - CNN vs YOLO  (2) 2024.12.28
[Review]FairMOT  (0) 2024.12.21