[Summary]FairMOT

ODAI

[Summary]FairMOT

Donghun Kang 2024. 12. 29. 18:08

Architecture

- CenterNet을 기반으로 설계
- Detection과 re-ID 작업이 동일하게 처리

CenterNet

- Anchor-Free 탐지 방식
- 물체마다 단 하나의 Keypoint인 중심점을 추정
- 각 물체들은 모두 하나의 점(Key point)로 표현
=> 고정적이지 않은 단 하나의 Anchor를 사용

<One-Stage Detecotr과의 차이점>
1. Box overlap이 아닌 오직 위치만을 가지고 "Anchor" 할당
2. 오직 하나의 "Anchor"만을 사용

Backbone Network

- 멀티스케일의 특징을 통합하기 위해 설계된 네트워크
- Feature Pyramid Network(FPN)와 유사하게 고수준(high-level)과 저수준(low-level) 특징 간의 연결을 추가로 제공
- 변형 가능한 컨볼루션(Deformable Convolution)을 적용하여 다양한 객체 크기와 포즈에 적응할 수 있도록 설계.
- 출력 특징 맵은 C X H X W크기를 가지며, 입력 이미지는 1/4로 다운샘플된 해상도로 처리됨.

Down-sampling

- 입력 이미지는 네트워크를 통과하며 점점 작은 해상도의 feature map(1/4, 1/8, 1/16, 1/32크기)으로 변환
- High level feature를 추출
- 각각의 해상도에서 추출된 특징은 이후 Up-sampling을 통해 Multi-scale로 통합

# Low-level feature: 네트워크의 초기 계층에서 추출 / 이미지의 기본적인 시각적 속성

# High-level feature: 네트워크의 깊은 계층에서 추출 / 이미지의 추상적이고 의미 있는 패턴

Up-sampling

- Down sampling 과정에서 얻은 여러 해상도의 특징을 다시 높은 해상도로 복원
- Deformable Convolution이 사용되어 다양한 객체 크기와 모양에 적용

# Deformable Convolution

1branch는 offset을 계산하는 conv layer / 2branch는 offset 정보를 받아 conv연산 수행하여 output feature map생성

offset이 추가되어 좀 더 넓은 범위의 Grid 영역에서 특징을 추출

Multi-scale Feature Fusion

- 네트워크는 Down-sampling과 Up-sampling 과정에서 생성된 모든 해상도의 Feature map을 sum하여 최종 Feature map을 생성
=> 최종출력은 1/4 크기의 고해상도 Feature map / Detection, re-ID Branch에 모두 사용(동일한 고해상도 Feature 공유)

- 입력 이미지 크기:

- 출력 Feature map 크기

Detection Branch

- input: 이미지를 Encoder-Decoder 네트워크를 통해 처리한 후 고해상도 Feature map을 생성
- output: Heatmap(객체 중심), Box size(객체의 H, W), Center Offset(위치 보정을 위한 offset)

Heatmap Head

- 객체 중심의 확률 값을 포함하는 Heatmap을 생성

4로 나누는 이유는 Backbone 네트워크에서 입력 이미지의 해상도가 1/4로 Down sampling되기 때문

- 각 픽셀의 Heatmap 값은 1보다 작다. 중심에서 멀어질수록 0에 가깝다.(Gaussian 분포)

# Loss

Boxsize Head

- 객체의 중심점에서 width, height를 예측하여 Bounding Box를 형성

Boxoffset Head

- Down sampling으로 인한 위치 정보 손실(Quantization Error)을 보정

# Loss

re-ID Branch

- 중심점에 해당하는 Re-ID embedding을 추출하여 객체를 구별다른 객체와 구별할 수 있는 특징을 생성
- 다른 객체와 구별할 수 있는 특징을 생성

re-ID Embedding

- Backbone에서 생성된 re-ID Feature map으로 각 픽셀마다 128차원 Embedding Vector 생성

- Heatmap에서 추출된 객체 중심 (x,y)의 128차원 Embedding Vector

Embedding Classification

Training FairMOT

- Detection Task와 re-ID Task를 동시에 학습

'ODAI' 카테고리의 다른 글

[Review]DETR(End-to-End Object with Transformers) (1)	2025.01.04
[Review]Spiking YOLO (3)	2024.12.31
Object Detection Milestones (2)	2024.12.28
Object Detection Model - CNN vs YOLO (3)	2024.12.28
[Review]FairMOT (0)	2024.12.21

현재글[Summary]FairMOT

donghunkang

UNIVERSITY OF SEOUL, AI

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

donghunkang

[Summary]FairMOT

'ODAI' 카테고리의 다른 글

'ODAI'의 다른글

티스토리툴바

[Summary]FairMOT

'ODAI' 카테고리의 다른 글

'ODAI'의 다른글

관련글

티스토리툴바