- CenterNet을 기반으로 설계 - Detection과 re-ID 작업이 동일하게 처리
CenterNet
- Anchor-Free 탐지 방식 - 물체마다 단 하나의 Keypoint인 중심점을 추정 - 각 물체들은 모두 하나의 점(Key point)로 표현 => 고정적이지 않은 단 하나의 Anchor를 사용
<One-Stage Detecotr과의 차이점> 1. Box overlap이 아닌 오직 위치만을 가지고 "Anchor" 할당 2. 오직 하나의 "Anchor"만을 사용
Backbone Network
- 멀티스케일의 특징을 통합하기 위해 설계된 네트워크 - Feature Pyramid Network(FPN)와 유사하게 고수준(high-level)과 저수준(low-level) 특징 간의 연결을 추가로 제공 - 변형 가능한 컨볼루션(Deformable Convolution)을 적용하여 다양한 객체 크기와 포즈에 적응할 수 있도록 설계. - 출력 특징 맵은 C X H X W크기를 가지며, 입력 이미지는 1/4로 다운샘플된 해상도로 처리됨.
Down-sampling
- 입력 이미지는 네트워크를 통과하며 점점 작은 해상도의 feature map(1/4, 1/8, 1/16, 1/32크기)으로 변환 - High level feature를 추출 - 각각의 해상도에서 추출된 특징은 이후 Up-sampling을 통해 Multi-scale로 통합
# Low-level feature: 네트워크의 초기 계층에서 추출 / 이미지의 기본적인 시각적 속성
# High-level feature: 네트워크의 깊은 계층에서 추출 / 이미지의 추상적이고 의미 있는 패턴
Up-sampling
- Down sampling 과정에서 얻은 여러 해상도의 특징을 다시 높은 해상도로 복원 - Deformable Convolution이 사용되어 다양한 객체 크기와 모양에 적용
# Deformable Convolution
1branch는 offset을 계산하는 conv layer / 2branch는 offset 정보를 받아 conv연산 수행하여 output feature map생성기존 Conv 방식에 offset을 추가offset이 추가되어 좀 더 넓은 범위의 Grid 영역에서 특징을 추출
Multi-scale Feature Fusion
- 네트워크는 Down-sampling과 Up-sampling 과정에서 생성된 모든 해상도의 Feature map을 sum하여 최종 Feature map을 생성 => 최종출력은 1/4 크기의 고해상도 Feature map / Detection, re-ID Branch에 모두 사용(동일한 고해상도 Feature 공유)
- 입력 이미지 크기:
- 출력 Feature map 크기
=>
Detection Branch
- input: 이미지를 Encoder-Decoder 네트워크를 통해 처리한 후 고해상도 Feature map을 생성 - output: Heatmap(객체 중심), Box size(객체의 H, W), Center Offset(위치 보정을 위한 offset)
Heatmap Head
- 객체 중심의 확률 값을 포함하는 Heatmap을 생성
4로 나누는 이유는 Backbone 네트워크에서 입력 이미지의 해상도가 1/4로 Down sampling되기 때문
- 각 픽셀의 Heatmap 값은 1보다 작다. 중심에서 멀어질수록 0에 가깝다.(Gaussian 분포)
# Loss
Boxsize Head
- 객체의 중심점에서 width, height를 예측하여 Bounding Box를 형성
Boxoffset Head
- Down sampling으로 인한 위치 정보 손실(Quantization Error)을 보정
# Loss
전체 Detection Branch Loss
re-ID Branch
- 중심점에 해당하는 Re-ID embedding을 추출하여 객체를 구별다른 객체와 구별할 수 있는 특징을 생성 - 다른 객체와 구별할 수 있는 특징을 생성
re-ID Embedding
- Backbone에서 생성된 re-ID Feature map으로 각 픽셀마다 128차원 Embedding Vector 생성
- Heatmap에서 추출된 객체 중심 (x,y)의 128차원 Embedding Vector