ODAI

[Review]SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC

Donghun Kang 2024. 11. 22. 18:14

0. Abstract

- SORT는 간단하고 효율적인 알고리즘에 초점을 맞춘 multi object detection의 실용적인 접근 방식이다.
- 이 논문에서는 SORT에 appearance(외형) 정보를 통합하여 성능을 개선하였다.
- 이러한 확장으로 더 긴 차단 기간동안 객체를 추척할 수 있고, 결과적으로 identity switch(객체 식별 전환) 횟수를 효과적으로 줄일 수 있다.

 

SORT에 apperance정보를 통합하여 Detection 성능을 개선하고 차단 상황에서도 객체를 효과적으로 추적할 수 있도록 하는 방법 제안

 


 

1. Introduntion

- Tracking-by-detection: 객체 탐지 기술의 발전으로 다중 객체 추적에서 주류 방식이 됨
=> Batch 처리로 인해 온라인 시나리오에서는 적용 불가
- Traditional Method: MHT(Multiple Hypothesis Tracking)와 JPDAF(Joint Probabilistic Data Association Filter)는 프레임 단위로 데이터 연관성을 수행
# JPDAF: 각각의 측정값을 연관 가능성에 따라 가중치를 부여하여 단일 상태 가설을 생성
# MHT: 모든 가능한 가설을 추적하되 계산 복잡성을 고려해 가지치기(pruning)를 수행
=> 복잡성과 계산 비용이 증가함
  • SORT(Simple Online and Realtime Tracking)
- 이미지 공간에서 칼만 필터링(Kalman filtering)을 수행하고, 바운딩 박스 중첩도를 측정하는 연관 메트릭을 사용하여 헝가리안 방법(Hungarian method)으로 프레임 단위 데이터 연관을 해결하는 훨씬 간단한 프레임워크

# 문제점
SORT는 차단(occlusion)상황에서 객체 추적 성능이 떨어지며, identity switch 발생률이 높다.
이는 사용된 association metric(motion 정보 기반)이 state estimation uncertainty (상태 추정 불확실성)이 낮을 때만 정확하기 때문
=> SORT는 정면 카메라 장면에서 발생하는 occlusion 상황을 추적하는데 있어 한계를 보임

# 해결책
motion과 apperance를 결합한 CNN 기반 association metric으로 대체
=> 대규모 사람 재식별 데이터 셋을 활용한 CNN으로 appearance 정보를 학습, occlusion 상황에서도 더 강인한 Detection 가능

 


 

2. Sort with Deep association metric

2.1. Tracking Handling and State Estimation

- The track handling and Kalman filtering framework는 기존 SORT의 공식화와 거의 동일
- 우리는 카메라가 보정되지 않고 ego-motion(자가 운동)정보가 없는 매우 일반적인 추적 시나리오를 가정

- 따라서, 우리의 추적 시나리오는 8차원 상태 공간으로 정의
- (u, v): 바운딩 박스 중심 위치
- Γ: 종횡비
- h: 높이
- 각 요소의 속도

- 각 추적 항목 k에 대해 마지막으로 성공적으로 측정값이 연관된 후 경과된 프레임 수 ak를 count
- 이 count는 칼만 필터 예측 중에 증가하며, 측정값과 성공적으로 연관되었을 경우 0으로 재설정
- Amax하는 사전 정의된 최대 연령을 초과한 추적 항목은 삭제된다.
- 기존 추적 항목과 연관되지 못한 모든 검출에 대해 새로운 추적 가설이 생성
- 이러한 새로운 추적 항목은 처음 3 프레임 동안 잠정적 상태로 분류
- 이 기간 동안, 각 시간 단계에서 성공적인 측정값 연관이 필요, 초기 3프레임 동안 성공적으로 연관되지 않은 항목은 삭제 

 

 

칼만 필터는 상태 예측과 보정에 사용되며, 8차원 상태 공간을 모델링
각 추적 항목 k에는 마지막으로 성공적으로 측정값이 연관된 후 경과된 프레임 수 ak​가 기록된다.
매 프레임마다 ak​가 1씩 증가하며, 측정값과 연관되었을 때는 0으로 초기화.
ak​가 사전 정의된 최대 연령 Amax​를 초과하면, 해당 객체는 Scene을 떠난 것으로 간주하고 추적을 중단
기존의 추적 항목과 연관되지 않은 새 검출값에 대해 새로운 추적 항목을 생성.
이 항목은 초기 3프레임 동안 "잠정적(Tentative)" 상태로 유지되며, 이 기간 동안 모든 프레임에서 측정값과 연관되어야 추적 항목으로 전환. 그렇지 않으면 삭제.

 


 

2.2. Assignment Problem

1. 추적 항목의 칼만 상태 예측값과 새 측정값 간의 "거리"를 계산

2. 거리 정보를 기반으로 할당 문제를 구성하고, 헝가리안 알고리즘을 사용해 해결

이를 위해 2가지 주요 metric이 사용

  • Motion Based Metric: Mahalanobis Distance사용
- 칼만 예측값과 새로운 측정값 사이의 제곱된 Mahalanonis distance를 사용
Mahalanonis distance
- yi: i번째 추적 항목의 상태 예측값(칼만 필터에서 계산)
- dj: j번째 측정값(탐지된 바운딩 박스)
- Si: 예측 상태의 공분산 행렬
=> 탐지값이 평균 추적 위치에서 몇 표준편차 떨어져 있는지를 측정하며, 칼만 필터의 상태 추정 불확실성을 고려

- Mahalanonis distance가 95% 신뢰 구간을 초과하면 해당 연관은 배제
  • Apperance Based Metric: Cosine Distance
- Apperance Metric은 추적 항목의 "Gallery"와 새 측정값 간의 Cosine Distance를 측정
-Gallery는 최근 100개의 Apperance Descriptor를 저장
Cosine Distance
- rj: 측정값 j의 Apperance Descriptor
- Rk: 추적 항목 k의 Apperance Gallery
=> 객체의 외형 정보를 활용하여 장기간 occlusion후에도 객체를 식별하도록 돕는다.

- Cosine Distance가 사전 학습된 데이터셋에 설정된 임계값 t이하인 경우에만 연관을 허용
  • 두 Metric의 결합
- 두 Metric을 결합하여 최종 연관 비용 행렬 Cij를 생성
 - λ: 동작과 Apperance Metric간의 가중치를 조정하는 Hyper Parameter
if λ = 0: Apperance Metric에 전적으로 의존
if λ = 1: Motion Metric에 전적으로 의존

- 최종적으로 두 Metric의 gating 영역을 모두 만족하는 경우에만 연관이 허용

 

Motion Based Metric 짧은 시간 동안의 객체 위치 예측에 유용 예측 상태의 불확실성을 고려하여 신뢰할 수 있는 연관을 제공
Apperance Based Metric 장시간 occlusion 상황에서도 객체를 식별 가능 동작 정보가 부정확한 경우에도 외형 정보를 활용해 보안

 

Assignment Problem은 Motion Metric과 Apperance Metric을 결합하여 해결
Motion Metric은 단기 예측에 적합하며, Apperacnce Metric은 장기간 occlusion 및 복잡한 환경에서 유리
두 Metric은 가중치를 통해 결합되며 Gating 임계값을 만족하는 경우에만 연관이 허용

 

 


 

2.3. Matching Cascade

# 기존 문제점
칼만 필터는 시간이 지남에 따라 예측 상태의 불확실성이 증가. 이로 인해 예측된 상태 분포가 퍼지면서 연관 Metric이 덜 결정적으로 작동할 수 있다. 이러한 문제를 해결하디 위해 Matching Cascade 사용
- Matching Cascade: 추적 항목과 측정값 간의 연관 문제를 연령별로 단계적으로 해결하는 알고리즘
- Matching Cascade는 최근에 관찰된 항목에 우선권을 부여, 이는 occlusion 상태에서의 추적 안정성을 높이는데 기여

1. 입력
- 추적 항목 집합 T = {1, ..., N}
- 측정값의 집합 D = {1, ..., M}
- 최대 연령 Amax: 연관되지 않은 상태로 유지할 수 있는 최대 프레임 수

2. 연관 비용 행렬 생성
- Cij: 추적 항목 i와 j간의 연관 비용 행렬을 생성
- bij: 해당 연관이 두 Metric의 Gating 임계값을 만족하는지 나타내는 행렬

3. 단뎨별 연관 처리
- 각 추적 항목은 연령에 따라 처리
- 최근 관측된 항목이 우선적으로 연관
- 연관이 이루어진 측정값은 이후 단계에서 제외

4. 알고리즘 실행
- 초기화: Matching 집합 M = 공집합 및 미연관 측정값 집합 U = D로 시작
- 반복 처리:
연령 n에 대해, 연령이 n인 추적 항목의 집합 Tn={i∈T∣ai=n}을 선택.
Tn​과 U 간의 선형 할당 문제를 해결하여 최소 비용 연관을 수행.
연관된 쌍 (i,j)를 매칭 집합 M에 추가하고, 연관된 측정값 j를 U에서 제거
- 최종 매칭: 초기화된 상태(연령이 n = 1인 항목)에 대해 IOU기반 연관을 수행

 

 

 


 

2.4. Deep Apperance Descriptor

- Apperance 정보를 표현하는 Descriptor를 생성하는 과정에 대해 다룬다.
- 이를 위해, 사전에 학습된 CNN을 사용하여 각 객체의 Apperance를 벡터 형태로 표현, 이를 Nearest Neighbor Search에 활용
  • Descriptor의 역할
- 측정값과 추적 항목 간의 연관을 결정하는데 중요한 요소
- 객체의 시각적 특징을 압축된 벡터로 표현
1. occlusion 극복: Apperance 정보는 객체가 잠시 보이지 않을 때에도 재식별이 가능하게 함
2. 장기간 연관 유지: 외형 정보는 동작 정보가 부정확하거나 누락되었을 때에도 안정적인 추적을 지원
  • CNN
# 특징
1. Residual Block(잔차 블록): 모델의 깊이를 늘려도 학습이 안정적
2. Dense Layer와 최종 정규화: Dense Layer에서 128차원의 전역 특징 벡터를 생성/ Batch Normalization과 l2정규화를 적용하여 벡터를 단위 구에 적용 => Cosine Distance계산을 쉽게 만들어줌
3. 경량화 및 실시간 처리 가능성: 실시간 Detection 애플리케이션에 적합한 성능을 제공

 

CNN기반 Apperance 서술자는 객체의 외형 정보를 128차원 벡터로 압축
Residual Block과 l2정규화를 통해 정확도와 계산 효율성을 만족
장기간 occlusion상황에서 객체를 안정적으로 재식별할 수 있도록 지원
경량화된 구조와 GPU가속으로 실시간 처리에 적합, 추가적인 Metric학습 없이 바로 활용 가능

 


 

3. Experiments

제안된 DeepSORT의 성능을 평가한다. 이를 위해 다중 객체 추적 벤치마크 데이터셋인 MOT16을 사용한다.

  • 실험 환경
# 데이터셋
1. MOT16
- 7개의 Test Sequence를 포함하며, 이동하는 카메라와 고정된 카메라 장면이 혼합
- 다양한 복잡성을 가진 Front View 및 Top-Down View Sequence를 포함

2, Detector(탐지기)
- Faster R-CNN을 사용하여 사전 학습된 탐지 결과를 기반으로 평가
- 탐지 신뢰 점수 0.3 이상의 결과만 사용

# Hyperparameter
- λ = 0: apperance 정보만 연관 비용 계산에 사용
- Amax = 30: 최대 추적 유지 시간 30frame
- 나머지 parameter는 벤치마크 제공 학습 sequence에서 최적화
  • 평가 지표
1. MOTA(Multi-Object Tracking Accurracy)
- 전반적인 추적 정확도
2. MOTP(Multi-Object Tracking Precision)
- 추적된 객체의 바운딩 박스와 Ground Truth간의 평균 겹침 정도

3. MT(Mostly Tracked)
- 전체 Ground Truth 궤적 중 80% 이상 추적된 궤적의 비율

4. ML(Mostly Lost)
- 전체 Ground Truth 궤적 중 20% 이하로 추적된 궤적의 비율

5. ID(Identity Switches)
- 객체의 ID가 잘못 변경된 횟수

6. FM(Fragmentations)
- 객체 추적 궤적이 끊긴 횟수
  • 실험 결과

# 결과 해석
- ID 전환 감소
Appearance 정보를 활용해 occlusion 및 누락된 객체를 효과적으로 재식별한 결과
- MT 증가
객체의 궤적을 보다 안정적으로 추적했음을 의미
- FP(False Positive)증가
탐지기의 신뢰 점수를 낮게 설정했기 때문, MOTA에 부정적 영향
- 실시간 처리 가능성
Appearance 서술자 생성 과정이 전체 처리 시간의 약 절반을 차지
# 한계
- FP가 증가하여 MOTA가 SORT에 비해 크게 향상되지는 않음
- occlusion이 없는 경우에도 Appearance Metric이 과도하게 작용될 가능성이 있다.
=> 탐지기의 신뢰 점수 임계값을 높여 FP를 줄임으로써 MOTA 개선 가능
=> Appearance와 Motion Metric의 조화를 위해 λ값을 상황에 따라 조정

 

 

Deep SORT는 ID Switch를 감소, MT를 증가시켜 안정적인 Detection Accuracy를 제공
FP 증가로 인해 MOTA는 소폭 향상, Appearance 정보를 통합한 장점이 드러남
Deep SORT는 40fps로 실시간 처리가 가능

 


 

4. Conclusion

  • Main Contribution
- Apperance 정보를 통합한 SORT 확장
- 장기간 occlusion상황에서의 강건성
- 단순성과 실시간 성능 유지
  • 한계
- Appearance Metric이 추가되면서 FP증가, 이는 MOTA를 감소
- Detector의 의존성
추적 성능은 객체 탐지기의 품질에 강하게 의존한다. 탐지기의 오류가 추적 결과에 직접적인 영향을 미친다.
- GPU 의존성
Appearance서술자를 실시간으로 생성하려면 GPU가 필수적이다.
  • 향후 연구 방향성
- 탐지기 최적화
- Parameter Tuning

 

 

본 논문은 SORT에 Appearance 정보를 통합하여 장기간 occlusion상황에서도 강건한 추적 가능
ID Switch를 크게 줄여 단순성과 실시간 처리 능력을 유지하면서 성능 개선

 

 


  • 원문

4주차 SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC.pdf
1.15MB

 


  • PPT

4주차 SORT & DEEP SORT.pdf
4.42MB