ODAI

[Review]Simple Online and Realtime Tracking(SORT)

Donghun Kang 2024. 11. 22. 16:42

1. Introduction

- 이 논문은 다중 객체 추적(MOT) 문제를 다루는 tracking-by-detection 프레임워크를 간결하게 구현한 방식을 제안.
- 객체는 매 프레임 탐지되고 바운딩 박스로 표현됨
- 많은 batch 기반 추적 접근법과 다르게 이 연구는 online tracking을 목표로 하여 이전 프레임과 현재 프레임에서 탐지된 결과만을 사용하여 추적기를 작동한다.
  • MOT 문제 정의
- MOT는 데이터를 연관시키는 문제로 간주될 수 있으며, 목표는 비디오 시퀸스에서 프레임 간 탐지를 연결하는 것
- Data association problem을 지원하기 위해 이 논문에서는 visual MOT benchmark에서 얻은 관찰을 기반으로 함
=> Multiple Hypothesis Tracking (MHT) 과 Joint Probabilistic Data Association (JPDA) 같은 데이터 연관 기술 주목
=> top ranker tracker 중 Aggregate Channel Filter (ACF) 탐지기를 사용하지 않는 유일한 tracker가 상위 순위 차지
  • 정확도와 속도의 절충
- 대부분의 정확도가 높은 tracker는 실시간 애플리케이션에 비해 너무 느린 것으로 간주된다.
=> 이 연구는 MOT를 단순하게 만들고 성능을 평가한다.
  • Design Philosophy
- 탐지 구성 요소 외의 외형 특징은 무시되고 바운딩 박스의 위치와 크기만이 운동 추정 및 데이터 연관에 사용(Occam’s Razor)
- short-term and long-term occlusion(단기 및 장기 가려짐 문제)는 매우 드물게 발생하며, 이를 명시적으로 다루면 프레임워크에 불필요한 복잡성을 가져오므로 무시된다.
=> 해당 프레임워크는 여러 엣지 케이스와 탐지 오류를 처리하기 위해 복잡한 구성요소를 포함하는 기존 visual tracker들과는 대조적이다.
- Kalman Filter(칼만 필터)와 Hungarian method(헝가리안 방법)을 사용하여 각각 운동 예측과 데이터 연관을 처리한다.
  • main contribution
- CNN 기반 tracker의 성능을 MOT 맥락에서 활용
- 칼만 필터와 헝가리안 알고리즘을 기반으로 한 tracking방식을 제안
- code를 오픈소스로 제공

 

 


 

2. Literature Review

  • Traditional MOT
- 전통적인 MOT는 MHT나 JPDA필터를 사용하여 해결
- 이 방법들은 객체 할당에 대한 불확실성이 높은 경우 결정을 지연시키며, 추적 객체 수가 많아질수록 조합 복잡도 가 기하급수적으로 증가
=> 이러한 복잡성은 실시간 애플리케이션에 적합하지 않다.
  • Online Tracking Method
- 많은 온라인 추적 방식은 개별 객체의 외형 모델 또는 글로벌 모델을 온라인 학습을 통해 구축하려고 함
- 외형 모델 외도 운동정보는 탐지 결과를 tracklets에 연관시키는데 자주 사용
- 1:1 대응을 bipartite graph matching(이분 그래프 매칭)으로 모델링할 때, 헝가리안 알고리즘과 같은 전역 최적화 솔루션이 사용될 수 있다.
  • 기존 연구의 접근 방식

헝가리안 알고리즘을 사용하여 2단계 프로세스 제안

1. 인접한 프레임 간 탐지를 연관시켜 tracklets를 생성, 이때 기하하적 정보와 외형 정보를 결합하여 affinity matrix형성

2. occlusion(가려짐)으로 인해 끊어진 궤적을 연결하기 위해 생성된 tracklets을 다시 연관시킴

- 이러한 2단계 프로세스는 Batch계산으로 제한되며, 본 연구는 단일 단계로 단순화하여 기본적인 정보만을 사용한다.

 


 

3. Methodology

주어진 방식은 Detection(탐지), Propagating object states into future frames(객체 상태를 미래 프레임으로 전파), Associating current detections with existing objects(현재 탐지 결과와 기존 객체 연관), Managing the lifespan of tracked objects(추적된 객체의 수명 관리)라는 주요 구성 요소로 설명

 

3.1 Detection

- CNN 기반 탐지 기술의 뻐른 발전을 활용하기 위해, Faster Region CNN(FrRCNN)탐지 프레임워크 사용
# FrRCNN: 2단계로 구성된 end-to-end 프레임워크
1. 특징을 추출하고 탐지를 위한 영역을 제안
2. 제안된 영역에서 객체를 분류
=> 2단계 간 매개변수를 공유하여 탐지를 위한 효율적인 프레임워크 생성 / 네트워크 아키텍처 자체를 교체 가능(빠른 실험 가능)

FrRCNN

- 이 논문에서는 FrRCNN의 2가지 네트워크 아키텍처를 비교
1. FrRCNN(ZF) 
2. FrRCNN(VVGG16)
- FrRCNN은 PASCAL VOC 챌린지를 위해 학습된 기본 매개변수를 사용
-보행자 추적에만 관심이 있기 때문에, 다른 모든 클래스는 무시하고 확률이 50% 이상인 탐지 결과만 추적 프레임워크에 전달
  • Result
- Detection Quality(탐지 품질)이 Detection 성능에 중요한 영향을 미친다.
Table1: 가장 뛰어난 탐지기(FrRCNN(VGG16))가 MDP와 제안된 방법 모두에서 최고의 추적 정확도를 제공한다는 것을 보여준다.

 


 

3.2 Estimation Model

- 여기서는 객체 모델(즉, 객체의 표현 및 운동 모델)을 설명한다.
- 이 모델은 객체의 정체성을 다음 프레임으로 전파하는데 사용
- 각 프레임 간 이동을 linear constant velocity model(선형 일정 속도 모델)로 근사, 이는 다른 객체와 카메라 움직임에 독립적
  • State of each target modeling

- u, v: 객체 중심의 수평 및 수직 픽셀 위치
- s: 객체의 크기(면적)
- r: 객체 바운딩 박스의 aspect ratio(종횡비)
** r은 일정하다고 가정됨

  • Detection Result
- 탐지 결과가 객체와 연관될 경우: 탐지된 바운딩 박스를 사용해 객체 상태를 업데이트, 속도 성분은 칼만 필터 프레임워크를 통해 최적화
- 탐지 결과가 객체와 연관되지 않을 경우: 객체의 상태는 선형 속도 모델을 사용하여 수정없이 단순히 예측

 


 

3.3 Data Association

- 탐지 결과를 기존 대상에 할당할 때, 각 대상의 바운딩 박스 기하학은 현재 프레임에서 새로운 위치를 예측하며 추정
- 그 후, 할당 비용 행렬은 탐지 결과와 기존 대상의 모든 예측된 바운딩 박스 간의 IOU거리로 계산
- 할당은 헝가리안 알고리즘을 사용하여 최적으로 해결
- 탐지 결과와 대상 간의 겹친 정도가 IOUmin보다 작은 경우 할당을 거부하도록 조건을 부여

헝가리안 알고리즘을 사용하여 최적화

 

  • Short-term Occlusion 처리
- 바운딩 박스의 IOU거리는 short-term occlusion 암묵적으로 처리
- 특정 대상이 가리는 객체에 의해 가려질 경우: 가리는 객체만 탐지
- IOU거리는 비슷한 크기의 탐지를 선호, 가리는 대상은 탐지 결과로 수정되며, 가려진 대상은 할당이 이루어지지 않아 영향X 

 

3.4  Creation and Detection of Track Identities

이미지에서 객체가 들어오거나 나갈 때, 고유 식별자를 생성하거나 삭제해야 한다.

  • Creating Tracker
- IOUmin보다 작은 겹침을 가진 탐지를 추적되지 않은 객체로 간주
- tracker는 바운딩 박스의 기하학적 정보를 사용하여 초기화, 속도는 0으로 설정
- 이 시점에서 속도 성분이 관찰되지 않았기 때문에, 속도 성분의 공분산은 불확실성을 반영하여 큰 값으로 초기화
- 새로운 tracker는 시험 기간을 거치게 되며, 이 기간 동안 탐지 결과와 연관되어 충분한 증거를 축적해야 잘못된 양성 추적을 방지할 수 있다.
  • Destroyed Tracker
- 특정 객체가 Tlost프레임 동안 탐지되지 않을 경우, Detection이 종료
- 이는 tracker의 보정 없이 긴 시간 동안 예측으로 인해 발생하는 위치 오류 및 tracker의 무제한 성장을 방지
- 모든 실험에서 Tlost는 1로 설정
=> 이유는 일정 속도 모델은 실제 동역학을 정확히 예측하지 못함 / 본 연구는 프레임 간 추적을 중점에 둠
  •  Early deletion of lost targets aids efficiency
- 잃어버린 대상의 조기 삭제는 효율성을 높인다.
- 객체가 다시 나타날 경우, Detection은 새로운 식별자로 암묵적으로 재개

 

 


 

4. Experiments

 


 


  • 원문

4주차 SORT.pdf
0.11MB