ODAI 16

[Review]Spiking YOLO

0. Abstract- SNN을 이용한 Object Detection을 수행- 이를 위해 2가지 새로운 기법을 적용1. Channel-wise-normalization2. signed neuron with imbalanced threshold- 결과적으로 최초의 SNN 기반 Object Detection model인 Spiking-YOLO를 제안한다.- PASCAL VOC와 MS COCO 데이터 셋에서 Tiny YOLO와 최대 98%에 달하는 유사한 성능을 보임.- Neuromorphic chip에서 Tiny YOLO 대비 약 280배 적은 에너지 소비 최초의 SNN 기반 Object Detection model인 Spiking-YOLO를 제안 1. Channel-wise-normalization2. s..

ODAI 2025.03.27

[Review]EMS-YOLO

0. Abstract- SNN은 뇌에서 영감을 받은 에너지 효율적인 모델로, 공간-시간적(spatiotemporal) 정보를 활용하여 연산을 수행- 객체 탐지(Object Detection)와 같은 회귀(Regression) 문제에 직접 학습된 SNN을 적용하는 것은 여전히 과제- " EMS-YOLO" 라는 새로운 직접 학습 SNN 프레임워크를 제안- ANN-SNN 변환 없이 surrogate gradient를 활용하여 직접 학습되는 최초의 SNN 기반 객체 탐지 모델1. 깊은 네트워크 학습 가능 (Gradient Vanishing/Exploding 문제 해결)2. 낮은 전력 소비 유지 (Non-Spike 연산 최소화)- 실험 결과, EMS-YOLO는 기존 ANN-SNN 변환 모델(최소 500개의 타임 ..

ODAI 2025.03.11

[Review]MOTR: End-to-End Multiple-Object Tracking with Transformer

0. Abstract- 객체의 시간적 모델링(Temporal modeling)은 다중 객체 추적(Multiple-Object Tracking, MOT)에서 중요한 도전 과제이다.- 기존 방법들은 탐지된 객체를 모션 기반 및 외형(appearance) 기반 유사성(heuristics)을 활용하여 연관(association)하는 방식을 사용- 그러나, 이러한 연관 과정이 후처리(post-processing)로 수행되기 때문에, 비디오 시퀀스에서 시간적 변화를 End-to-End 방식으로 활용하는 것이 불가능하다.MOTR>- 이는 기존 DETR (DEtection TRansformer)모델을 확장한 방식이며, "Track Query" 개념을 도입하여 전체 비디오에서 추적된 객체를 모델링한다.- Track Qu..

ODAI 2025.02.23

[Review]Spiking DETR

0. Abstract- Object Detection Domain에서 SNNs(Spiking Neural Networks)는 energy-efficient 특성으로 인해 CNNs를 대체1. 하지만 SNNs based Object Detection은 Event data를 Tensor로 변환하는 과정에서 정보의 손실이 발생2. 인위적인 post-processing module로 인해 불필요한 계산이 추가되는 한계가 존재=> 이러한 문제를 해결하고자 Spiking-Transformer와 DETR Architecture를 도입한 Spiking-DETR 제안- Spiking-DETR은 다음 4가지 module로 구성된다.1. Mixed Time Bin Cube(MTB Cube): Event-tensor Trans..

ODAI 2025.01.22

[Review]TrackFormer(Multi-Object Tracking with Transformers)

0. Abstract- 다중 객체 추적(MOT)에서 프레임 간 track initialization, identitiy 유지, spatio-temporal trajectories(시공간 궤적)이 주요 과제. - frame-to-frame set prediction problem을 공식화하고, TrackFormer라는 End-to-End 학습 가능한 MOT 접근 방식을 소개 - TrackFormer는 트랜스포머 기반으로, attention을 사용하여 객체 검출과 추적을 통합적으로 처리.- TrackFormer는 비디오 시퀸스를 통해 Track Prediction set을 발전시키며, attention을 통해 frame간 data association을 할당- Transformer Decoder는 stati..

ODAI 2025.01.18

[Review]DETR(End-to-End Object with Transformers)

0. Abstract- Object Detection을 직접적인 집합 예측 문제(Direct set prediction problem)로 보는 새로운 방법을 제시- 비최대 억제 절차(non-maximum suppression)나 앵커(anchor) 생성과 같은 수작업 설계 요소를 효과적으로 제거- Detection pipeline을 간소화한다.- DETR(DEtection TRansformer)라고 불리는 새로운 프레임워크- 주요 구성 요소는 bipartite matching을 통해 고유한 예측을 강제하는 집합 기반 전역 손실(global loss)과 트랜스포머 인코더-디코더 아키텍처- 소규모의 고정된 학습 객체 쿼리 세트를 기반으로, DETR은 객체 간 관계와 이미지의 전역적 문맥을 논리적으로 판단하여..

ODAI 2025.01.04

[Review]Spiking YOLO

0. Abstract- SNN은 이벤트 기반 처리와 낮은 전력 소모의 장점이 있다.- 그러나 뉴런의 복잡한 동작과 spike 연산의 비미분 가능성 때문에 학습이 어렵다.- 또한, 현재까지 SNN의 응용은 이미지 분류와 같은 단순 작업에 제한되었다.- 본 연구에서는 SNN이 Object Detection이라는 더 어려운 regression 문제에서 성능이 저하되는 이유를 분석- 이를 해결하기 위해 2가지 새로운 방법을 제안1. Channel-wise-normalization(채널 단위 정규화)2. Signed Neuron with imbalanced Thresold(불균형 임계값 서명 뉴런)=> 이를 통해 깊은 SNN에서 빠르고 정확한 정보 전달을 가능하게 한다.Spiking-YOLO라 불리는 최초의 sp..

ODAI 2024.12.31

[Summary]FairMOT

Architecture- CenterNet을 기반으로 설계- Detection과 re-ID 작업이 동일하게 처리CenterNet- Anchor-Free 탐지 방식- 물체마다 단 하나의 Keypoint인 중심점을 추정- 각 물체들은 모두 하나의 점(Key point)로 표현=> 고정적이지 않은 단 하나의 Anchor를 사용1. Box overlap이 아닌 오직 위치만을 가지고 "Anchor" 할당2. 오직 하나의 "Anchor"만을 사용 Backbone Network- 멀티스케일의 특징을 통합하기 위해 설계된 네트워크 - Feature Pyramid Network(FPN)와 유사하게 고수준(high-level)과 저수준(low-level) 특징 간의 연결을 추가로 제공- 변형 가능한 컨볼루션(Deforma..

ODAI 2024.12.29

Object Detection Milestones

Object Detection- 컴퓨터 비전 분야에서 이미지나 비디오에서 객체를 탐지하고, 해당 객체의 위치와 크기를 식별하는 기술- 이미지나 비디오에서 여러 개의 객체를 감지하고, 분류하는 작업을 수행=> Object Detection = Multi-labeled Classification + Bounding Box Regression Object Detection은 보통 두 가지 작업으로 분류된다.Classification(객체 분류)- 이미지에서 객체가 무엇인지 판단하는 작업- 해당 객체가 어떤 카테고리에 속하는지 판단하는 것 Localization(객체 위치 식별)- 이미지에서 객체가 어디에 있는지를 찾아내는 작업- 이미지 내에서 각 객체의 Bounding Box를 찾는 것   Two-stage ..

ODAI 2024.12.28

Object Detection Model - CNN vs YOLO

CNN(Convolution Neural Network)- 인간의 시신경을 모방하여 만들어짐- DNN의 문제점에서 부터 출발=> DNN은 기본적으로 1차원 형태의 데이터를 사용/ 2차원 이미지가 입력값이 되는 경우, 이를 이것을 flatten 시켜 한 줄의 데이터로 만드는데 이 과정에서 공간적, 지역적 정보가 손실된다.- CNN은 이미지를 그대로 받아 공간적, 지역적 정보를 유지한 채 특성들의 계층을 빌드업한다.=> 이미지 전체보다는 부분을 본다, 이미지의 한 픽셀과 주변 픽셀들의 연관성을 살린다.BackgroundConvolution- input: d1 X d2- Filter: k1 X k2=> Output: (d1-k1+1) X (d2-k2+1)Zero Padding- Edge(테두리)를 0으로 구성..

ODAI 2024.12.28