본문 바로가기

paper review

Learning Spatiotemporal Features with 3D Convolutional Networks

Introduction

video descriptor 의 특성 : generic, compact, efficient, simple

Contributions
1. appearance와 motion을 학습하여 feature를 추출함
2. 3x3x3 kernel 이 가장 성능이 좋음
3. compact, efficient and high accuracy

Related Work

STIPs, HOG, SIFT, iDT
Deep learning을 활용한 video feature learning
3D를 접목시키려던 시도는 계속 있었다.

HOG : Histogram of Oriented Gradient

1. Normalize gamma & color
2. Compute gradients
3. Weighted vote into spatial & orientatoin cells
: 8x8 크기의 셀로 나누고 gradient magnitude와 gradient direction을 통해 histogram에 vote => 방향에 대한 histogram을 알 수 있음

3D conv Nets 특징 & architecture

2D conv는 어떻게 하나 시간적 정보를 손실함 하지만 3D conv는 시간적 정보를 보존

architecture

공간 kernel의 크기는 3x3(k)이 2D  conv에서 가장 좋았기 때문에 그대로 이용, depth 만 변경하면서 최적값(d)을 찾음

실험결과

가장 좋은 kernel size: 3x3x3

Spatiotemporal feature learning

network architecture : 8 convolution layers, 5 pooling layers, two fully connected layers, softmax output layer

conv kernel : 3x3x3 (stride : 1x1x1)
pooling layers : 2x2x2 (stride : 2x2x2) / pool1 : 1x2x2 (stride : 1x2x2)
Sports-1M dataset (1.1 million sports video, 487 categories)

Sports-1M dataset training

random crop : 16x112x112
horizontally flip : 50% 확률로 flip
optimizer : SGD
batch size : 30
learning rate : 0.003
loss : softmax

deconvolution

deconvolution : top activations => image space

deconvolution을 통해 알아낸 C3D 특징 : focusing on appearance in the first few frames and tracks the salient motion in the subsequent frames

Action recognition

Action recognition : 동작들을 학습하고 이 동작이 어떤 동작인지 예측하는 task
Classification model : C3D feature extractor + linear SVM

C3D + iDT 모델의 정확도가 높음 => 서로 상호보완적

Visualizing feature embedding

t-SNE : C3D features are projected to 2-dimensional space

Action Similarity Labeling

action similarity labeling : 두 개의 영상이 같은 동작인지 아닌 지 구별하는 것 ( 본 적 없는 영상으로 구성되어 있기 때문에 어려움 )
각 비디오에서 48차원 벡터 생성 => 정규화
linear SVM이 48차원 벡터에 대해 같은 영상인지 다른 영상인지 분류

Scene and Object Recognition

Scene and Object Recognition : clip에서 가장 많이 발생하는 label을 ground truth label (8 frame 이아 발생 시 no object) 이라 하고 이를 찾아내는 task

C3D is trained only on Sports-1M while Imagenet is fully trained on 1000 object categories => C3D is generic