본문 바로가기

paper review

(3)
Learning Spatiotemporal Features with 3D Convolutional Networks Introduction video descriptor 의 특성 : generic, compact, efficient, simple Contributions 1. appearance와 motion을 학습하여 feature를 추출함 2. 3x3x3 kernel 이 가장 성능이 좋음 3. compact, efficient and high accuracy Related Work STIPs, HOG, SIFT, iDT Deep learning을 활용한 video feature learning 3D를 접목시키려던 시도는 계속 있었다. HOG : Histogram of Oriented Gradient 1. Normalize gamma & color 2. Compute gradients 3. Weighted vote ..
You Only Look Once: Unified, Real-Time Object Detection (CVPR, 2016) Main Contribution - Unified Architecture(1 stage detector) - real-time detection이 가능하도록 속도 개선 - 여러 도메인에서 object detection 가능 YOLO model output 해석 1. 이미지를 4x4 grid로 분할합니다. 2. 각 grid cell 마다 bbox(bounding box)를 2개씩 예측합니다.(여기서는 grid가 총 16개이므로 bbox는 16*2개 만큼 생성) 3. 하나의 bbox에 대해 bbox 의 중심좌표(x,y), 너비(w)와 높이(h),confidence score를 output으로 반환합니다. (중심 좌표는 grid 셀 기준으로 0~1사이의 값을 가집니다. 예를 들어 중심좌표가 grid의 가장 왼..
Fatigue Detection on Face Image Using FaceNet Algorithm and K-Nearest Neighbor Classifier Background 코로나로 인해 온라인 클래스가 늘어남에 따라 컴퓨터를 장시간 보게 됨으로써 피로를 호소하는 사람도 많아졌다. 이러한 문제점을 개선하기 위하여 조기에 피로를 탐지하는 방법을 제시해보고자 한다. Method 얼굴 데이터셋 준비 UTA-RLDD dataset : 18~51세 재학생과 졸업생으로 이루어져있음. focused, unfocused and fatigue 이렇게 세 가지 class로 이루어져있음 1000개의 training data와 100개의 validation data Haar cascades 방법을 이용해 얼굴 탐지하기 cascade function을 이용하는 machine learning 방법 ( 더 정확한 detector가 있다면 그걸 쓰자) 얼굴데이터 전처리 FaceNet..