Posts

Friday, 8 November 2019

Visualization of Convolutional Neural Networks for Monocular Depth Estimation








최근, CNN은 monocular depth estimation이라는 과제에서 큰 성공을 거두고 있다.
그런데 CNN이 어떻게 하나의 이미지에서 깊이를 유추할 수 있는가?
우리는 깊이 추정에 필요한 입력 이미지 픽셀을 구분해 CNN 추정을 시각화하겠다.
Optimization Problem: CNN이 depth map을 추정할 수 있는 최소 이미지 픽셀 수 찾기
CNN이 깊어서 최적화가 어려우면 다른 네트워크를 사용할 것을 제안한다.
이 최적화 문제(시각화)를 실내와 실외 장면 데이터 세트의 서로 다른 depth estimation network에 적용해서 reasonable한지 보자.


  • 인간이 depth 추정을 위해 고려하는 6가지: linear perspective, texture gradient, aerial perspective, relative size, interposition, light and shades
  • CNN의 depth 추정과 관련된 픽셀들

Proposed Approach

Optimization Problem
  1. RGB image로 Predicted Mask(M) 생성 - RGB image의 일부
  2. RGB image로 얻은 depth map과 M으로 얻은 depth map을 비교해서 (1)둘이 가장 비슷하고 (2)가장 작은 픽셀 수를 갖는 M 찾기.
  • G: M 찾는 net
  • N: depth estimation하는 net

Optimization formula 찾기. 3개로 실험해 본 결과 (c)가 제일 나아서 그걸로 학습함.
KITTI dataset에서 CNN이 이미지를 이렇게 보더라

CNN이 이미지를 이렇게 본다.
  1. Edge 중요
  2. Object이 있으면 내부 region을 고려함
  3. 소실점은 항상 중요하게 고려됨


[ new blog ]

new blog https://jihyo-jeon.github.io/