September 20th: Visualization of Convolutional Neural Networks for Monocular Depth Estimation

최근, CNN은 monocular depth estimation이라는 과제에서 큰 성공을 거두고 있다.

그런데 CNN이 어떻게 하나의 이미지에서 깊이를 유추할 수 있는가?

우리는 깊이 추정에 필요한 입력 이미지 픽셀을 구분해 CNN 추정을 시각화하겠다.

Optimization Problem: CNN이 depth map을 추정할 수 있는 최소 이미지 픽셀 수 찾기

CNN이 깊어서 최적화가 어려우면 다른 네트워크를 사용할 것을 제안한다.

이 최적화 문제(시각화)를 실내와 실외 장면 데이터 세트의 서로 다른 depth estimation network에 적용해서 reasonable한지 보자.

인간이 depth 추정을 위해 고려하는 6가지: linear perspective, texture gradient, aerial perspective, relative size, interposition, light and shades
CNN의 depth 추정과 관련된 픽셀들

Proposed Approach

Optimization Problem

RGB image로 Predicted Mask(M) 생성 - RGB image의 일부
RGB image로 얻은 depth map과 M으로 얻은 depth map을 비교해서 (1)둘이 가장 비슷하고 (2)가장 작은 픽셀 수를 갖는 M 찾기.

Optimization formula 찾기. 3개로 실험해 본 결과 (c)가 제일 나아서 그걸로 학습함.

KITTI dataset에서 CNN이 이미지를 이렇게 보더라

CNN이 이미지를 이렇게 본다.

September 20th