【Paper】 Mask R-CNN 논문 핵심 정리

Mask R-CNN 논문의 핵심만 직접 정리해 적어놓은 내용입니다.

Mask R-CNN 논문 핵심 정리
이전 게시물도 참고하시는 것을 추천드립니다.

1. FCN (Fully Convolutional Network)

Pixel wise Classification : 이미지 각 pixel에 대한 Classification 수행
= Pixel Grid by Grid로 Softmax값이 추출된다.
Segmentation Annotation 기법 2가지 방법
- 1 depth를 이용하는 첫번째 방법
- Class 갯수 depth를 이용하는 두번째 방법
- coco - mask 데이터의 다각형 꼭지점 값 이용.

drawing

Encoder & Decoder 기법
- Dimension Reduction 하여 응축된 정보를 가지고 (위치 정보 소실) 다시 복원(Upsampling) 하는 과정을 거친다.

drawing

FCN architecture : 사진 속 필기 확인하기
- De-Convolution : convolution 기법을 반대로 수행하는 것이 아니다. 보간법(bilinear interpolation)을 사용한다. 이것을 통해서 복구를 하는 것이다. 최대한 비슷하게…

drawing

drawing

drawing

ROI Pooling의 문제점
- 아래 이미지 참조. quantization을 2번 거친다. (= 실수의 반올림을 2번 한다.)
- 아래의 이미지의 2번쨰 quantization(B1)은 아래와 같은 과정을 거칠 수도 있지만,
  Grid의 나눔을 불균등하게 하는 방법(B2)도 있다. (B1 - 5 = 2 + 2 + (1 버림) OR B2- 5 = 3 + 2)
- 때문에 정확한 Pooling이 이뤄지지 못한다.

drawing

Fearture Extractor (BackBone) : Resnet + Feature Pyramid Network
Totoal Loss = L_cls + L_bbox + L_mask
- L_cls = Multiclass cross-entropy loss (Softmax)
- L_bbox = Smooth L1 loss
- L_mask = Binary cross-entropy loss(해당 픽셀이 Classification에서 찾 Object class인지 아닌지(Sigmoid 사용))
Mask Prediction
- 7 x 7 x 2048이 14 x 14 x 256으로 Upsampling된다.
- 14 x 14 x 256은 14 x 14 x 80이 되어서, COCO 80개 Class에 대한 이진 Binary mask prediction값이 나온다. (아래 오른쪽 이미지의 Prediced Mask)
- Prediced Mask(14 x 14)를 Upsampling하여 Resized Mask가 되도록 만든다.

drawing

drawing