Semantic Image Segmentation을 위한 Atrous Separable Convolution 기반 Encoder-Decoder 구조
초록(Abstract)
딥러닝 기반의 Semantic Segmentation(의미론적 분할) 과제에서는 공간 피라미드 풀링 모듈(Spatial Pyramid Pooling)이나 인코더-디코더 구조가 자주 사용된다. 전자는 다양한 비율과 receptive field로 필터링 또는 풀링을 수행해 다중 스케일의 컨텍스트 정보를 인코딩할 수 있으며, 후자는 점차 공간 정보를 복원함으로써 보다 선명한 객체 경계를 포착할 수 있다.
이 논문에서는 두 방식의 장점을 결합한 DeepLabv3+ 모델을 제안한다. 이는 기존 DeepLabv3에 간단하지만 효과적인 디코더 모듈을 추가하여 특히 객체 경계 부분의 분할 성능을 향상시킨다. 또한, Xception 모델을 활용하여 depthwise separable convolution을 Atrous Spatial Pyramid Pooling(ASPP)과 디코더 모듈 모두에 적용함으로써 더욱 빠르고 강력한 encoder-decoder 네트워크를 구현한다.
제안된 모델은 PASCAL VOC 2012와 Cityscapes 데이터셋에서 후처리 없이 각각 89.0%, **82.1%**의 성능을 기록하며 효과를 입증한다. 본 논문의 모델 구현은 TensorFlow로 오픈소스로 제공된다:
https://github.com/tensorflow/models/tree/master/research/deeplab
주요 키워드
- 의미론적 이미지 분할
- 공간 피라미드 풀링
- 인코더-디코더 구조
- depthwise separable convolution
1. 서론 (Introduction)
Semantic Segmentation은 이미지의 각 픽셀에 의미 있는 라벨을 부여하는 작업으로, 컴퓨터 비전의 핵심 과제 중 하나다. 기존의 handcrafted features를 기반으로 한 시스템보다 Fully Convolutional Network(FCN) 기반의 딥러닝 모델들이 훨씬 뛰어난 성능을 보이고 있다.
이 논문에서는 두 가지 접근법을 논의한다:
- 공간 피라미드 풀링 모듈을 이용한 네트워크
- → 여러 해상도에서의 피처를 풀링하여 풍부한 컨텍스트 정보를 확보
- 인코더-디코더 구조의 네트워크
- → 하위 해상도에서 인코딩 후, 디코더를 통해 고해상도로 복원하면서 경계선 복구
DeepLabv3는 여러 비율의 atrous convolution (팽창 합성곱)을 병렬로 적용하여 멀티스케일 컨텍스트를 포착한다. 반면 PSPNet은 다양한 그리드 스케일에서 풀링을 수행한다.
하지만 이러한 구조는 최종 피처맵에서 객체의 세부 경계 정보가 손실되는 문제가 있다. 고해상도의 피처맵을 추출하기 위해 atrous convolution을 많이 사용하면 계산 비용이 급증하며, GPU 메모리에도 부담이 된다. 예를 들어, ResNet-101을 사용할 때 출력 해상도를 높이려면 최대 78개의 레이어에서 dilation을 적용해야 할 수도 있다.
한편, 인코더-디코더 구조는 인코더에서 효율적으로 연산하고 디코더에서 선명한 경계를 복원할 수 있는 장점이 있다.
2. 제안 방법: DeepLabv3+
DeepLabv3+는 DeepLabv3를 기반으로 하되, 다음과 같은 개선 사항을 포함한다:
- 심플하고 효과적인 디코더를 추가하여 객체의 경계를 보다 정확히 복원
- atrous convolution을 이용해 인코더 피처의 해상도를 조절할 수 있게 하여 정확도와 연산량 간의 trade-off 조절 가능
- Xception 모델을 변형하여 segmentation task에 적합하게 적용
- depthwise separable convolution을 ASPP 및 디코더 모듈에 도입하여 속도와 정확도 모두 개선
3. 성능 요약
- PASCAL VOC 2012: mIoU 89.0%
- Cityscapes: mIoU 82.1%
- 후처리 없이도 state-of-the-art 성능을 달성
4. 주요 기여 정리
- DeepLabv3를 인코더로 활용하고, 디코더 모듈을 추가한 새로운 encoder-decoder 구조 제안
- atrous convolution을 통해 인코더 피처 해상도를 유연하게 조절할 수 있음
- Xception 기반 구조 및 depthwise separable convolution 적용으로 속도와 정확도 향상
- PASCAL VOC 및 Cityscapes에서 최신 성능 달성
- TensorFlow로 구현한 오픈소스 코드 제공
'Club > Euron | AI,데이터분석 학회' 카테고리의 다른 글
[유런오토냥] Segformer 구현 (0) | 2025.07.12 |
---|---|
🎇 은하 병합 image-only 모델 : AutoEncoder (2) | 2025.07.09 |
[U-Net: Convolutional Networks for Biomedical Image Segmentation] 논문 (0) | 2025.07.05 |
[SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers] 논문 (0) | 2025.07.05 |
✳️ 유런 방학 프로젝트 : 자율주행 차량 시점 영상에서 도로/차선/보행자 Segmentation (0) | 2025.06.25 |