본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
Club/Euron | AI,데이터분석 학회

✳️ 유런 방학프로젝트 최종 발표 : 자율주행 차량 시점 영상에서의 semantic Segmentation

by 정람지 2025. 8. 12.

오토냥ppt.pdf
5.82MB

 

 

 

  ppt는  팀원들이  맡아  줬당

나는 발표랑 발표문 작성 담당

라임


안녕하세요. 오토냥 팀 방학프로젝트 최종 발표 진행하겠습니다.

저희의 주제는 자율주행 차량 시점 영상에서의 semantic Segmentation입니다.

자율주행 차량 시점 영상에서의 시맨틱 세그멘테이션 모델을 비교하고, 앙상블을 통해 성능을 향상한 프로젝트 결과를 공유하겠습니다.

 발표는 배경과 목표, 데이터와 전처리, 모델과 학습 설정, 평가 지표, 결과와 한계, 그리고 개선 방향 순으로 진행하겠습니다.

저희 팀원 ~~~~ 입니다.

지금부터 프로젝트 개요를 말씀드리겠습니다. 왜 이 문제가 중요한지, 그리고 무엇을 달성하려 했는지 구체적으로 설명하겠습니다.

자율주행의 핵심은 주변 환경 인식입니다.

차량은 주행 중 도로, 차선, 보행자, 차량, 신호등 등 다양한 객체를 실시간으로 인식해야 합니다.

시맨틱 세그멘테이션은 픽셀 단위 분류로 객체 경계를 정밀하게 파악할 수 있어 실제 자율주행 파이프라인에서 활용되고, 검출 모델보다 더 섬세하고 직관적인 출력을 제공합니다.

이번 프로젝트의 목표는 차량 시점 영상에서 도로/차선/보행자 영역을 정확히 분할하는 것입니다.

이제 데이터셋과 모델 구조를 설명하겠습니다. 서로 다른 환경의 두 데이터셋을 사용해 일반화 성능을 점검하고, 세 가지 모델을 비교·결합하겠습니다.

Cityscapes는 독일 50개 도시에서 촬영된 도심 환경 데이터로, 주간·맑은 날 위주이며 보행자·차량·교통표지 등 도심 교통 요소가 풍부한 유럽형 도로 구조를 담고 있습니다.

사용 파일은 leftImg8bit_trainvaltest.zip(이미지 5000장), gtFine_trainvaltest.zip으로, train/val에 대해 3475장의 정밀 어노테이션이 제공되고 test 1525장은 dummy(무시 영역) 주석이 제공됩니다.

 

BDD100K는 미국 전역(동·서·남·북)의 도심·교외·고속도로를 아우르며 주·야간, 비·눈·안개 등 다양한 기상 조건과 미국형 넓은 도로 구조를 포함합니다.

사용 데이터는 bdd100k_images_10k.zip으로 전체 100K 영상에서 대표성을 고려해 추출된 1만 장 이미지를 활용하겠습니다.

이제 사용 모델을 설명하겠습니다. U-Net, DeepLabv3+, SegFormer 세 구조를 비교하고 앙상블로 결합해 보겠습니다.

U-Net은 수축 경로(Conv+Pooling 반복)로 전역 문맥을 추출하고, 확장 경로(Up-Conv 반복)로 위치 정보를 복원하며, 스킵 연결로 인코더의 특징을 디코더에 직접 전달해 경계를 세밀하게 유지합니다.

 

DeepLab v3+는 ResNet-101/Xception엑셉션 백본 위에 ASPP 모듈로 다양한 dilation rate의 Atrous에이트러스 Conv컨볼루션 를 병렬 적용해 멀티스케일 문맥을 포착하고, 저해상도 의미 특징과 고해상도 경계/텍스처 특징을 결합하는 디코더로 경계를 복원합니다. Atrous Separable Conv를 사용해 연산량도 낮춥니다.

 

SegFormer는 MiT(오버래핑 패치 머징) 인코더로 연속적인 지역 정보를 유지하고, 포지셔널 인코딩 없이 Mix-FFN으로 위치 정보를 학습합니다. 경량 MLP 디코더가 다중 스케일 특징을 통합해 넓은 수용영역을 확보하며 파라미터 대비 높은 효율을 보입니다.

이제 학습 설정을 공유하겠습니다. 공정 비교를 위해 모든 실험의 기본 설정을 통일했습니다.

손실 함수는 CrossEntropyLoss, 옵티마이저는 Adam(lr=1e-5)로 설정했습니다. Epoch는 10, 배치 크기는 2, 입력 해상도는 512×1024로 통일했습니다. 디바이스는 가능하면 CUDA를 사용하되, 그 외에는 CPU로 동작합니다. 체크포인트는 검증 mIoU 기준의 베스트 모델을 저장했습니다. 클래스 수는 trainId 기준 19개이며, 원본 labelIds를 trainId 0–18로 리매핑하여 일관성 있게 평가했습니다. 평가지표는 Accuracy와 mIoU(매크로 평균)을 사용했습니다.

이제 결과와 성능 향상 과정을 설명하겠습니다. 지표 정의를 먼저 정리하고, 단일 모델과 앙상블 결과를 순서대로 보겠습니다.

mIoU(Mean Intersection over Union)는 클래스별 IoU를 계산한 뒤 평균을 낸 값입니다. IoU는 예측 영역과 정답 영역의 교집합을 합집합으로 나눈 비율이며, 클래스 간 불균형이 큰 상황에서도 공정한 평가가 가능하여 시맨틱 세그멘테이션의 표준 지표로 널리 사용합니다.

Pixel-wise Accuracy는 전체 이미지에서 정확히 예측한 픽셀 수를 전체 픽셀 수로 나눈 값입니다. 직관적으로 전반적인 성능 수준을 빠르게 파악할 수 있으나, 도로·하늘처럼 넓은 면적 클래스로 인해 편향될 수 있어 mIoU와 병행하여 해석했습니다.

두 지표를 병행해 보겠습니다. Pixel Accuracy로 전체 성능의 윤곽을 빠르게 파악하고, mIoU로 클래스별 편차까지 세밀하게 점검했습니다. 이렇게 하면 전반 성능과 취약 클래스를 동시에 관리할 수 있습니다.

표는 데이터셋별로 각 모델의 mIoU와 Accuracy를 정리한 내용입니다.

mIoU(Cityscapes/BDD100K):

UNet 0.1058 / 0.0058,

DeepLabv3+ 0.3041 / 0.2100,

SegFormer 0.4117 / 0.3000.

 

Accuracy(Cityscapes/BDD100K):

UNet 0.5930 / 0.2177,

DeepLabv3+ 0.7200 / 0.5400,

SegFormer 0.7500 / 0.6200.

 

 

SegFormer가 두 데이터셋 모두에서 가장 높은 mIoU와 Accuracy를 보이며,

DeepLabv3+가 그 다음,

U-Net이 가장 낮았습니다.

다음으로 모델 성능을 향상시키기 위해 앙상블 기법을 도입했습니다.

 

Hard Voting은 각 모델의 예측 클래스 중 가장 많이 나온 값을 최종 예측으로 선택합니다.

예측 확률 정보는 사용하지 않아 단순하고 견고합니다.

 

Soft Voting은 각 모델의 소프트맥스 확률을 평균한 뒤 가장 높은 확률의 클래스를 선택합니다. 클래스 확률이 비슷할 때 더 정밀한 판단이 가능합니다.

 

Weighted Voting은 모델마다 중요도/신뢰도 가중치를 부여한 뒤 Hard/Soft Voting에 반영합니다. 모델 간 성능 차이를 반영해 잘하는 모델의 영향력을 키우고 약한 모델의 영향력을 줄일 수 있습니다.

Accuracy(Cityscapes/BDD100K): Soft 0.7277 / 0.0018, Hard 0.7278 / 0.0018, Weighting 0.7302 / 0.0072.

mIoU(Cityscapes/BDD100K): Soft 0.3085 / 0.0007, Hard 0.3085 / 0.0014, Weighting 0.3605 / 0.002.

 

Cityscapes에서는 가중 투표가 소폭 우세했고,

BDD100K에서는 수치상 개선 폭이 매우 제한적입니다.

이러한 분포 차이는 데이터 특성과 라벨 품질 영향으로 해석하였습니다.


임의 샘플 비교에서 U-Net은 아예 객체 인식이 누락되는 경우가 관찰됩니다.

DeepLabv3+는 클래스에 관계없이 도로와 그 외 정도로 뭉뚱그리는 경향이 있습니다.

SegFormer는 상대적으로 안정적이며 도로 외에도 나무, 사람 등 복수 객체를 함께 인식하는 경향을 보입니다.

이 차이는 앙상블의 필요성을 뒷받침합니다.

이제 주요 성과와 한계를 정리하겠습니다. 수치와 관찰 중심으로 간결하게 정리하겠습니다.

 

성과로는 첫째, UNet/DeepLabv3+/SegFormer 단일 모델과 비교했을 때 세 가지 앙상블 기법 모두 mIoU가 향상되었습니다.

둘째, Accuracy도 세 기법 모두에서 약 0.7 수준으로 양호한 결과를 보였습니다.

셋째, 앙상블을 통해 단일 모델의 단점을 보완할 수 있음을 확인했습니다.

 

한계로는

첫째, 기본 BDD100K는 라벨링 모호성이 있어 Cityscapes 대비 전반 성능이 낮게 나옵니다.

둘째, 앙상블이 항상 우월하지는 않습니다.

예를 들어 BDD100K에서 Soft-voting mIoU 0.002는 단일 모델 0.0007/0.0014/0.002와 비교해 이득이 제한적이었습니다.

개선 방안으로 세 가지를 제시하겠습니다.

첫째, 실시간 처리 제한을 해결하기 위해 경량화·프루닝·양자화·엔드투엔드 지연 관리로 지연 예산을 맞추겠습니다.

둘째, BDD100K의 라벨 모호성은 라벨 정제와 하드 케이스 중심 증강으로 보완할 수 있을 것입니다.

셋째, Meta-Learner(MLP) 기반 스태킹을 추가 실험하여 모델 출력과 불확실성을 통합적으로 활용할 수 있으리라 예상됩니다.

 

결론 정리하겠습니다.

첫째, 두 데이터셋 모두에서 SegFormer가 최고 성능을 보였습니다.

둘째, 앙상블을 통한 성능 향상 가능성을 확인했습니다.

셋째, 실제 자율주행 적용을 위한 확장성이 있음을 확인했습니다.

경청해 주셔서 감사합니다.