✳️ [ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale] 인트로 리뷰
앗차..
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep
arxiv.org
✳️ 번역
이미지는 16x16 단어의 가치가 있다:
대규모 이미지 인식을 위한 트랜스포머
초록 (ABSTRACT)
트랜스포머(Transformer) 아키텍처는 자연어 처리(NLP) 작업에서 사실상 표준이 되었지만, 컴퓨터 비전 분야에서는 그 적용이 여전히 제한적이다. 비전 분야에서는 어텐션 메커니즘이 컨볼루션 신경망(CNN)과 함께 사용되거나, CNN의 일부 구성 요소를 대체하면서 전체 구조는 유지하는 형태로 적용되어왔다. 우리는 이러한 CNN에 대한 의존이 필수적이지 않으며, 이미지 패치 시퀀스에 순수 트랜스포머를 직접 적용하는 것만으로도 이미지 분류 작업에서 매우 우수한 성능을 낼 수 있음을 보인다.
대규모 데이터로 사전 학습(pre-training)을 수행하고, 이를 다양한 중소형 이미지 인식 벤치마크 (ImageNet, CIFAR-100, VTAB 등)로 전이 학습(transfer learning)할 경우, Vision Transformer (ViT)는 기존 최첨단 CNN 모델들과 비교해 훨씬 적은 계산 자원으로도 탁월한 성능을 달성한다.
1. 서론 (INTRODUCTION)
자기-어텐션(self-attention) 기반 아키텍처, 특히 트랜스포머(Transformer)는 자연어 처리(NLP) 분야에서 기본 모델이 되었다 (Vaswani et al., 2017). 현재 널리 사용되는 접근 방식은 대규모 텍스트 코퍼스로 사전 학습을 한 후, 작은 작업별 데이터셋으로 미세 조정(fine-tuning)을 하는 것이다 (Devlin et al., 2019). 트랜스포머의 계산 효율성과 확장성 덕분에, 1000억 개 이상의 파라미터를 가진 모델을 학습하는 것도 가능해졌다 (Brown et al., 2020; Lepikhin et al., 2020). 데이터와 모델이 커지면서, 성능의 한계도 아직 보이지 않는다.
그러나 컴퓨터 비전 분야에서는 여전히 컨볼루션 아키텍처(CNN)가 지배적이다 (LeCun et al., 1989; Krizhevsky et al., 2012; He et al., 2016). NLP에서의 성공을 본떠, CNN 아키텍처에 자기-어텐션을 결합하려는 시도(Wang et al., 2018; Carion et al., 2020)나, 컨볼루션을 완전히 대체하려는 시도(Ramachandran et al., 2019; Wang et al., 2020a)가 있었지만, 후자의 경우 특수한 어텐션 패턴을 사용하기 때문에 현대 하드웨어 가속기에서 효율적으로 확장(scale)되지 못했다. 그 결과, 대규모 이미지 인식에서는 여전히 ResNet 기반 아키텍처가 최첨단(state of the art)을 유지하고 있다 (Mahajan et al., 2018; Xie et al., 2020; Kolesnikov et al., 2020).
NLP에서 트랜스포머가 확장에 성공한 것에 영감을 받아, 우리는 가능한 최소한의 수정으로 표준 트랜스포머를 이미지에 직접 적용해 실험했다. 이를 위해 이미지를 패치로 분할하고, 이 패치의 선형 임베딩 시퀀스를 트랜스포머의 입력으로 사용한다. 이미지를 구성하는 패치들은 NLP에서 단어 토큰처럼 처리된다. 우리는 이 모델을 이미지 분류 작업에서 지도 학습(supervised learning)으로 훈련했다.
중간 규모 데이터셋 (예: ImageNet)에서 강한 정규화 없이 학습할 경우, 이 모델은 비슷한 크기의 ResNet보다 몇 퍼센트 낮은 정확도를 기록했다. 이는 다소 실망스러운 결과로 보일 수 있지만, 어느 정도 예상된 결과다. 트랜스포머는 CNN 고유의 유도 편향(inductive bias)인 변환 불변성(translation equivariance)과 지역성(locality)을 가지지 않기 때문에, 충분한 데이터가 없으면 일반화 성능이 떨어질 수 있다.
하지만, 대규모 데이터셋(14M~300M 이미지)에서 학습할 경우 상황이 달라진다. 우리는 대규모 학습이 유도 편향을 뛰어넘는다는 것을 발견했다. 우리의 Vision Transformer (ViT)는 충분한 스케일로 사전 학습 후 소규모 작업으로 전이 학습할 때, 매우 뛰어난 성능을 보인다.
특히, 공개 데이터셋인 ImageNet-21k 또는 사내 데이터셋인 JFT-300M으로 사전 학습 시, ViT는 다양한 이미지 인식 벤치마크에서 최첨단(CNN) 모델과 비슷하거나 이를 능가했다.
구체적으로, 최고 성능 모델은 다음과 같은 정확도를 기록했다:
- ImageNet: 88.55%
- ImageNet-ReaL: 90.72%
- CIFAR-100: 94.55%
- VTAB(19개 과제 평균): 77.63%
✳️ 요약
- 트랜스포머(Transformer)는 자연어 처리(NLP)에서 표준 아키텍처가 되었지만, 컴퓨터 비전(CV)에서는 아직 제한적으로만 사용됨.
- 기존 비전 분야에서는:
- CNN 기반 구조에 어텐션을 추가하거나,
- CNN의 일부를 어텐션으로 대체하는 방식만 있었음.
- ResNet 같은 CNN 모델이 여전히 주류.
- ViT (Vision Transformer):
- CNN 없이 순수 트랜스포머를 사용.
- 이미지를 16x16 패치로 나누고, 이를 단어 토큰처럼 처리하여 트랜스포머에 입력.
- 이미지 분류를 지도 학습(supervised)으로 수행.
- 소규모 데이터셋 (예: ImageNet)에서는 CNN보다 성능이 다소 낮음.
- 이유: 트랜스포머는 CNN의 유도 편향 (지역성, 변환 불변성) 부족 → 적은 데이터로 일반화 어려움.
- 그러나 대규모 데이터셋 (14M~300M 이미지)에서 사전 학습하면:
- 트랜스포머가 CNN의 유도 편향 없이도 탁월한 성능을 냄.
- 사전 학습 + 전이 학습(transfer learning)을 통해 다양한 이미지 인식 작업에서 CNN SOTA를 능가.
- 주요 성능:
- ImageNet: 88.55%
- CIFAR-100: 94.55%
- VTAB(19개 과제): 77.63%
대규모 사전 학습이 CNN의 inductive bias를 뛰어넘는다.
트랜스포머도 패치 기반 입력으로 이미지 인식에서 CNN을 대체할 수 있다.