본문 바로가기
딥러닝

[딥러닝] Vision Transformer와 Attention 기반 딥러닝 모델

by LSB98 2025. 7. 5.
728x90
반응형

1️⃣ Attention Mechanism의 발전 과정

Attention Mechanism은 인공지능 모델이 입력의 중요 부분에 집중하도록 돕는 핵심 기술입니다.

  • 고전적 방법
    • Feature Selection: 분별력(discriminating power)이 높은 특징만 선택
    • Saliency Map (Itti, 1998): 명암·색상·방향 대비 기반의 돌출맵
    • 🎯 수동 규칙 기반으로 주요 특징을 강조
  • 딥러닝 기반 방법
    • Recurrent Attention Model (RAM, 2014): RNN으로 주목 위치를 순차적으로 학습
    • Spatial Transformer Network (STN, 2015): 이미지의 이동·회전·크기 변화를 처리하며 주목 영역 파악
    • SENet (2017): 채널별 중요도를 학습(Squeeze & Excitation)
구분 고전적 Attention 딥러닝 Attention
주요 방식 수동 규칙 학습 기반 가중치
대표 예시 Saliency Map RAM, STN, SENet
특징 직관적, 제한적 유연, 데이터 중심

 

2️⃣ Query-Key-Value Self-Attention과 Transformer의 혁신

Transformer는 "Attention is All You Need"(Vaswani, 2017) 논문에서 제안된 모델로, CNN과 RNN을 완전히 대체했습니다.

  • Query-Key-Value Attention
    • Query와 Key 유사도 → Value 가중합
    • Softmax로 가중치 결정
    • 예) Query가 3번째 Key와 가장 유사하면, 3번째 Value에 집중
  • Self-Attention
    • 입력의 각 토큰이 다른 모든 토큰과의 관계를 학습
    • 문맥의 장거리 의존성을 한 번에 처리
  • Multi-head Attention
    • 여러 Attention Head로 다양한 패턴을 병렬 학습

Transformer 특징

  • 모든 단어를 동시에 처리
  • Encoder/Decoder 블록 반복
  • 위치 인코딩(Positional Encoding)으로 순서 정보 보존

 

3️⃣ Vision Transformer (ViT)의 설계와 작동 원리

ViT는 이미지 처리에 Transformer를 그대로 적용하는 모델입니다.

텍스트 처리 이미지 처리
단어: 1차원 시퀀스 픽셀: 2차원 배열
이산적 단어 연속적 픽셀
수십 토큰 수만~수백만 픽셀

 

핵심 아이디어

  • 이미지를 패치(Patch) 단위로 나누어 일종의 '단어'처럼 처리
  • 각 패치를 임베딩하여 시퀀스 입력으로 변환
  • Self-attention으로 이미지의 전역 정보와 지역 정보 모두 처리

🎯 CNN 대비 장거리 의존성을 더 효과적으로 학습

구성요소 역할
Patch Embedding 이미지 → 패치 벡터 시퀀스
Positional Encoding 순서 정보 추가
Encoder Stack Self-attention으로 특징 추출
MLP Head 분류 결과 출력

 

CNN과 Vision Transformer 모델의 정확도와 파라미터 수 비교

 

4️⃣ Vision Transformer의 응용과 성능

ViT는 분류, 검출, 분할에 폭넓게 활용됩니다.

🟢 분류(Classification)

  • Encoder만 사용
  • ImageNet과 JFT-300M 대규모 데이터셋에서 CNN을 초월하는 성능

🟢 검출(Detection) – DETR 모델

  • 입력 이미지 → Encoder로 특징 추출
  • Decoder에서 Bounding Box 예측
  • IoU (Intersection over Union)로 박스 정확도 평가

DETR 특징

  • Candidate Box 없이 직접 박스 예측
  • Self-attention으로 경계 정보에 집중

🟢 분할(Segmentation)

  • DETR의 검출 헤드를 분할 헤드로 교체
  • 픽셀 단위 마스크 예측
작업 필요 모듈 출력 형태
분류 Encoder 클래스 확률
검출 Encoder + Decoder Bounding Box
분할 Encoder + Decoder Binary Mask

 

5️⃣ Swin Transformer와 Vision Transformer의 미래

Swin Transformer는 ViT의 한계를 극복하며 Vision Transformer를 백본(Backbone)으로 확장했습니다.

ViT  Swin Transformer
단일 해상도 패치 다중 해상도 윈도우
정적 구조 계층적, 가변 윈도우
주로 분류용 분류·검출·분할·추적까지 지원

 

Swin Transformer

  • 2021 ICCV Marr Prize 수상
  • Transfer Learning에서 폭넓게 활용
  • 멀티모달 모델(CLIP, DALL·E)과 결합 중
728x90
반응형