[딥러닝] Vision Transformer와 Attention 기반 딥러닝 모델

728x90

Attention Mechanism은 인공지능 모델이 입력의 중요 부분에 집중하도록 돕는 핵심 기술입니다.

고전적 방법
- Feature Selection: 분별력(discriminating power)이 높은 특징만 선택
- Saliency Map (Itti, 1998): 명암·색상·방향 대비 기반의 돌출맵
- 🎯 수동 규칙 기반으로 주요 특징을 강조
딥러닝 기반 방법
- Recurrent Attention Model (RAM, 2014): RNN으로 주목 위치를 순차적으로 학습
- Spatial Transformer Network (STN, 2015): 이미지의 이동·회전·크기 변화를 처리하며 주목 영역 파악
- SENet (2017): 채널별 중요도를 학습(Squeeze & Excitation)

Transformer는 "Attention is All You Need"(Vaswani, 2017) 논문에서 제안된 모델로, CNN과 RNN을 완전히 대체했습니다.

Query-Key-Value Attention
- Query와 Key 유사도 → Value 가중합
- Softmax로 가중치 결정
- 예) Query가 3번째 Key와 가장 유사하면, 3번째 Value에 집중
Self-Attention
- 입력의 각 토큰이 다른 모든 토큰과의 관계를 학습
- 문맥의 장거리 의존성을 한 번에 처리
Multi-head Attention
- 여러 Attention Head로 다양한 패턴을 병렬 학습

✅ Transformer 특징

모든 단어를 동시에 처리

Encoder/Decoder 블록 반복

위치 인코딩(Positional Encoding)으로 순서 정보 보존

3️⃣ Vision Transformer (ViT)의 설계와 작동 원리

ViT는 이미지 처리에 Transformer를 그대로 적용하는 모델입니다.

핵심 아이디어

🎯 CNN 대비 장거리 의존성을 더 효과적으로 학습

ViT는 분류, 검출, 분할에 폭넓게 활용됩니다.

✅ DETR 특징

Candidate Box 없이 직접 박스 예측

Self-attention으로 경계 정보에 집중

Swin Transformer는 ViT의 한계를 극복하며 Vision Transformer를 백본(Backbone)으로 확장했습니다.

✅ Swin Transformer

728x90

[딥러닝] 생성 모델(Generative Model) 이해와 응용 (0)	2025.07.02
[딥러닝] 딥러닝 모델의 하이퍼파라미터 튜닝과 손실 곡선 분석 (0)	2025.07.01
[딥러닝] RNN, LSTM, GRU의 이론과 적용 사례 (0)	2025.06.01
[딥러닝] 딥러닝 모델의 초기화와 정규화 기법 (0)	2025.06.01
[딥러닝] 딥러닝 기반 시각 인식 모델: CNN 구조 및 활용 (0)	2025.05.17