728x90
반응형
1️⃣ Attention Mechanism의 발전 과정
Attention Mechanism은 인공지능 모델이 입력의 중요 부분에 집중하도록 돕는 핵심 기술입니다.
- 고전적 방법
- Feature Selection: 분별력(discriminating power)이 높은 특징만 선택
- Saliency Map (Itti, 1998): 명암·색상·방향 대비 기반의 돌출맵
- 🎯 수동 규칙 기반으로 주요 특징을 강조
- 딥러닝 기반 방법
- Recurrent Attention Model (RAM, 2014): RNN으로 주목 위치를 순차적으로 학습
- Spatial Transformer Network (STN, 2015): 이미지의 이동·회전·크기 변화를 처리하며 주목 영역 파악
- SENet (2017): 채널별 중요도를 학습(Squeeze & Excitation)
구분 | 고전적 Attention | 딥러닝 Attention |
주요 방식 | 수동 규칙 | 학습 기반 가중치 |
대표 예시 | Saliency Map | RAM, STN, SENet |
특징 | 직관적, 제한적 | 유연, 데이터 중심 |
2️⃣ Query-Key-Value Self-Attention과 Transformer의 혁신
Transformer는 "Attention is All You Need"(Vaswani, 2017) 논문에서 제안된 모델로, CNN과 RNN을 완전히 대체했습니다.
- Query-Key-Value Attention
- Query와 Key 유사도 → Value 가중합
- Softmax로 가중치 결정
- 예) Query가 3번째 Key와 가장 유사하면, 3번째 Value에 집중
- Self-Attention
- 입력의 각 토큰이 다른 모든 토큰과의 관계를 학습
- 문맥의 장거리 의존성을 한 번에 처리
- Multi-head Attention
- 여러 Attention Head로 다양한 패턴을 병렬 학습
✅ Transformer 특징
- 모든 단어를 동시에 처리
- Encoder/Decoder 블록 반복
- 위치 인코딩(Positional Encoding)으로 순서 정보 보존
3️⃣ Vision Transformer (ViT)의 설계와 작동 원리
ViT는 이미지 처리에 Transformer를 그대로 적용하는 모델입니다.
텍스트 처리 | 이미지 처리 |
단어: 1차원 시퀀스 | 픽셀: 2차원 배열 |
이산적 단어 | 연속적 픽셀 |
수십 토큰 | 수만~수백만 픽셀 |
핵심 아이디어
- 이미지를 패치(Patch) 단위로 나누어 일종의 '단어'처럼 처리
- 각 패치를 임베딩하여 시퀀스 입력으로 변환
- Self-attention으로 이미지의 전역 정보와 지역 정보 모두 처리
🎯 CNN 대비 장거리 의존성을 더 효과적으로 학습
구성요소 | 역할 |
Patch Embedding | 이미지 → 패치 벡터 시퀀스 |
Positional Encoding | 순서 정보 추가 |
Encoder Stack | Self-attention으로 특징 추출 |
MLP Head | 분류 결과 출력 |
4️⃣ Vision Transformer의 응용과 성능
ViT는 분류, 검출, 분할에 폭넓게 활용됩니다.
🟢 분류(Classification)
- Encoder만 사용
- ImageNet과 JFT-300M 대규모 데이터셋에서 CNN을 초월하는 성능
🟢 검출(Detection) – DETR 모델
- 입력 이미지 → Encoder로 특징 추출
- Decoder에서 Bounding Box 예측
- IoU (Intersection over Union)로 박스 정확도 평가
✅ DETR 특징
- Candidate Box 없이 직접 박스 예측
- Self-attention으로 경계 정보에 집중
🟢 분할(Segmentation)
- DETR의 검출 헤드를 분할 헤드로 교체
- 픽셀 단위 마스크 예측
작업 | 필요 모듈 | 출력 형태 |
분류 | Encoder | 클래스 확률 |
검출 | Encoder + Decoder | Bounding Box |
분할 | Encoder + Decoder | Binary Mask |
5️⃣ Swin Transformer와 Vision Transformer의 미래
Swin Transformer는 ViT의 한계를 극복하며 Vision Transformer를 백본(Backbone)으로 확장했습니다.
ViT | Swin Transformer |
단일 해상도 패치 | 다중 해상도 윈도우 |
정적 구조 | 계층적, 가변 윈도우 |
주로 분류용 | 분류·검출·분할·추적까지 지원 |
✅ Swin Transformer
- 2021 ICCV Marr Prize 수상
- Transfer Learning에서 폭넓게 활용
- 멀티모달 모델(CLIP, DALL·E)과 결합 중
728x90
반응형
'딥러닝' 카테고리의 다른 글
[딥러닝] 생성 모델(Generative Model) 이해와 응용 (0) | 2025.07.02 |
---|---|
[딥러닝] 딥러닝 모델의 하이퍼파라미터 튜닝과 손실 곡선 분석 (0) | 2025.07.01 |
[딥러닝] RNN, LSTM, GRU의 이론과 적용 사례 (0) | 2025.06.01 |
[딥러닝] 딥러닝 모델의 초기화와 정규화 기법 (0) | 2025.06.01 |
[딥러닝] 딥러닝 기반 시각 인식 모델: CNN 구조 및 활용 (0) | 2025.05.17 |