728x90
반응형
1. 데이터 표현 및 전처리
딥러닝 모델의 학습 성능을 결정하는 첫 번째 요소는 데이터 표현 방식과 정규화 전략입니다.
Dataset | 데이터 표현 | Label Encoding |
MNIST | 1차원 벡터 혹은 2차원 행렬 | One-hot encoding |
CIFAR-10 | 3채널 RGB 이미지, 2차원 텐서 | One-hot encoding |
2. 하이퍼파라미터 튜닝
하이퍼파라미터는 학습 성능을 좌우합니다.
하이퍼파라미터 | 예시 값 |
Layer 수 | 4 |
Node 수 | [1024, 512, 512, 10] |
Loss Function | CrossEntropy |
Optimizer | SGD, Adam 등 |
Learning Rate | 0.001~0.01 |
Batch Size | 32~256 |
Tip:
중요한 1~3개의 하이퍼파라미터를 집중 실험하는 것이 효율적입니다.
아래 그래프는 Learning Rate에 따른 손실 감소 예시입니다.
3. RNN과 LSTM의 구조 및 원리
* RNN의 기본 개념
RNN은 시퀀스 데이터의 시간적 의존성을 학습하는 모델입니다.
순차적 입출력
ht=f(Wxt+Uht−1+b)
- 시점마다 은닉 상태를 공유
- 짧은 문장은 잘 처리하지만 장기 의존성 문제가 발생
* LSTM의 개선
LSTM(Long Short-Term Memory)은 RNN의 단점을 보완합니다.
게이트 | 기능 |
입력 게이트 | 새로운 정보 얼마나 반영할지 조절 |
망각 게이트 | 기존 상태를 얼마나 유지할지 조절 |
출력 게이트 | 어떤 정보를 출력할지 결정 |
4. 다양한 RNN 변형 및 응용
모델 | 입출력 구조 | 예시 응용 |
One-to-Many | 단일 입력 ➡️ 시퀀스 출력 | 이미지 캡셔닝 |
Many-to-One | 시퀀스 입력 ➡️ 단일 출력 | 감정 분류 |
Many-to-Many | 시퀀스 입력 ➡️ 시퀀스 출력 | 기계 번역, 음성인식 |
Encoder-Decoder | 입력 시퀀스를 Context 벡터로 인코딩 후 디코딩 | Seq2Seq 번역 모델 |
5. Attention Mechanism
Attention은 RNN의 한계를 극복하기 위해 중요 정보에 집중하는 방식입니다.
Attention(Q,K,V)=Softmax(dkQKT)V
Decoder가 각 단어 예측 시 Encoder의 모든 상태를 다시 참고
Attention 유형 | 설명 |
Soft Attention | 모든 입력에 가중치를 부여해 Weighted Sum 계산 |
Hard Attention | 가장 중요한 입력만 선택 |
Self-Attention | 같은 시퀀스 내에서 상호 연관성 계산 (Transformer 핵심) |
6. Transformer와 LLM
* Transformer 구조
- 순환 구조 없이 Self-Attention으로만 구성
- Encoder와 Decoder 블록 반복
- Multi-head Attention으로 다중 관계 학습
구성요소 | 역할 |
Self-Attention | 단어 간 연관성 파악 |
Positional Encoding | 순서 정보 인코딩 |
Feedforward Layer | 비선형 변환 |
Layer Normalization | 학습 안정화 |
* Large Language Model(LLM)
: 대표적 LLM: GPT 시리즈, BERT, Gemini
모델 | 파라미터 수 |
GPT-1 | 1.17억 |
GPT-2 | 15억 |
GPT-3 | 1750억 |
7. 시계열 데이터 개선 모델
🟪 Time Dilated Convolution
- 과거 정보가 빠르게 전파되도록 도와줌
- WaveNet에서 활용
🟪 Meta-Learning (SNAIL)
- 여러 작업을 학습해 빠르게 새로운 작업에 적응
- Attention + Time Dilated Convolution 결합
- Few-shot Learning에 효과적
728x90
반응형
'딥러닝' 카테고리의 다른 글
[딥러닝] Vision Transformer와 Attention 기반 딥러닝 모델 (1) | 2025.07.05 |
---|---|
[딥러닝] 생성 모델(Generative Model) 이해와 응용 (0) | 2025.07.02 |
[딥러닝] RNN, LSTM, GRU의 이론과 적용 사례 (0) | 2025.06.01 |
[딥러닝] 딥러닝 모델의 초기화와 정규화 기법 (0) | 2025.06.01 |
[딥러닝] 딥러닝 기반 시각 인식 모델: CNN 구조 및 활용 (0) | 2025.05.17 |