본문 바로가기
딥러닝

[딥러닝] 딥러닝 모델의 하이퍼파라미터 튜닝과 손실 곡선 분석

by LSB98 2025. 7. 1.
728x90
반응형

1. 데이터 표현 및 전처리

딥러닝 모델의 학습 성능을 결정하는 첫 번째 요소는 데이터 표현 방식정규화 전략입니다.

Dataset  데이터 표현  Label Encoding
MNIST 1차원 벡터 혹은 2차원 행렬 One-hot encoding
CIFAR-10 3채널 RGB 이미지, 2차원 텐서 One-hot encoding

 

2. 하이퍼파라미터 튜닝

하이퍼파라미터는 학습 성능을 좌우합니다.

하이퍼파라미터 예시 값
Layer 수 4
Node 수 [1024, 512, 512, 10]
Loss Function CrossEntropy
Optimizer SGD, Adam 등
Learning Rate 0.001~0.01
Batch Size 32~256

 

Tip:
중요한 1~3개의 하이퍼파라미터를 집중 실험하는 것이 효율적입니다.
아래 그래프는 Learning Rate에 따른 손실 감소 예시입니다.

Learning Rate와 Loss의 관계 예시

 

 

3. RNN과 LSTM의 구조 및 원리

* RNN의 기본 개념

RNN은 시퀀스 데이터의 시간적 의존성을 학습하는 모델입니다.

 

순차적 입출력

ht=f(Wxt+Uht1+b)

 

 

- 시점마다 은닉 상태를 공유

- 짧은 문장은 잘 처리하지만 장기 의존성 문제가 발생

 

* LSTM의 개선

LSTM(Long Short-Term Memory)은 RNN의 단점을 보완합니다.

게이트  기능
입력 게이트 새로운 정보 얼마나 반영할지 조절
망각 게이트 기존 상태를 얼마나 유지할지 조절
출력 게이트 어떤 정보를 출력할지 결정

 

 

4. 다양한 RNN 변형 및 응용

모델 입출력 구조  예시 응용
One-to-Many 단일 입력 ➡️ 시퀀스 출력 이미지 캡셔닝
Many-to-One 시퀀스 입력 ➡️ 단일 출력 감정 분류
Many-to-Many 시퀀스 입력 ➡️ 시퀀스 출력 기계 번역, 음성인식
Encoder-Decoder 입력 시퀀스를 Context 벡터로 인코딩 후 디코딩 Seq2Seq 번역 모델

 

5. Attention Mechanism

Attention은 RNN의 한계를 극복하기 위해 중요 정보에 집중하는 방식입니다.

 

Attention(Q,K,V)=Softmax(dkQKT)V

Decoder가 각 단어 예측 시 Encoder의 모든 상태를 다시 참고

 

Attention 유형 설명
Soft Attention 모든 입력에 가중치를 부여해 Weighted Sum 계산
Hard Attention 가장 중요한 입력만 선택
Self-Attention 같은 시퀀스 내에서 상호 연관성 계산 (Transformer 핵심)

 

6. Transformer와 LLM

* Transformer 구조

  • 순환 구조 없이 Self-Attention으로만 구성
  • Encoder와 Decoder 블록 반복
  • Multi-head Attention으로 다중 관계 학습
구성요소 역할
Self-Attention 단어 간 연관성 파악
Positional Encoding 순서 정보 인코딩
Feedforward Layer 비선형 변환
Layer Normalization 학습 안정화

 

* Large Language Model(LLM)

: 대표적 LLM: GPT 시리즈, BERT, Gemini

모델 파라미터 수
GPT-1 1.17억
GPT-2 15억
GPT-3 1750억

 

7. 시계열 데이터 개선 모델

🟪 Time Dilated Convolution

  • 과거 정보가 빠르게 전파되도록 도와줌
  • WaveNet에서 활용

🟪 Meta-Learning (SNAIL)

  • 여러 작업을 학습해 빠르게 새로운 작업에 적응
  • Attention + Time Dilated Convolution 결합
  • Few-shot Learning에 효과적

 

728x90
반응형