[딥러닝] 딥러닝 모델의 하이퍼파라미터 튜닝과 손실 곡선 분석

728x90

딥러닝 모델의 학습 성능을 결정하는 첫 번째 요소는 데이터 표현 방식과 정규화 전략입니다.

하이퍼파라미터는 학습 성능을 좌우합니다.

Tip:
중요한 1~3개의 하이퍼파라미터를 집중 실험하는 것이 효율적입니다.
아래 그래프는 Learning Rate에 따른 손실 감소 예시입니다.

* RNN의 기본 개념

RNN은 시퀀스 데이터의 시간적 의존성을 학습하는 모델입니다.

순차적 입출력

ht=f(Wxt+Uht−1+b)

- 시점마다 은닉 상태를 공유

- 짧은 문장은 잘 처리하지만 장기 의존성 문제가 발생

* LSTM의 개선

LSTM(Long Short-Term Memory)은 RNN의 단점을 보완합니다.

Attention은 RNN의 한계를 극복하기 위해 중요 정보에 집중하는 방식입니다.

Attention(Q,K,V)=Softmax(dkQKT)V

Decoder가 각 단어 예측 시 Encoder의 모든 상태를 다시 참고

Attention 유형	설명
Soft Attention	모든 입력에 가중치를 부여해 Weighted Sum 계산
Hard Attention	가장 중요한 입력만 선택
Self-Attention	같은 시퀀스 내에서 상호 연관성 계산 (Transformer 핵심)

* Large Language Model(LLM)

: 대표적 LLM: GPT 시리즈, BERT, Gemini

728x90

[딥러닝] Vision Transformer와 Attention 기반 딥러닝 모델 (1)	2025.07.05
[딥러닝] 생성 모델(Generative Model) 이해와 응용 (0)	2025.07.02
[딥러닝] RNN, LSTM, GRU의 이론과 적용 사례 (0)	2025.06.01
[딥러닝] 딥러닝 모델의 초기화와 정규화 기법 (0)	2025.06.01
[딥러닝] 딥러닝 기반 시각 인식 모델: CNN 구조 및 활용 (0)	2025.05.17