본문 바로가기
데이터마이닝

[데이터 마이닝] 데이터 분석 기초 및 모델링 설계

by LSB98 2024. 3. 14.
728x90
반응형

- 회귀(Regression)란? : 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법

예시) 주택의 방의 개수, 안방의 크기 등의 독립 변수에 따라서

주택 가격인 종속 변수가 어떤 관계를 가지는지를 모델링, 예측하는 것

 

선형 회귀식 : Y(종속 변수) = 𝜷𝟎+𝜷𝟏X(독립변수)

 

- 분류(Classification)의 과정 : 

1) 학습과정 : 데이터의 입력값 -> 학습을 통한 모델 생성 -> 데이터 결과값

2) 검증 과정 : 학습과정을 토대로 진행

 

- 군집 (Clustering) :

동일한 성격을 가진 여러 개의 그룹을 분류하는 것  -> 군집은 주관성이 강함

예시) 특성 요소를 찾기 위해 공통 특성을 지닌 국가 간의 군집화

-> 높은 기대수명을 가진 나라는 낮은 출생률과 사망률 그리고 높은 의료 지출을 한다.

 

- 데이터(Data)란? :

데이터 객체 및 그 속성의 집합

데이터 속성이란 한 객체의 성질 및 특성을 말함

예: 강아지의 눈 색깔, 체온

속성의 집합은 한 객체를 묘사함.

 

- 데이터 표현 :

객체 : object, recoord, sample, observation, data point, individual, experimental unit

 

속성 : attribute, feature, descriptor, input variable, predictor variable, independent variable

 

 

- 데이터 속성 값 유형 :

 

◼ 이산 속성(Discrete Attribute) // 이항분포, 초기하분포,포아송분포

 유한하거나 가산 무한한 값들을 갖고 있음. -> 카운트 할 수 있는 것들, 무한대도 포함

 예: 우편 번호, 문서내 단어 집합…

 종종 정수 변수로 표현됨

 참고: 이진 속성(binary attribute)은 이산 속성의 특별한 사례임

 

◼ 연속 속성(Continuous Attribute) // 기하분포, Uniform분포,정규분포,지수분포,다항분포,감마분포,와이블분포,로그분포

 속성 값으로 실수를 갖고 있음

 Ex: 온도, 신장, 체중….

 실제로는, 실수 값은 유한한 자릿수를 이용하여 측정되고, 표현됨

 연속 속성은 전형적으로 부동소수점 변수로 표현됨

 

1) NOMINAL : 이산형이다. 맞다 틀리다로만 구분 가능

예시) 피부색, 성별

2) ORDINAL : 이산형이다. NOMINAL + 크다 및 작다로 구분 가능

예시) 방사이즈, 등급

3) INTERVAL : 연속형이다. ORDINAL + 덧셈/뺄셈 가능

예시) 온도, 날짜

4) Ratio : 연속형이다. + INTERVAL + 곱셈/나눗셈 가능

예시) 키, 몸무게, 나이

  Nominal Ordinal Interval Ratio
변수의 순서가 설정되는가   Yes Yes Yes
변수의 가.감산이 되는가     Yes Yes
변수의 곱셈, 나눗셈이 되는가       Yes
Mode
(최빈값)
Yes Yes Yes Yes
Median
(중앙값)
  Yes Yes Yes
Mean
(평균값)
    Yes Yes
Absolute zero
(절대 0값)
      Yes

 

- 입력 변수 :

Xi :input, predictor, descriptor, input variable, independent variable, exogenous variable, etc.

 

Yi :output variable, response, target variable,endogeneous variable, label, etc.

 

- 데이터 셋 유형

 

1) 레코드 데이터

데이터 행렬 : 데이터 매트릭스, 𝑚 × 𝑛 행렬로 표현 가능,데이터 셋은 m개의 레코드와 n개의 속성

문서 데이터 : 문서(document) ‘단어(term)’ 벡터

  기쁨 슬픔 눈물
Document 1 3 0 5
Document 2 0 7 0
Document 3 0 1 0

거래 데이터 : 특별한 유형의 레코드 데이터 // 거래내역과 같은 데이터

각 거래(transaction) 기록은 상품 항목이 포함됨

예를 들어 전자제품점을 고려하면, 고객이 쇼핑 중 구매한 제품들은 한 레코드를 구성하는 반면,

구매 된 개별 제품은 항목을 나타냄

 

2) 그래프 데이터

World Wide Web : 예) HTML 링크

분자 구조

 

3) 순서가 있는 데이터

순열 데이터

유전자 서열 데이터 : DNA

공간 데이터 : 세계지도상에서의 지표면의 온도

시계열 데이터 : 세계지도상에서의 지표면의 온도

 

* 데이터 품질의 영향을 주는 것들

1) 노이즈 (원래 값의 변경) 이상치(데이터 셋의 대부분의 다른 데이터 개체들과는 상당히 다른 데이터 개체)

ex) 전화기에서 사람 목소리 왜곡 -> 노이즈

노이즈 예시

 

2) 결측치

결측치 발생 원인

- 정보 수집 안됨 (예: 사람들이 나이와 체중을 공개하지 않음)

- 속성들이 모든 경우에 적용 가능하지 않을 수 있음 (예: 연간소득은 아이들에게 적용 불가능함)

* 결측치 처리 방법

데이터 개체 제거

결측치 추정

분석 중 결측치 무시

가능한 모든 값을 활용하여 결측치 치환(확률 가중치 적용)

 

3) 중복 데이터

데이터 셋은 중복된 데이터 또는 서로 거의 중복되는 데이터 개체가 포함 될 수 있음

 

 다양한 소스의 데이터를 병합할 때 주요 문제

◼ 예: 여러 이메일 주소를 가진 동일한 사용자

◼ 데이터 청소(Cleaning) : 중복 데이터 문제를 다루는 과정

728x90
반응형