- 회귀(Regression)란? : 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법
예시) 주택의 방의 개수, 안방의 크기 등의 독립 변수에 따라서
주택 가격인 종속 변수가 어떤 관계를 가지는지를 모델링, 예측하는 것
선형 회귀식 : Y(종속 변수) = 𝜷𝟎+𝜷𝟏X(독립변수)
- 분류(Classification)의 과정 :
1) 학습과정 : 데이터의 입력값 -> 학습을 통한 모델 생성 -> 데이터 결과값
2) 검증 과정 : 학습과정을 토대로 진행
- 군집 (Clustering) :
동일한 성격을 가진 여러 개의 그룹을 분류하는 것 -> 군집은 주관성이 강함
예시) 특성 요소를 찾기 위해 공통 특성을 지닌 국가 간의 군집화
-> 높은 기대수명을 가진 나라는 낮은 출생률과 사망률 그리고 높은 의료 지출을 한다.
- 데이터(Data)란? :
데이터 객체 및 그 속성의 집합
데이터 속성이란 한 객체의 성질 및 특성을 말함
예: 강아지의 눈 색깔, 체온
속성의 집합은 한 객체를 묘사함.
- 데이터 표현 :
객체 : object, recoord, sample, observation, data point, individual, experimental unit
속성 : attribute, feature, descriptor, input variable, predictor variable, independent variable
- 데이터 속성 값 유형 :
◼ 이산 속성(Discrete Attribute) // 이항분포, 초기하분포,포아송분포
유한하거나 가산 무한한 값들을 갖고 있음. -> 카운트 할 수 있는 것들, 무한대도 포함
예: 우편 번호, 문서내 단어 집합…
종종 정수 변수로 표현됨
참고: 이진 속성(binary attribute)은 이산 속성의 특별한 사례임
◼ 연속 속성(Continuous Attribute) // 기하분포, Uniform분포,정규분포,지수분포,다항분포,감마분포,와이블분포,로그분포
속성 값으로 실수를 갖고 있음
Ex: 온도, 신장, 체중….
실제로는, 실수 값은 유한한 자릿수를 이용하여 측정되고, 표현됨
연속 속성은 전형적으로 부동소수점 변수로 표현됨
1) NOMINAL : 이산형이다. 맞다 틀리다로만 구분 가능
예시) 피부색, 성별
2) ORDINAL : 이산형이다. NOMINAL + 크다 및 작다로 구분 가능
예시) 방사이즈, 등급
3) INTERVAL : 연속형이다. ORDINAL + 덧셈/뺄셈 가능
예시) 온도, 날짜
4) Ratio : 연속형이다. + INTERVAL + 곱셈/나눗셈 가능
예시) 키, 몸무게, 나이
Nominal | Ordinal | Interval | Ratio | |
변수의 순서가 설정되는가 | Yes | Yes | Yes | |
변수의 가.감산이 되는가 | Yes | Yes | ||
변수의 곱셈, 나눗셈이 되는가 | Yes | |||
Mode (최빈값) |
Yes | Yes | Yes | Yes |
Median (중앙값) |
Yes | Yes | Yes | |
Mean (평균값) |
Yes | Yes | ||
Absolute zero (절대 0값) |
Yes |
- 입력 변수 :
Xi :input, predictor, descriptor, input variable, independent variable, exogenous variable, etc.
Yi :output variable, response, target variable,endogeneous variable, label, etc.
- 데이터 셋 유형
1) 레코드 데이터
데이터 행렬 : 데이터 매트릭스, 𝑚 × 𝑛 행렬로 표현 가능,데이터 셋은 m개의 레코드와 n개의 속성
문서 데이터 : 각 문서(document)는 ‘단어(term)’ 벡터가 됨
기쁨 | 슬픔 | 눈물 | |
Document 1 | 3 | 0 | 5 |
Document 2 | 0 | 7 | 0 |
Document 3 | 0 | 1 | 0 |
거래 데이터 : 특별한 유형의 레코드 데이터 // 거래내역과 같은 데이터
각 거래(transaction) 기록은 상품 항목이 포함됨
예를 들어 전자제품점을 고려하면, 고객이 쇼핑 중 구매한 제품들은 한 레코드를 구성하는 반면,
구매 된 개별 제품은 항목을 나타냄
2) 그래프 데이터
World Wide Web : 예) HTML 링크
분자 구조
3) 순서가 있는 데이터
순열 데이터
유전자 서열 데이터 : DNA
공간 데이터 : 세계지도상에서의 지표면의 온도
시계열 데이터 : 세계지도상에서의 지표면의 온도
* 데이터 품질의 영향을 주는 것들
1) 노이즈 (원래 값의 변경)와 이상치(데이터 셋의 대부분의 다른 데이터 개체들과는 상당히 다른 데이터 개체)
ex) 전화기에서 사람 목소리 왜곡 -> 노이즈
2) 결측치
결측치 발생 원인
- 정보 수집 안됨 (예: 사람들이 나이와 체중을 공개하지 않음)
- 속성들이 모든 경우에 적용 가능하지 않을 수 있음 (예: 연간소득은 아이들에게 적용 불가능함)
* 결측치 처리 방법
데이터 개체 제거
결측치 추정
분석 중 결측치 무시
가능한 모든 값을 활용하여 결측치 치환(확률 가중치 적용)
3) 중복 데이터
데이터 셋은 중복된 데이터 또는 서로 거의 중복되는 데이터 개체가 포함 될 수 있음
다양한 소스의 데이터를 병합할 때 주요 문제
◼ 예: 여러 이메일 주소를 가진 동일한 사용자
◼ 데이터 청소(Cleaning) : 중복 데이터 문제를 다루는 과정
'데이터마이닝' 카테고리의 다른 글
[데이터마이닝] 최소 제곱 추정 구하기 (+행렬 포함) (1) | 2024.04.20 |
---|---|
[데이터마이닝] 회귀 분석에 대하여 (0) | 2024.04.19 |
[데이터마이닝] 가설 검정과 상관 관계에 대하여 (0) | 2024.04.19 |
[데이터 마이닝] 피어슨(pearson) 상관 분석에 대하여 1_상관행렬 구하기 (0) | 2024.03.28 |
[데이터 마이닝] 모집단, 표본 및 표본 추출법, 모델링 작업 (1) | 2024.03.27 |