본문 바로가기
데이터마이닝

[데이터 마이닝] 모집단, 표본 및 표본 추출법, 모델링 작업

by LSB98 2024. 3. 27.
728x90
반응형

* 모집단

- 구성 요소의 총 집합(기록, 관측치 등)

- 조사하기에는 너무 큰 수치

- 자주 데이터 수집 중에 변경되는 항목

 

* 표본

- 모집단의 부분 그룹

- 무작위 추출 시 전체 모집단을 대표한다.

- 하지만 본질적으로 실무에서 일부 데이터 값에 편향된 값

 

* 무작위 표본 추출법(Random Sampling)

• 단순 무작위 표본 추출법 (Simple Random Sampling)

 

• 계통 표본 추출법 (Systematic Random Sampling)

(N: 모집단 요소 수, k: 표본 추출 간격)

1에서 k 사이의 숫자를 랜덤하게 선택하여 표본 세트에 포함

또한 샘플 세트에 각 k번째 요소를 포함

Ex) 모집단: {1,2,3,…,100}, N=100, k=10, 선택된 숫자=3 표본: {3, 13, 23, 33,…,93}

 

• 계층 표본 추출법 (Stratified Random Sampling)

- 표본에 대한 계층화 (예: 성별을 기준으로 남성/여성으로 표본을 나눔)

- 각 그룹에서 무작위 표본 추출

- 균형(비례) / 불균형할 수 있음

예시)

여성 수= 100, 남성 수 = 900, 표본 크기=10

균형(비례)을 고려한 추출: 여성 수 = 1, 남성 수 = 9

균형을 고려하지 않은 추출: (아마도) 여성 수 = 0, 남성 수 = 10

 

• 군집 표본 추출법 (Cluster Random Sampling)

- 임의로 각 요소들이 아닌 군집을 추출함. (예: 학교, 팀, 도시, 등등)

- 군집 내 모든 요소를 사용한다.

 

비확률적 표본 추출법(Non-Random Sampling)

• 편의 표본 추출법 (Convenience Sampling)

예: 가장 가용성이 높거나 쉽게 선택될 수 있는 요소(관측치) 사용

 

• 쿼타 표본 추출법 (Quota Sampling)

예: 아프리카계 미국인 남성 25명, 유럽계 미국인 남성 25명, 아프리카계 미국인 여성 25명, 유럽계 미국인 여성 25명 추출

 

• 유의적 표본 추출법

예: "5학년이고 ADHD로 진단받은 소년”

 

* 추론 통계를 통해 하나의 데이터에 국한되지 않는 일반적인 결론에 도달 하고자 함

예) 표본 데이터에서 모집단이 어떻게 생각할 수 있는지 확인함 (관측치를 활용하여 확률 판단)

 

* 기술 통계를 활용하여 데이터에 일어나는 현상에 대해 설명함

 

유의미한 정보를 보여주기 위해 데이터 수집, 도표화, 요약을 다루는 통계적 기법으로 구성됨

 

• 도표 기술: 선 그래프, 바 그래프, 등등

• 표 기술: 빈도수 표, 등등

• 요약 통계: 표본 평균, 표본 중간값, 표본 최빈값, 표본 분산(표준편차), 표본 백분위 수, 상자 도표

 

* 모델링 작업

 

- 예측

분류

회귀

 

- 데이터 기술

군집화

군집화된 데이터

 

특성 기술

이상치 검출

 

- 차원 축소

비선형 주성분 분석(NLPCA)

특성 선택

특성 추출

 

- 데이터 정리(샘플 선택)

 

- 데이터 통합

728x90
반응형