* 모집단
- 구성 요소의 총 집합(기록, 관측치 등)
- 조사하기에는 너무 큰 수치
- 자주 데이터 수집 중에 변경되는 항목
* 표본
- 모집단의 부분 그룹
- 무작위 추출 시 전체 모집단을 대표한다.
- 하지만 본질적으로 실무에서 일부 데이터 값에 편향된 값
* 무작위 표본 추출법(Random Sampling)
• 단순 무작위 표본 추출법 (Simple Random Sampling)
• 계통 표본 추출법 (Systematic Random Sampling)
(N: 모집단 요소 수, k: 표본 추출 간격)
1에서 k 사이의 숫자를 랜덤하게 선택하여 표본 세트에 포함
또한 샘플 세트에 각 k번째 요소를 포함
Ex) 모집단: {1,2,3,…,100}, N=100, k=10, 선택된 숫자=3 표본: {3, 13, 23, 33,…,93}
• 계층 표본 추출법 (Stratified Random Sampling)
- 표본에 대한 계층화 (예: 성별을 기준으로 남성/여성으로 표본을 나눔)
- 각 그룹에서 무작위 표본 추출
- 균형(비례) / 불균형할 수 있음
예시)
여성 수= 100, 남성 수 = 900, 표본 크기=10
균형(비례)을 고려한 추출: 여성 수 = 1, 남성 수 = 9
균형을 고려하지 않은 추출: (아마도) 여성 수 = 0, 남성 수 = 10
• 군집 표본 추출법 (Cluster Random Sampling)
- 임의로 각 요소들이 아닌 군집을 추출함. (예: 학교, 팀, 도시, 등등)
- 군집 내 모든 요소를 사용한다.
비확률적 표본 추출법(Non-Random Sampling)
• 편의 표본 추출법 (Convenience Sampling)
예: 가장 가용성이 높거나 쉽게 선택될 수 있는 요소(관측치) 사용
• 쿼타 표본 추출법 (Quota Sampling)
예: 아프리카계 미국인 남성 25명, 유럽계 미국인 남성 25명, 아프리카계 미국인 여성 25명, 유럽계 미국인 여성 25명 추출
• 유의적 표본 추출법
예: "5학년이고 ADHD로 진단받은 소년”
* 추론 통계를 통해 하나의 데이터에 국한되지 않는 일반적인 결론에 도달 하고자 함
예) 표본 데이터에서 모집단이 어떻게 생각할 수 있는지 확인함 (관측치를 활용하여 확률 판단)
* 기술 통계를 활용하여 데이터에 일어나는 현상에 대해 설명함
유의미한 정보를 보여주기 위해 데이터 수집, 도표화, 요약을 다루는 통계적 기법으로 구성됨
• 도표 기술: 선 그래프, 바 그래프, 등등
• 표 기술: 빈도수 표, 등등
• 요약 통계: 표본 평균, 표본 중간값, 표본 최빈값, 표본 분산(표준편차), 표본 백분위 수, 상자 도표
* 모델링 작업
- 예측
분류
회귀
- 데이터 기술
군집화
특성 기술
이상치 검출
- 차원 축소
비선형 주성분 분석(NLPCA)
특성 선택
특성 추출
- 데이터 정리(샘플 선택)
- 데이터 통합
'데이터마이닝' 카테고리의 다른 글
[데이터마이닝] 최소 제곱 추정 구하기 (+행렬 포함) (1) | 2024.04.20 |
---|---|
[데이터마이닝] 회귀 분석에 대하여 (0) | 2024.04.19 |
[데이터마이닝] 가설 검정과 상관 관계에 대하여 (0) | 2024.04.19 |
[데이터 마이닝] 피어슨(pearson) 상관 분석에 대하여 1_상관행렬 구하기 (0) | 2024.03.28 |
[데이터 마이닝] 데이터 분석 기초 및 모델링 설계 (1) | 2024.03.14 |