본문 바로가기
728x90
반응형

데이터마이닝9

[데이터 마이닝] CLUSTER ANALYSIS * 군집분석(군집)  * 군집분석이란?: 군집분석은 개체를 그룹 또는 군집으로 묶는 방법1. 각 그룹 또는 군집 내의 개체들의 특성은 동질적이고 조밀하게 뭉쳐 있음. 즉, 각 그룹 내의 개체들은 서로 비슷함2. 서로 다른 그룹들은 서로 이질적임. 즉, 한 그룹의 개체는 다른 그룹의 개체와 달라야 함 : 평가 방법1) 군집 간 합을 최대화 => 이질성2) 군집 간 합을 최소화 -> 동질성 : 통계기법1) 평균제곱 표준편차근, 새로운 군집의 동질성 -> 값이 작아야 함2) 결정계수 R-squared : 군집의 이질성 -> 값이 커야 함 * 군집분석은 언제 사용하는가?기업 인수를 위한 그룹화, 시장 분류, 정치 캠페인을 위한 유권자 분류 2024. 6. 17.
[데이터마이닝] 모델 진단(잔차산점도, 이상치 발생, QQ산점도) * 잔차산점도 및 이상치 탐색- 이상적인 잔차 산점도y^에 좌우되지 않음 : E(e) = 0동일한 분산 E(€) = 0, 동일한 분산 var( € ) = ∝^2 I - Y^에 대한 잔차 산점도 * 잔차산점도의 여러 행태(a)같은 경우 : 예측값에 대해 잔차 변화 : B0를 추가 하거나 재계산 해야한다.(b)같은 경우 : 분산이 일정하지 않는다. : 변환이 필요하다(ex)로그변환), 가중치를 최소 제곱합 한다. - X에 대한 잔차 산점도 (c)같은 경우 : 새로운 예측변수를 추가함, 𝑋^2 혹은 𝑋1𝑋2, 등등 * 영향관측치 또는 이상치 발생하는 경우 : [해결방안]1) 모델을 적합하기 전 영향 관측치 제거2) 평균/중앙/최빈값을 활용하여 이상치에 대한 영향력.. 2024. 4. 24.
[데이터마이닝] 회귀 모델 적합도 측정 회귀 모델 적합도 측정 - 총 편차에 대해서 다음과 같은 고려 식이 나옴 (Yi-ⓨ) = (Yi - Y^i) + ( Y^i-ⓨ) a : SST // 총 편차량, b : SSE // 에러의 제곱 합, c : SSR // 회귀식에 의한 편차 제곱 합 * 결정 계수: 제곱 합 분해 R^2 은 예측변수 𝑥𝑖들이 𝑦𝑖들의 변동량을 얼마나 설명하는지에 대한 비율을 나타냄 0 ≤ 𝑅 ^2 ≤ 1 𝑅^2 == 1: 적합된 선이 모든 데이터를 지나가며 모든 𝑖 에 대해 𝜖𝑖 = 0 𝑅^2 == 0: 모든 𝛽𝑟 = 0이며 𝛽0 = ⓨ. 이는 예측변수들이 종속변수에 어떠 한 영향도 끼치지 않음을 뜻함 결정계수 (coefficient of determination) 잔차평균제곱 (residual mean square) 수정결.. 2024. 4. 22.
[데이터마이닝] 최소 제곱 추정 구하기 (+행렬 포함) * 최소 제곱 추정: y와 y^ 간의 차이에 대한 제곱의 합을 최소화 함: 즉 에러 𝝐, 에 대한 제곱의 합을 최소화하는 𝜷를 추정함yi = B0 + B1*Xi + Eiy^i = B0 + B1*Xi ※ SSE = Sum of Squared Error / MSE = Mean SSE* 에러 제곱의 합 𝛽0 및 𝛽1에 대한 편미분은 다음과 같음: * 정규식 이를 통해 구할 수 식은 아래와 같습니다. : 이를 정규 식(Normal Equation)이라고 함   계수 𝛽^(혹은 𝒃’s)들은 회귀 파라미터(parameter) 𝛽의 최소 제곱 추정에 의해 값을 정함 그러면 한번 예제 문제를 풀어보도록 하겠습니다! 1. X와 Y의 평균을 구한다. 2... 2024. 4. 20.
728x90
반응형