Main Steps of Data Analytics
EDA
(탐색적 자료분석)
데이터 전처리
모델링
모델 검증
모델 적용
Prediction
Decision
모델이 쓸 만한지 어떻게 검증(점수를 줄까?)할까?
validation
-절대적인 모델의 좋고 나쁨의 기준은 없다
-대신, 같은 데이터에 대한 상대적인 좋고 나쁨을 평가하기 위함
-정확도의 기준은 분야별로 다를 수 있다(설명이 중요한 분야vs예측이 중요한 분야)
-분류:confusion matrix 교차테이블을 기반으로 정확도 계산
-예측: 예측 오차(y-f(x))를 기반으로 정확도 계산
-정확도는 높으면 좋고 오류는 낮을수록 좋다
-강건하다=모델의 컨디션이나 데이터의 변화에도 모델이 일관적인 성능을 낸다
confusion matrix
-1을 1로 0을 0으로 얼마나 잘 예측하였는가를 보여주는 교차표
대표적인 정확도 지표
-precision: tp/(tp+fp)
-recall(sensitivity): tp/(tp+fn)
-correctness:(tp+tn)/(tp+fn+fp+tn)
대표적인 오류 지표
-1-correctness
-alpha(fp)
-beta(fn)
정분류율(correctness)는 1에 가까울수록 좋다. 근데 만약 0:1의 비율이 99:1이라면 어떻가? sensitivity를 그래서 굉장히 실무에서 많이 활용함(실무에서는 recall에 민감하다)
분류문제에서는…
• 민감도(Sensitivity) : 실제 1중에서 1이라 잘 예측한 것의 비율
• 특이도 : 실제 0중에서 0이라고 잘 예측한 것의 비율
• Precision : 모델이 1이라고 예측한 것들 중에서 실제 1일 비율
• Recall : 민감도와 동일, hit ratio 라고도 함 (적중율 ?)
통계적 가설검정의 세계에서는,
• Alpha (1종 오류) : 0을 1이라고 하는 오류 (확률)
• Beta (2종 오류) : 1을 0이라고 하는 오류 (확률)
모델의 성과 측정을 위한 요약은…
• F1 Score : Precision과 Recall 의 조화평균
• ROC/LIFT/alpha-beta graph : 민감도 vs 특이도를 x,y에 넣고 그린 그림(시각적 요약)
• AUC(Area Under Curve) : 그래프 아래의 면적을 계산하여 비교함
Validation (예측) : 예측 오차
• 실제 y와 예측된 y (f(x) 혹은 𝑦ො)의 값의 절대적 차이(거리)
대표적인 정확도 지표 :
• R2 = 모델의 설명력
대표적인 오류 지표 :
• MSE (Mean Squared Error)
• MAE (Mean Absolute Error)
• MAPE (Mean Absolute Percentage Error)
• ….
사실 오류에 대한 지표는 정의하기 나름(대부분 대체 가능)이다. 가장 중요한 것은 “현실에 활용했을 때 의미 있는 지표를 만들 수 있는가"이다.
Unsupervised Learning에서의 정확도
• 답이 없는 문제이기 때문에 주로 분석가가 정의 해준다.
• 어떻게 ? 맘대로…
• Ex. 군집분석의 경우 : 각 집단별 분산(거리) 평균값이 얼마나 큰가
- Silhouette 통계량, Gap 통계량
- Within 거리 vs Between 거리
• Ex. 연관성탐색의 경우 : 확률과 확률 간 비교 (통계적 검증)를 통해
룰이 얼마나 유의한 가를 검증
- LIFT/Confidence/Support
- 확률비 분포 활용 (지금은 그냥 넘어가자… 여기서 중요도 대비
굉장히 어려움…)
'Major > Data Analysis' 카테고리의 다른 글
Decision Tree(의사결정나무) (0) | 2024.06.17 |
---|---|
KNN (0) | 2024.06.17 |
데이터기반의 수요예측 모델링과 의사결정 최적화 (2) | 2024.06.17 |
R을 활용한 데이터 분석 (0) | 2024.05.13 |
머신러닝의 기초 (0) | 2024.04.20 |