k-nearest neighbor(classification)
k=가장 가까운 k개의 관측치
-예측을 원하는 관측치의 주변 N개의 데이터 (근접이웃)를 골라서,
-주변 대세가 어느 부분인지를 확인(다수결)
15,21,30에 랜덤으로 한 점을 찍는다면
k=1: new=15
k=3: new=(15+21+30)/3=22
최적의 k는 어떻게 찾아야 할까?
k의 결정
-k가 너무 큰 경우, knn모델이 지나치네 일반화 됨->specificate
-k가 너무 작은 경우,knn모델의 예측 결과의 분산이 큼
-주로 이것저것 해보고 error가 가장 작은 k 설정
knn의 장담점
장점
-classification/regression 둘 다 활용 가능
-학습데이터의 양이 많은 경우에 미래 데이터 분류에 있어서 효과적임(양이 많으면 학습은 오래 걸림)
-어지간하면 잘 맞는 장점
단점
-k(인접한 이웃의 개수)를 결정해야 함
-어떤 거리 척도를 사용할 것인지 결정해야 함
-관측치의 개수가 많은 경우 굉장히 오래 걸릴 수 있음
'Major > Data Analysis' 카테고리의 다른 글
SVM(support vector machine) (0) | 2024.06.17 |
---|---|
Decision Tree(의사결정나무) (0) | 2024.06.17 |
Modeling & Validation & Visualization (1) | 2024.06.17 |
데이터기반의 수요예측 모델링과 의사결정 최적화 (2) | 2024.06.17 |
R을 활용한 데이터 분석 (0) | 2024.05.13 |