k-nearest neighbor(classification)
k=가장 가까운 k개의 관측치
-예측을 원하는 관측치의 주변 N개의 데이터 (근접이웃)를 골라서,
-주변 대세가 어느 부분인지를 확인(다수결)

15,21,30에 랜덤으로 한 점을 찍는다면
k=1: new=15
k=3: new=(15+21+30)/3=22


최적의 k는 어떻게 찾아야 할까?
k의 결정
-k가 너무 큰 경우, knn모델이 지나치네 일반화 됨->specificate
-k가 너무 작은 경우,knn모델의 예측 결과의 분산이 큼
-주로 이것저것 해보고 error가 가장 작은 k 설정

knn의 장담점
장점
-classification/regression 둘 다 활용 가능
-학습데이터의 양이 많은 경우에 미래 데이터 분류에 있어서 효과적임(양이 많으면 학습은 오래 걸림)
-어지간하면 잘 맞는 장점

단점
-k(인접한 이웃의 개수)를 결정해야 함
-어떤 거리 척도를 사용할 것인지 결정해야 함
-관측치의 개수가 많은 경우 굉장히 오래 걸릴 수 있음

+ Recent posts