본문 바로가기

IT/혼자 공부하는 머신러닝+딥러닝

<혼자 공부하는 머신러닝+딥러닝> Chapter 03

Ch.03-1

# 회귀(Regression)

- 임의의 수치를 예측하는 문제(continuous variable)

 

# 결정계수(R^2)

- 회귀 문제의 성능 측정 도구(1에 가까울수록 좋고, 0에 가까울수록 성능이 나쁜 모델)

 

# 과대적합(Overfitting)

- 모델의 훈련 세트 성능이 테스트 세트 성능보다 훨씬 높을 때(모델이 훈련 세트에 너무 집착)

 

# 과소적합(Underfitting)

- 훈련 세트와 테스트 세트 성능이 모두 낮거나, 테스트 세트 성능이 오히려 높을 때(훈련이 너무 안됨)

 

# K-최근접 이웃 회귀

- 내년도 경제 성장률 예측 / 배달이 도착할 시간 예측 (class 예측이 아닌 actual data point 예측)

 

length에 따른 weight의 값을 예측하는 것 -> 회귀!

 

이전 시간에 배운 것과 비교했을 때, 분류가 아닌 회귀 문제를 풀어보자는 것만 바뀌었음!

n_neighbors=5(Default)로 훈련한 결과

 

test set 성능이 매우 높게 나옴(결정계수가 1에 근접)

 

test set 성능이 train set 성능보다 높다?

 

-> Underfitting(과소적합)

 

n_neighbors=3으로 수정한 결과

 

-> train set 성능이 test set 성능보다 높음. 

-> train set 성능과 test set 성능 모두 1에 가까움(성능이 좋음)

-> 과소적합도, 과대적합도 아닌 거 같음.

-> 새로운 데이터가 들어와도 일반화도 잘될 것이라 예상 가능!

 

 

# 기본 숙제

- K-Nearest Neighbors에서 K값을 1, 5, 10으로 설정했을 때의 차이는 무엇일까?

기본 코드

 

너무 복잡함...
n_neighbors = 1일 때보다는 단순해짐!

 

n_neighbors = 5일 떄와 크게 다르지 않음.