Lec 02 - Simple Liner Regression
단순 선형 회기 - 머신러닝을 관통하는 중요한 개념임
<주제>
- Regression
- Linear Regression
- Hypothesis
- WHich hypothesis is better?
- Cost, Cost function
- Goal: Minimize cost
<regression이란?>
regression toward the mean 을 줄인 말.
mean: 전체 평균
by Francis Galton
즉 어떤 데이터가 크건 작건 전체적으로 봤을 때 데이터들은 평균으로 회기하려는, 되돌아가려는 통계적 특징이 있다.
<Linear Regression>
데이터를 가장 잘 대변하는 직선의 방정식을 찾는 것.
파란 점들은 데이터를 뜻함.
이를 잘 대변하는 빨간 직선의 방정식.
y = ax + b
a는 빨간 선의 기울기, b는 y절편.
파란 데이터를 잘 대변하는 빨간 직선의 기울기와 절편,
즉 x값과 y값을 구하기.
predicting exam score: regression
x (hours) y(score) 공부한 시간 길수록 좋은 성적
어떤 값들이 선형적인 증가 혹은 감소 관계에 있을 때, 이러한 관계를 알아내는 것.
예:
x | y |
1 | 1 |
2 | 2 |
3 | 3 |
<Hypothesis (Linear)>
H(x) = Wx + b
직선 방정식의 기울기: W, 절편: b
각 직선들이 얼마나 잘 대변하는지 생각해보기.
<Cost>
이미지 출처 https://en.wikipedia.org/wiki/Linear_regression
H(x) = Wx + b
H(x) - y
가설과 실제 데이터와의 차이를 초록색으로 표현.
초록색 선들의 총합이 작을수록, 점선이 데이터를 잘 대변한다고 할 수 있음.
그런데 무조건적으로 총합을 작게 하는 것으로 목표로 해서는 안 된다.
어떤 차이는 양수고, 어떤 차이는 음수이므로 이러한 방식으로는 총합을 구하는 것이 무의미해질 수 있다.
이를 막기 위해 가설과 데이터 값의 차이를 '제곱'하게 된다.
보통 가설과 실제 값의 차이를 제곱해서 평균을 낸 것을 비용 함수로 많이 사용한다.
비용이 최소가 되도록 직선을 실제 데이터에 fit시키는 것이 우리의 목표!
<Cost function>
직선의 방정식이다.
W = Weight, b = bias
오차 제곱의 평균
<Goal: Minimize cost>
minimize cost (W, b)하는 W와 b를 찾는 것이 목표이다.