모두를 위한 딥러닝 시즌2 - TensorFlow

Lec 02 - Simple Liner Regression

sososoy 2021. 10. 27. 07:33

단순 선형 회기 - 머신러닝을 관통하는 중요한 개념임

 

<주제>

  • Regression
  • Linear Regression
  • Hypothesis
  • WHich hypothesis is better?
  • Cost, Cost function
  • Goal: Minimize cost

<regression이란?>

regression toward the mean 을 줄인 말.

mean: 전체 평균

by Francis Galton

 

즉 어떤 데이터가 크건 작건 전체적으로 봤을 때 데이터들은 평균으로 회기하려는, 되돌아가려는 통계적 특징이 있다.

 

<Linear Regression>

데이터를 가장 잘 대변하는 직선의 방정식을 찾는 것.

 

출처 https://en.wikipedia.org/wiki/Linear_regression

파란 점들은 데이터를 뜻함.

이를 잘 대변하는 빨간 직선의 방정식.

y = ax + b

a는 빨간 선의 기울기, b는 y절편.

 

파란 데이터를 잘 대변하는 빨간 직선의 기울기와 절편,

즉 x값과 y값을 구하기.

 

predicting exam score: regression

x (hours) y(score) 공부한 시간 길수록 좋은 성적

어떤 값들이 선형적인 증가 혹은 감소 관계에 있을 때, 이러한 관계를 알아내는 것.

 

예:

x y
1 1
2 2
3 3

 

<Hypothesis (Linear)>

H(x) = Wx + b

직선 방정식의 기울기: W, 절편: b

각 직선들이 얼마나 잘 대변하는지 생각해보기.

 

<Cost>

이미지 출처 https://en.wikipedia.org/wiki/Linear_regression

 

H(x) = Wx + b

H(x) - y

가설과 실제 데이터와의 차이를 초록색으로 표현.

초록색 선들의 총합이 작을수록, 점선이 데이터를 잘 대변한다고 할 수 있음.

그런데 무조건적으로 총합을 작게 하는 것으로 목표로 해서는 안 된다.

어떤 차이는 양수고, 어떤 차이는 음수이므로 이러한 방식으로는 총합을 구하는 것이 무의미해질 수 있다.

 

이를 막기 위해 가설과 데이터 값의 차이를 '제곱'하게 된다.

보통 가설과 실제 값의 차이를 제곱해서 평균을 낸 것을 비용 함수로 많이 사용한다.

 

비용이 최소가 되도록 직선을 실제 데이터에 fit시키는 것이 우리의 목표!

 

<Cost function>

출처: http://bit.ly/2LQMKvk

직선의 방정식이다.

W = Weight, b = bias

오차 제곱의 평균

 

<Goal: Minimize cost>

minimize cost (W, b)하는 W와 b를 찾는 것이 목표이다.

 

 

 

 

출처: https://youtu.be/Mx7oqTKwhIA