Coding Log


지도학습 (Supervised Learning)

집값을 예측해보자


어떤 집값의 데이터가 있을 때 이를 그래프로 표현한 것이다

지도학습은 어떤 입력(input)이 있을 때 그에 해당하는 정답(right answer)가 존재한다

위의 경우 집의 크기를 알고 있을 때 그 집의 가격을 알 수 있는 그래프이다

우리는 위의 그래프를보고 지도학습 알고리즘과 회귀(Regression) 문제임을 파악할 수 있다

이는 주어진 데이터를 토대로 전혀 모르는 input인 집의 크기를 입력 했을 때 right answer인 집의 가격을 알 수 있다는 뜻이다

집값들의 학습 데이터 집합(Training Set)

위의 표를 보면 실제로 판매된 면적당 가격이 나와 있다. 이를 학습 데이터 집합(이하 Training set)이라고 하자

위의 Training set에 표시된 면적에 따른 집들의 가격을 토대로 알고리즘을 학습시켜 이 알고리즘을 통해 집 값을 예측할 수 있다

앞으로 지도학습 알고리즘을 진행하면서 사용할 몇 가지 표기법들을 아래와 같이 정의한다

m : Training example의 갯수
x's : 입력 변수 inputfeatures
y's : 출력 변수 outputtarget
(x, y) : 한 쌍의 Training example
(x^{(i)}, y^{(i)})) : i번째 행의 Training example

지도학습 알고리즘의 작동 원리

지도학습 알고리즘의 작동원리는 위의 그림과 같이 동작한다

우리가 이미 알고 있는 Training set을 Learning Algorithm에 넘겨주면 알고리즘은 이 데이터를 토대로 학습을 하여 하나의 가설함수(hypothesis function)를 만들어낸다

위에 선술한 집의 넓이와 가격에 관한 Training set을 적용하면 아래와 같다

Training set을 Learning Algorithm이 학습하여 만들어낸 hypothesis function을 구하고 나서 특정한 집의 넓이인 Size of house를 input 으로 주면 학습된 모델을 토대로 예상되는 집값인 output 을 출력하는 것이다

가설함수 표현(Represent hypothesis function)

일반적으로 가설함수(이하 hypothesis function) h는 다음과 같이 표현한다

h_{\theta}(x) = \theta_0 + \theta_1x

위의 hypothesis function은 간단하게 h(x)로 표현하기도 한다

hypothesis function은 위에서 설명했듯이 x에 대한 y값을 예측한다

위와 같은 선형 모델을 Linear Regression with One Variable 이라고 하며
Univariate Linear Regression 이라고도 한다

이는 단순 선형 회귀 라는 뜻이다

DISQUS 로드 중…
댓글 로드 중…

트랙백을 확인할 수 있습니다

URL을 배껴둬서 트랙백을 보낼 수 있습니다