티스토리 뷰

반응형

Chapter 8. 예측을 해보자(3) - 회귀의 종류

Simple vs. Multiple regression

온도로 아이스크림 판매량 예측하기
  - 온도(X, Input)
  - 아이스크림 판매량(Y, Output)
  - Y = AX + B

온도(X₁), 습도(X₂)로 아이스크림 판매량(Y) 예측
  - 온도(X₁, Input₁)
  - 습도(X₂, Input₂)
  - 아이스크림 판매량(Y, Output)
  - Y = AX₁ + BX₂ + C
  - A, B, C 모두에 대한 최적의 값을 찾아야 함

Input 변수 1개 : 단순회귀(Simple regression)
Input 변수 2개 이상 : 다중(중다)회귀(Multiple regression)

예측값에 영향을 미치는 변수들이 엄청 많을텐데 그 변수 다 집어넣으면 더 좋은 모델이 되지 않을까?
-> 현실은 정 반대!
=> 필요 없는 변수는 최대한 줄이는 것이 좋다

예측 성능이 높을 것으로 기대되는 변수만 선택!
  - 상관을 통해 상관 관계가 더 높은 변수 선택
  - 상관↑ => 예측력↑
  - 이외에도 다양한 방법이 존재

 

Linear vs. Non-linear regression

변곡점마다 방정식의 차수가 증가
  - 변곡점이 없는 1차 방정식 : Y = AX + B
  - 변곡점이 하나 있는 2차 방정식 : Y = AX² + BX + C
  - 변곡점이 3개인 4차 방정식 :  : Y = AX⁴ + BX³ + CX² + DX + E

예측에 사용할 데이터의 패턴에 따라 사용할 방정식이 달라짐

1차 방정식
  - 직선 형태
  - Linear regression
  - 선형회귀

2차 이상의 방정식
  - 곡선 형태
  - Non-linear regression
  - 비선형회귀

Y = AX + B
  - Simple linear regression
  - 단순선형회귀
  - Input 1개, 선형

 

Logistic regression

분류
  - 해킹 유저 골라내기
  - 스팸메일 필터 만들기

로지스틱 회귀(Logistic regression)

 

정리

1. 입력변수 개수에 따라 Simple regression과 Multiple regression으로 나눌 수 있음
2. 모델링 해야 하는 방정식 차수에 따라 Linear regression과 Non-linear regression으로 나뉨
3. 데이터 분석의 목적이 예측 또는 분류인지에 따라 나뉨
  : 분류의 경우 Logistic regression(로지스틱 회귀)를 씀

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함