[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 8. 예측을 해보자(3) - 회귀의 종류
Chapter 8. 예측을 해보자(3) - 회귀의 종류
Simple vs. Multiple regression
온도로 아이스크림 판매량 예측하기
- 온도(X, Input)
- 아이스크림 판매량(Y, Output)
- Y = AX + B
온도(X₁), 습도(X₂)로 아이스크림 판매량(Y) 예측
- 온도(X₁, Input₁)
- 습도(X₂, Input₂)
- 아이스크림 판매량(Y, Output)
- Y = AX₁ + BX₂ + C
- A, B, C 모두에 대한 최적의 값을 찾아야 함
Input 변수 1개 : 단순회귀(Simple regression)
Input 변수 2개 이상 : 다중(중다)회귀(Multiple regression)
예측값에 영향을 미치는 변수들이 엄청 많을텐데 그 변수 다 집어넣으면 더 좋은 모델이 되지 않을까?
-> 현실은 정 반대!
=> 필요 없는 변수는 최대한 줄이는 것이 좋다
예측 성능이 높을 것으로 기대되는 변수만 선택!
- 상관을 통해 상관 관계가 더 높은 변수 선택
- 상관↑ => 예측력↑
- 이외에도 다양한 방법이 존재
Linear vs. Non-linear regression
변곡점마다 방정식의 차수가 증가
- 변곡점이 없는 1차 방정식 : Y = AX + B
- 변곡점이 하나 있는 2차 방정식 : Y = AX² + BX + C
- 변곡점이 3개인 4차 방정식 : : Y = AX⁴ + BX³ + CX² + DX + E
예측에 사용할 데이터의 패턴에 따라 사용할 방정식이 달라짐
1차 방정식
- 직선 형태
- Linear regression
- 선형회귀
2차 이상의 방정식
- 곡선 형태
- Non-linear regression
- 비선형회귀
Y = AX + B
- Simple linear regression
- 단순선형회귀
- Input 1개, 선형
Logistic regression
분류
- 해킹 유저 골라내기
- 스팸메일 필터 만들기
로지스틱 회귀(Logistic regression)
정리
1. 입력변수 개수에 따라 Simple regression과 Multiple regression으로 나눌 수 있음
2. 모델링 해야 하는 방정식 차수에 따라 Linear regression과 Non-linear regression으로 나뉨
3. 데이터 분석의 목적이 예측 또는 분류인지에 따라 나뉨
: 분류의 경우 Logistic regression(로지스틱 회귀)를 씀