티스토리 뷰
[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 8. 예측을 해보자(3) - 회귀의 종류
miiingo 2020. 5. 7. 17:27Chapter 8. 예측을 해보자(3) - 회귀의 종류
Simple vs. Multiple regression
온도로 아이스크림 판매량 예측하기
- 온도(X, Input)
- 아이스크림 판매량(Y, Output)
- Y = AX + B
온도(X₁), 습도(X₂)로 아이스크림 판매량(Y) 예측
- 온도(X₁, Input₁)
- 습도(X₂, Input₂)
- 아이스크림 판매량(Y, Output)
- Y = AX₁ + BX₂ + C
- A, B, C 모두에 대한 최적의 값을 찾아야 함
Input 변수 1개 : 단순회귀(Simple regression)
Input 변수 2개 이상 : 다중(중다)회귀(Multiple regression)
예측값에 영향을 미치는 변수들이 엄청 많을텐데 그 변수 다 집어넣으면 더 좋은 모델이 되지 않을까?
-> 현실은 정 반대!
=> 필요 없는 변수는 최대한 줄이는 것이 좋다
예측 성능이 높을 것으로 기대되는 변수만 선택!
- 상관을 통해 상관 관계가 더 높은 변수 선택
- 상관↑ => 예측력↑
- 이외에도 다양한 방법이 존재
Linear vs. Non-linear regression
변곡점마다 방정식의 차수가 증가
- 변곡점이 없는 1차 방정식 : Y = AX + B
- 변곡점이 하나 있는 2차 방정식 : Y = AX² + BX + C
- 변곡점이 3개인 4차 방정식 : : Y = AX⁴ + BX³ + CX² + DX + E
예측에 사용할 데이터의 패턴에 따라 사용할 방정식이 달라짐
1차 방정식
- 직선 형태
- Linear regression
- 선형회귀
2차 이상의 방정식
- 곡선 형태
- Non-linear regression
- 비선형회귀
Y = AX + B
- Simple linear regression
- 단순선형회귀
- Input 1개, 선형
Logistic regression
분류
- 해킹 유저 골라내기
- 스팸메일 필터 만들기
로지스틱 회귀(Logistic regression)
정리
1. 입력변수 개수에 따라 Simple regression과 Multiple regression으로 나눌 수 있음
2. 모델링 해야 하는 방정식 차수에 따라 Linear regression과 Non-linear regression으로 나뉨
3. 데이터 분석의 목적이 예측 또는 분류인지에 따라 나뉨
: 분류의 경우 Logistic regression(로지스틱 회귀)를 씀
'교육 및 세미나' 카테고리의 다른 글
- Total
- Today
- Yesterday
- docker
- 기초 of 기초 데이터 개념
- 빅데이터 기초
- 하이퍼레저 인디
- Hyperledger Indy
- 하이퍼레저 페브릭
- javascript
- 블록 체인
- DOCs
- 빅데이터 교육
- 어서와 데이터는 처음이지
- 코테
- 문제풀이
- 하이퍼레저 패브릭
- 빅데이터 강의
- Hyperledger Fabric
- 암브로셔스
- 블록체인
- 코딩테스트
- Private Data
- Hyperledger Fabric v1.1
- ubuntu
- 직딩잇템
- 코딜리티
- codility
- ambrosus
- Hyperledger Fabric v1.2
- Blockchain
- 빅데이터
- 알고리즘
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |