티스토리 뷰
[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 5. 오해하지 말자 결과는 결과일뿐! - 상관값의 해석
miiingo 2020. 4. 28. 10:16Chapter 5. 오해하지 말자 결과는 결과일뿐! - 상관값의 해석
상관강도의 기준
우리나라 20대 성인의 신장과 몸무게 간의 상관값으로 r=0.7이 나왔다
- 데이터 간 유사도를 알아보기 위해 상관을 계산
- 신장과 체중은 관계성(유사도)이 있는가?
유사도의 강도는 |r|로 계산
- |r| < 0.3 : 낮은 상관 (관계가 약함)
- 0.3 ≤ |r| < 0.7 : 보통 (어느 정도 관계성이 있다)
- 0.7 ≤ |r| : 매우 강한 상관
r=0.7
=> 신장과 체중의 관계성이 아주 높다
DJ의 잠깐 TMI
- 혈액형과 성격의 상관관계
- 별자리와 성격의 상관관계
- r=0.1도 안된다
- 해석은 알아서~
R² : 결정계수 (설명력)
R²
- R제곱
- R스퀘어
- 설명력
- 결정계수
- 예측 모델의 적합성 확인에 사용
Pearson-r 제곱 = R²
ex) 신장과 체중의 상관
- r=0.7
- R²=0.49
- 신장이 체중을 혹은 체중이 신장을 49% 정도 설명한다.
- 나머지 50%는? 식습관, 살아온 환경, 호르몬, DNA 등등등...
- 설명력의 개념으로 이해하면 됨
상관관계의 해석
왜곡된 해석
ex) r=1인 경우
- X와 Y의 상관관계가 강하다
= X가 Y의 원인이다???
계절별 변화 패턴
- 아이스크림 판매량 : 여름↑ 겨울↓
- 익사자 수 : 여름↑ 겨울↓
- 유사한 변화 패턴
- r=1이라고 가정
=> 아이스크림 판매량이 익사자 수의 원인이다???
상관은 데이터 변화패턴 이용 유사도만 구한다.
- 인과관계를 밝히기 위한 수단이 아님!!!
- 인과관계를 확인하기 위해서는 실험을 거쳐야 함
상관관계는 인과관계를 알려주지 않는다!
ex) 구제역 바이러스
- A 백신, B 백신
- "구제역 바이러스와 백신 간의 상관을 구해봤더니 A 백신보다 B 백신이 더 상관이 높다. 따라서 B를 썼어야 된다."
- '상관이 높다' → '백신에 효과가 있다'
- ???????
정리
1. |r|<0.3 : 낮은 상관 (변수 간 관계성(유사도)이 거의 없음)
0.3≤|r|<0.7 : 보통 (변수 간 관계성이 어느 정도는 있다고 봄)
0.7≤|r| : 매우 강한 상관 (아주 높은 관계성이 있다고 봄)
2. R² : 결정계수 또는 설명력이라고 함
r을 제곱하여 구해내는 수치임
예측 모델의 적합도나 변수간의 설명력(%)을 나타내는 것으로 주로 사용함
3. 상관관계는 인과관계를 알려주지 않음
'교육 및 세미나' 카테고리의 다른 글
- Total
- Today
- Yesterday
- ubuntu
- 기초 of 기초 데이터 개념
- 어서와 데이터는 처음이지
- 알고리즘
- 빅데이터 교육
- 빅데이터
- 하이퍼레저 인디
- 직딩잇템
- Private Data
- Blockchain
- Hyperledger Fabric v1.1
- 블록 체인
- javascript
- 코딩테스트
- Hyperledger Fabric
- 빅데이터 강의
- Hyperledger Indy
- Hyperledger Fabric v1.2
- 하이퍼레저 페브릭
- 코테
- 빅데이터 기초
- docker
- DOCs
- 하이퍼레저 패브릭
- codility
- 블록체인
- 암브로셔스
- ambrosus
- 문제풀이
- 코딜리티
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |