티스토리 뷰

반응형

Chapter 5. 오해하지 말자 결과는 결과일뿐! - 상관값의 해석

상관강도의 기준

우리나라 20대 성인의 신장과 몸무게 간의 상관값으로 r=0.7이 나왔다
  - 데이터 간 유사도를 알아보기 위해 상관을 계산
  - 신장과 체중은 관계성(유사도)이 있는가?

유사도의 강도는 |r|로 계산
  - |r| < 0.3 : 낮은 상관 (관계가 약함)
  - 0.3 ≤ |r| < 0.7 : 보통 (어느 정도 관계성이 있다)
  - 0.7 ≤ |r| : 매우 강한 상관

r=0.7
=> 신장과 체중의 관계성이 아주 높다

DJ의 잠깐 TMI
  - 혈액형과 성격의 상관관계
  - 별자리와 성격의 상관관계
  - r=0.1도 안된다
  - 해석은 알아서~

 

R² : 결정계수 (설명력)


  - R제곱
  - R스퀘어
  - 설명력
  - 결정계수
  - 예측 모델의 적합성 확인에 사용

Pearson-r 제곱 = R²

ex) 신장과 체중의 상관
  - r=0.7
  - R²=0.49
  - 신장이 체중을 혹은 체중이 신장을 49% 정도 설명한다.
  - 나머지 50%는? 식습관, 살아온 환경, 호르몬, DNA 등등등...
  - 설명력의 개념으로 이해하면 됨

 

상관관계의 해석

왜곡된 해석
ex) r=1인 경우
  - X와 Y의 상관관계가 강하다
    = X가 Y의 원인이다???

계절별 변화 패턴
  - 아이스크림 판매량 : 여름↑ 겨울↓
  - 익사자 수 : 여름↑ 겨울↓
  - 유사한 변화 패턴
  - r=1이라고 가정
  => 아이스크림 판매량이 익사자 수의 원인이다???

상관은 데이터 변화패턴 이용 유사도만 구한다.
  - 인과관계를 밝히기 위한 수단이 아님!!!
  - 인과관계를 확인하기 위해서는 실험을 거쳐야 함

상관관계는 인과관계를 알려주지 않는다!

ex) 구제역 바이러스
  - A 백신, B 백신
  - "구제역 바이러스와 백신 간의 상관을 구해봤더니 A 백신보다 B 백신이 더 상관이 높다. 따라서 B를 썼어야 된다."
  - '상관이 높다' → '백신에 효과가 있다'
  - ???????

 

정리

1. |r|<0.3 : 낮은 상관 (변수 간 관계성(유사도)이 거의 없음)
   0.3≤|r|<0.7 : 보통 (변수 간 관계성이 어느 정도는 있다고 봄)
   0.7≤|r| : 매우 강한 상관 (아주 높은 관계성이 있다고 봄)
2. R² : 결정계수 또는 설명력이라고 함
         r을 제곱하여 구해내는 수치임
         예측 모델의 적합도나 변수간의 설명력(%)을 나타내는 것으로 주로 사용함
3. 상관관계는 인과관계를 알려주지 않음

 

 

 

 

 

 

 

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함