티스토리 뷰

반응형

Chapter 2. 유사하다는 것은 무엇인가?(1) - 상관분석(pearson-r) 기초

Pearson-r 상관값

r = 서로 같이 변하는 정도 / 서로 각기 변하는 정도
r = ∑xy / √(∑x²∑y²)
  - ∑x² = Sx²= x 데이터의 표준편차의 제곱 = x 데이터의 분산 → Δx
  - ∑y² = Sy²= y 데이터의 표준편차의 제곱 = y 데이터의 분산 → Δy
  - 제곱으로 뻥튀기된 거리 값을 되돌리기 위해 √(루트)를 사용
  - √(∑x²∑y²) : x, y 데이터의 변화량(분산)의 총량
  - ∑xy : 두 데이터의 변화 패턴이 동일한 구간의 변화량만 계산
           공통된 변화량의 총량, 공통된 분산(공분산)
∴ r = 변화 패턴이 일치하는 변화량의 총량 / 변화량의 총량
     = 서로 같이 변하는 정도 / 서로 각기 변하는 정도
     = 공분산 / 분산
   r 값이 커질수록 유사도 ↑
   유사도 100% = 1

Pearson-r
  - 데이터의 변화패턴(변화량)으로 유사도를 구한다.

(통계에서) 변화량의 개념 = 분산의 개념
  - 분산 : 평균에서 각 데이터까지의 거리(편차)
  - 편차의 합은 항상 0
  - 편차를 제곱해서 편차 제곱의 평균을 구한다

분산이 크다는 것은?
  - 데이터들이 평균에서 거리가 많이 떨어져 있다.
  - 데이터 간의 사이가 벌어져 있다.
  - 데이터 변화량이 크다
  - Δx가 크다!!!!!

분산이 작다는 것은?
  - 데이터 간의 거리가 줄어든다.
  - 데이터 변화량이 작다
  - Δx가 작다!!!!!

=> 그래서 표준편차, 분산을 사용하는 것!

 

Pearson-r 쉽게 이해하기

           A                           B
A의 변화량의 총량     B의 변화량의 총량

변화 패턴이 일치하는 구간
  - A ∩ B
  - 공분산(분자)

r = ∑xy / √(∑x²∑y²)
  = 서로 같이 변하는 정도 / 서로 각기 변하는 정도
  = 공분산 / 분산
  = A ∩ B / A ∪ B

두 데이터의 변화량이 일치하는 값이 최대가 되면 어떻게 될까?
  - A ∩ B / A ∪ B => A ∩ B가 max일 때, A=B
  - A ∩ B는 A ∪ B 값을 넘어설 수 없다.
  - 이 비율의 최대값은 1을 넘을 수 없다.
∴ Pearson-r 은 항상 최대값이 1이 된다.

Pearson-r = 1
=> 두 데이터의 유사도가 100%

A ∩ B가 줄어들면 유사도도 떨어진다

 

정리

1. Pearson-r 상관분석
  - 데이터 간의 변화 패턴으로 유사도를 구함
  - 두 데이터의 변화 패턴이 일치할수록 두 데이터는 유사한 데이터가 됨

2. Pearson-r 수치
  - 공분산/분산 으로 그 수치를 구하며, 계산된 수치의 최댓값은 1임
  - r=1이면 유사도가 100%라는 의미임

 

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함