티스토리 뷰
[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 2. 유사하다는 것은 무엇인가?(1) - 상관분석(pearson-r) 기초
miiingo 2020. 4. 23. 10:33Chapter 2. 유사하다는 것은 무엇인가?(1) - 상관분석(pearson-r) 기초
Pearson-r 상관값
r = 서로 같이 변하는 정도 / 서로 각기 변하는 정도
r = ∑xy / √(∑x²∑y²)
- ∑x² = Sx²= x 데이터의 표준편차의 제곱 = x 데이터의 분산 → Δx
- ∑y² = Sy²= y 데이터의 표준편차의 제곱 = y 데이터의 분산 → Δy
- 제곱으로 뻥튀기된 거리 값을 되돌리기 위해 √(루트)를 사용
- √(∑x²∑y²) : x, y 데이터의 변화량(분산)의 총량
- ∑xy : 두 데이터의 변화 패턴이 동일한 구간의 변화량만 계산
공통된 변화량의 총량, 공통된 분산(공분산)
∴ r = 변화 패턴이 일치하는 변화량의 총량 / 변화량의 총량
= 서로 같이 변하는 정도 / 서로 각기 변하는 정도
= 공분산 / 분산
r 값이 커질수록 유사도 ↑
유사도 100% = 1
Pearson-r
- 데이터의 변화패턴(변화량)으로 유사도를 구한다.
(통계에서) 변화량의 개념 = 분산의 개념
- 분산 : 평균에서 각 데이터까지의 거리(편차)
- 편차의 합은 항상 0
- 편차를 제곱해서 편차 제곱의 평균을 구한다
분산이 크다는 것은?
- 데이터들이 평균에서 거리가 많이 떨어져 있다.
- 데이터 간의 사이가 벌어져 있다.
- 데이터 변화량이 크다
- Δx가 크다!!!!!
분산이 작다는 것은?
- 데이터 간의 거리가 줄어든다.
- 데이터 변화량이 작다
- Δx가 작다!!!!!
=> 그래서 표준편차, 분산을 사용하는 것!
Pearson-r 쉽게 이해하기
A B
A의 변화량의 총량 B의 변화량의 총량
변화 패턴이 일치하는 구간
- A ∩ B
- 공분산(분자)
r = ∑xy / √(∑x²∑y²)
= 서로 같이 변하는 정도 / 서로 각기 변하는 정도
= 공분산 / 분산
= A ∩ B / A ∪ B
두 데이터의 변화량이 일치하는 값이 최대가 되면 어떻게 될까?
- A ∩ B / A ∪ B => A ∩ B가 max일 때, A=B
- A ∩ B는 A ∪ B 값을 넘어설 수 없다.
- 이 비율의 최대값은 1을 넘을 수 없다.
∴ Pearson-r 은 항상 최대값이 1이 된다.
Pearson-r = 1
=> 두 데이터의 유사도가 100%
A ∩ B가 줄어들면 유사도도 떨어진다
정리
1. Pearson-r 상관분석
- 데이터 간의 변화 패턴으로 유사도를 구함
- 두 데이터의 변화 패턴이 일치할수록 두 데이터는 유사한 데이터가 됨
2. Pearson-r 수치
- 공분산/분산 으로 그 수치를 구하며, 계산된 수치의 최댓값은 1임
- r=1이면 유사도가 100%라는 의미임
'교육 및 세미나' 카테고리의 다른 글
- Total
- Today
- Yesterday
- 직딩잇템
- Hyperledger Fabric
- 코딜리티
- 빅데이터
- Hyperledger Fabric v1.1
- Hyperledger Indy
- javascript
- ubuntu
- docker
- Private Data
- 기초 of 기초 데이터 개념
- 문제풀이
- 하이퍼레저 페브릭
- 블록체인
- 암브로셔스
- 코딩테스트
- 하이퍼레저 인디
- Blockchain
- 하이퍼레저 패브릭
- 빅데이터 강의
- 알고리즘
- 빅데이터 기초
- Hyperledger Fabric v1.2
- 블록 체인
- ambrosus
- 빅데이터 교육
- DOCs
- 코테
- 어서와 데이터는 처음이지
- codility
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |