[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 2. 유사하다는 것은 무엇인가?(1)

티스토리 뷰

교육 및 세미나

[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 2. 유사하다는 것은 무엇인가?(1) - 상관분석(pearson-r) 기초

miiingo 2020. 4. 23. 10:33

Chapter 2. 유사하다는 것은 무엇인가?(1) - 상관분석(pearson-r) 기초

Pearson-r 상관값

r = 서로 같이 변하는 정도 / 서로 각기 변하는 정도
r = ∑xy / √(∑x²∑y²)
  - ∑x² = Sx²= x 데이터의 표준편차의 제곱 = x 데이터의 분산 → Δx
  - ∑y² = Sy²= y 데이터의 표준편차의 제곱 = y 데이터의 분산 → Δy
  - 제곱으로 뻥튀기된 거리 값을 되돌리기 위해 √(루트)를 사용
  - √(∑x²∑y²) : x, y 데이터의 변화량(분산)의 총량
  - ∑xy : 두 데이터의 변화 패턴이 동일한 구간의 변화량만 계산
           공통된 변화량의 총량, 공통된 분산(공분산)
∴ r = 변화 패턴이 일치하는 변화량의 총량 / 변화량의 총량
     = 서로 같이 변하는 정도 / 서로 각기 변하는 정도
     = 공분산 / 분산
   r 값이 커질수록 유사도 ↑
   유사도 100% = 1

Pearson-r
  - 데이터의 변화패턴(변화량)으로 유사도를 구한다.

(통계에서) 변화량의 개념 = 분산의 개념
  - 분산 : 평균에서 각 데이터까지의 거리(편차)
  - 편차의 합은 항상 0
  - 편차를 제곱해서 편차 제곱의 평균을 구한다

분산이 크다는 것은?
  - 데이터들이 평균에서 거리가 많이 떨어져 있다.
  - 데이터 간의 사이가 벌어져 있다.
  - 데이터 변화량이 크다
  - Δx가 크다!!!!!

분산이 작다는 것은?
  - 데이터 간의 거리가 줄어든다.
  - 데이터 변화량이 작다
  - Δx가 작다!!!!!

=> 그래서 표준편차, 분산을 사용하는 것!

Pearson-r 쉽게 이해하기

A B
A의 변화량의 총량     B의 변화량의 총량

변화 패턴이 일치하는 구간
  - A ∩ B
  - 공분산(분자)

r = ∑xy / √(∑x²∑y²)
  = 서로 같이 변하는 정도 / 서로 각기 변하는 정도
  = 공분산 / 분산
  = A ∩ B / A ∪ B

두 데이터의 변화량이 일치하는 값이 최대가 되면 어떻게 될까?
  - A ∩ B / A ∪ B => A ∩ B가 max일 때, A=B
  - A ∩ B는 A ∪ B 값을 넘어설 수 없다.
  - 이 비율의 최대값은 1을 넘을 수 없다.
∴ Pearson-r 은 항상 최대값이 1이 된다.

Pearson-r = 1
=> 두 데이터의 유사도가 100%

A ∩ B가 줄어들면 유사도도 떨어진다

정리

1. Pearson-r 상관분석
  - 데이터 간의 변화 패턴으로 유사도를 구함
  - 두 데이터의 변화 패턴이 일치할수록 두 데이터는 유사한 데이터가 됨

2. Pearson-r 수치
  - 공분산/분산 으로 그 수치를 구하며, 계산된 수치의 최댓값은 1임
  - r=1이면 유사도가 100%라는 의미임

저작자표시 비영리 동일조건 (새창열림)

'교육 및 세미나' 카테고리의 다른 글

[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 4. 유사하다는 것은 무엇인가?(3) - 상관값에 따른 데이터의 관계성 (0)	2020.04.28
[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 3. 유사하다는 것은 무엇인가?(2) - 데이터로 직접 확인하기 (0)	2020.04.24
[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석 (0)	2020.04.22
[직딩잇템] 어서와 데이터는 처음이지 - Part2. 효과 검증을 위한 기초 개념: Chapter 13. 데이터 분석 실습 - 연도별 매출 비교 미션 해결하기! (0)	2020.04.21
[직딩잇템] 어서와 데이터는 처음이지 - Part2. 효과 검증을 위한 기초 개념: Chapter 12. t를 제대로 쓰려면 알아야 한다 - 정규성, 독립성, 등분산성 (0)	2020.04.21

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

miiingo riiingo

티스토리 뷰