티스토리 뷰
[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 4. 유사하다는 것은 무엇인가?(3) - 상관값에 따른 데이터의 관계성
miiingo 2020. 4. 28. 10:14Chapter 4. 유사하다는 것은 무엇인가?(3) - 상관값에 따른 데이터의 관계성
rxy = -1일때 데이터는?
X Y(r=1) Y(r=0) Y(r=-1)
0 0 0
1 1 -1
2 2 -2
3 3 -3
4 4 -4
5 5 -5
6 6 -6
7 7 -7
8 8 -8
9 9 -9
Y = -X
Y = X일 때와 기울기 부호만 달라진다
rxy가 양의 값(+) : 증가함수
rxy가 음의 값(-) : 감소함수
Pearson-r 특성 정리
Pearson-r의 최대값은 1
Pearson-r의 최소값은 -1
-1 ≤ Pearson-r ≤ 1
- : 감소함수
+ : 증가함수
상관강도(유사도가 강한 정도) : |r| (절대값)
rxy = 1 & rxy = -1
- X, Y 유사도 100%
- 방향만 반대
변화 패턴이 유사한가? 가 중요
기울기가 (+)이기만 하고 선형(1차방정식)으로 나타낼 수만 있으면 절편에 관계없이 rxy=1이다.
기울기가 (-)이기만 하고 선형(1차방정식)으로 나타낼 수만 있으면 절편에 관계없이 rxy=-1이다.
기울기가 바뀌어도 모든 경우 rxy = -1
rxy = 0일때 데이터는?
X Y(r=1) Y(r=0) Y(r=-1)
0 0 랜덤 0
1 1 랜덤 -1
2 2 랜덤 -2
3 3 랜덤 -3
4 4 랜덤 -4
5 5 랜덤 -5
6 6 랜덤 -6
7 7 랜덤 -7
8 8 랜덤 -8
9 9 랜덤 -9
산포도(산점도) : 점으로 이루어진 그래프 형태
특정 선으로 모든 X, Y 데이터가 모이면 r=1
r = 0.7이면 산포도는 어떻게 될까요?
- 특정 선에 모든 점이 수렴되지는 못하고 "조금씩 벌어짐"
r = 0.5이면 산포도는?
- 조금 더 벌어짐
r = 0이면?
- 완벽한 원형이 됨
r=0이면 완벽한 원형이 된다.
- 변화량이 하나도 일치하지 않는 상태
- =랜덤
r=0이려면 어느 한 구간에서라도 변화 패턴이 일치하면 안된다.
미세먼지와 풍속의 관계 (기상청 제공 데이터)
- 산포도가 원형에 가깝다
= 풍속과 미세먼지 간에 관계성이 없다
정리
1. -1 ≤ Pearson-r ≤ 1
2. Pearson-r에서의 부호(-, +)는 증가함수인지 감소함수인지 그 방향성만을 알려줌
3. 상관 강도, 즉 유사도의 강한 정도는 |r|(절대값)을 이용하여 나타냄
4. rxy=0인 경우 두 데이터 x, y는 유사도가 0이란 뜻이며, 산포도를 그렸을 때 원형을 나타내게 됨
'교육 및 세미나' 카테고리의 다른 글
- Total
- Today
- Yesterday
- 코딩테스트
- 암브로셔스
- 코테
- 어서와 데이터는 처음이지
- 하이퍼레저 인디
- 하이퍼레저 패브릭
- Private Data
- javascript
- Blockchain
- Hyperledger Fabric v1.2
- 하이퍼레저 페브릭
- ubuntu
- codility
- 블록 체인
- 빅데이터 교육
- 문제풀이
- Hyperledger Indy
- 알고리즘
- 코딜리티
- 빅데이터 강의
- 블록체인
- docker
- DOCs
- 기초 of 기초 데이터 개념
- 직딩잇템
- Hyperledger Fabric
- Hyperledger Fabric v1.1
- 빅데이터 기초
- ambrosus
- 빅데이터
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |