티스토리 뷰
[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석
miiingo 2020. 4. 22. 11:06Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석
Orientation
예측을 어떻게 한다는 거야?
예측, 정확히 무엇을 어떻게 하는 것인가?
준비물
#1 펜과 노트 : 중요 내용은 직접 적으면서 볼 것
#2 일시정지 버튼을 누르는 순발력 : 중간중간 질문에 스스로 생각해보고 진행할 것
상관분석의 목적
상관분석(Correlation)
상관분석의 목적
- '유사도'를 구하기 위해 사용
- 유사도 : 데이터 A와 데이터 B 사이의 관계성
두 변화 패턴의 유사도가 동일하다
= 두 데이터 간의 관계성이 있다
= 유사하다
A, B의 관계성이 B, C의 관계성보다는 좀 더 유사도가 높다.
유사도를 이용해서 만들어내는 것?
: 추천 서비스
유사도를 정의하는 방법
유사도를 무엇으로 정의할 것인가?
#1 데이터 간 떨어진 거리
= 거리가 멀면 '유사도가 낮다'
#2 원점에서 데이터까지 각도
= 코사인 각도, 두 데이터 사이의 각도가 작을수록 가까운 데이터
코사인 유사도(Cosine similarity)
#3 데이터 변화 패턴(변화량)
X = [0,1,2,3,4]
Y = [0,1,2,3,4]
1차 방정식 : 기울기와 y 절편을 구하라
기울기 = y의 증가량(Δy)/x의 증가량(Δx)
=> y = x
= 유사도가 100%!
모든 구간에서 두 데이터의 변화 패턴이 일치하면 유사도가 100%
Pearson - r (줄여서 r)
가장 많이 쓰이는 방법
정리
1. 상관분석(Correlation)의 목적
: 데이터 간의 유사도를 구하는 것
2. 유사도 정의 방법
: 거리, 원점에서의 각도, 데이터의 변화 패턴 든 다양한 방법으로 유사도를 정의하고 구할 수 있으며, 각 방법마다 쓰임새가 다름
3. Pearson-r
- 데이터의 변화량, 즉 변화 패턴을 이용하여 유사도를 계산하는 알고리즘
- 줄여서 r이라고 부름
- 유사도 분석의 가장 기초이자 가장 널리 쓰이는 알고리즘
'교육 및 세미나' 카테고리의 다른 글
- Total
- Today
- Yesterday
- 빅데이터 교육
- codility
- 빅데이터 기초
- 코딜리티
- 코테
- 직딩잇템
- 블록체인
- javascript
- Hyperledger Fabric v1.2
- Private Data
- docker
- 코딩테스트
- ambrosus
- 하이퍼레저 페브릭
- 알고리즘
- 빅데이터
- 암브로셔스
- 빅데이터 강의
- Hyperledger Fabric v1.1
- ubuntu
- 하이퍼레저 패브릭
- DOCs
- 하이퍼레저 인디
- 문제풀이
- 블록 체인
- Hyperledger Fabric
- 기초 of 기초 데이터 개념
- Hyperledger Indy
- 어서와 데이터는 처음이지
- Blockchain
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |