티스토리 뷰

반응형

Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석

Orientation

예측을 어떻게 한다는 거야?
예측, 정확히 무엇을 어떻게 하는 것인가?

준비물
#1 펜과 노트 : 중요 내용은 직접 적으면서 볼 것
#2 일시정지 버튼을 누르는 순발력 : 중간중간 질문에 스스로 생각해보고 진행할 것

 

상관분석의 목적

상관분석(Correlation)

상관분석의 목적
- '유사도'를 구하기 위해 사용
- 유사도 : 데이터 A와 데이터 B 사이의 관계성

두 변화 패턴의 유사도가 동일하다
= 두 데이터 간의 관계성이 있다
= 유사하다

A, B의 관계성이 B, C의 관계성보다는 좀 더 유사도가 높다.

유사도를 이용해서 만들어내는 것?
 : 추천 서비스

 

유사도를 정의하는 방법

유사도를 무엇으로 정의할 것인가?

#1 데이터 간 떨어진 거리
= 거리가 멀면 '유사도가 낮다'

#2 원점에서 데이터까지 각도
= 코사인 각도, 두 데이터 사이의 각도가 작을수록 가까운 데이터
코사인 유사도(Cosine similarity)

#3 데이터 변화 패턴(변화량)
X = [0,1,2,3,4]
Y = [0,1,2,3,4]
1차 방정식 : 기울기와 y 절편을 구하라
기울기 = y의 증가량(Δy)/x의 증가량(Δx)
=> y = x
= 유사도가 100%!
모든 구간에서 두 데이터의 변화 패턴이 일치하면 유사도가 100%
Pearson - r (줄여서 r)
가장 많이 쓰이는 방법

 

정리

1. 상관분석(Correlation)의 목적
 : 데이터 간의 유사도를 구하는 것
2. 유사도 정의 방법
 : 거리, 원점에서의 각도, 데이터의 변화 패턴 든 다양한 방법으로 유사도를 정의하고 구할 수 있으며, 각 방법마다 쓰임새가 다름
3. Pearson-r
  - 데이터의 변화량, 즉 변화 패턴을 이용하여 유사도를 계산하는 알고리즘
  - 줄여서 r이라고 부름
  - 유사도 분석의 가장 기초이자 가장 널리 쓰이는 알고리즘

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함