[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석

티스토리 뷰

교육 및 세미나

[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석

miiingo 2020. 4. 22. 11:06

Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석

Orientation

예측을 어떻게 한다는 거야?
예측, 정확히 무엇을 어떻게 하는 것인가?

준비물
#1 펜과 노트 : 중요 내용은 직접 적으면서 볼 것
#2 일시정지 버튼을 누르는 순발력 : 중간중간 질문에 스스로 생각해보고 진행할 것

상관분석의 목적

상관분석(Correlation)

상관분석의 목적
- '유사도'를 구하기 위해 사용
- 유사도 : 데이터 A와 데이터 B 사이의 관계성

두 변화 패턴의 유사도가 동일하다
= 두 데이터 간의 관계성이 있다
= 유사하다

A, B의 관계성이 B, C의 관계성보다는 좀 더 유사도가 높다.

유사도를 이용해서 만들어내는 것?
: 추천 서비스

유사도를 정의하는 방법

유사도를 무엇으로 정의할 것인가?

#1 데이터 간 떨어진 거리
= 거리가 멀면 '유사도가 낮다'

#2 원점에서 데이터까지 각도
= 코사인 각도, 두 데이터 사이의 각도가 작을수록 가까운 데이터
코사인 유사도(Cosine similarity)

#3 데이터 변화 패턴(변화량)
X = [0,1,2,3,4]
Y = [0,1,2,3,4]
1차 방정식 : 기울기와 y 절편을 구하라
기울기 = y의 증가량(Δy)/x의 증가량(Δx)
=> y = x
= 유사도가 100%!
모든 구간에서 두 데이터의 변화 패턴이 일치하면 유사도가 100%
Pearson - r (줄여서 r)
가장 많이 쓰이는 방법

정리

1. 상관분석(Correlation)의 목적
: 데이터 간의 유사도를 구하는 것
2. 유사도 정의 방법
: 거리, 원점에서의 각도, 데이터의 변화 패턴 든 다양한 방법으로 유사도를 정의하고 구할 수 있으며, 각 방법마다 쓰임새가 다름
3. Pearson-r
  - 데이터의 변화량, 즉 변화 패턴을 이용하여 유사도를 계산하는 알고리즘
  - 줄여서 r이라고 부름
  - 유사도 분석의 가장 기초이자 가장 널리 쓰이는 알고리즘

저작자표시 비영리 동일조건 (새창열림)

'교육 및 세미나' 카테고리의 다른 글

[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 3. 유사하다는 것은 무엇인가?(2) - 데이터로 직접 확인하기 (0)	2020.04.24
[직딩잇템] 어서와 데이터는 처음이지 - Part3. 미래 예측을 위한 기초 개념: Chapter 2. 유사하다는 것은 무엇인가?(1) - 상관분석(pearson-r) 기초 (0)	2020.04.23
[직딩잇템] 어서와 데이터는 처음이지 - Part2. 효과 검증을 위한 기초 개념: Chapter 13. 데이터 분석 실습 - 연도별 매출 비교 미션 해결하기! (0)	2020.04.21
[직딩잇템] 어서와 데이터는 처음이지 - Part2. 효과 검증을 위한 기초 개념: Chapter 12. t를 제대로 쓰려면 알아야 한다 - 정규성, 독립성, 등분산성 (0)	2020.04.21
[직딩잇템] 어서와 데이터는 처음이지 - Part2. 효과 검증을 위한 기초 개념: Chapter 11. 두통약의 효과를 판단하려면? - t검증을 위한 실험 설계 (0)	2020.04.21

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

miiingo riiingo

티스토리 뷰