티스토리 뷰

반응형

Chapter 1. 요일별 매출 좀 비교해봐! - 흔히 저지르는 실수

Orientation

이제까지의 분석?
막대그래프/꺾은선그래프를 활용
시각화정도를 추가하는 것으로 끝냄
그래프 상으로 차이가 있으면 조건별로 차이가 있는 거지, 효과가 있는거지(조건이라는 것이) 그렇게 분석하고 끝냄
-> 위험한 분석!

조건별 차이라는 것을 어떻게 검증할 것인가?

다양한 조건이 있을 떄 효과 차이라는 것을 어떻게 정확히 확인할 지 통계적으로 확인하는 과정을 살펴볼 예정

 

데이터 소개

"우리마을가게 상권분석" -> 다운로드 필요(엑셀)

기준년월 : 날짜(년월)
상권코드, 상권코드명 : 상권의 분류
서비스업종코드, 서비스업종코드명 : 서비스 업종의 분류

샘플 데이터 (3개월 치 밖에 없다!)

 

필수로 알아야하는 기본 개념!

1. 모집단 : 원래 알고 싶은 데이터 전체(현실적으로 이 데이터는 존재하지 않는다)
2. 표본 : 모집단에서 일부만 뽑아낸 부분 데이터
3. 샘플링 : 모집단에서 표본을 뽑는 과정
4. 표집수(N) : 샘플링한 데이터 개수
5. 랜덤 샘플링 : 표집 시에 어떠한 기준을 두지 않고 무작위로 추출하는 과정

#1_편향(Bias) : 특정 기준을 두고 샘플링해서 데이터가 한 쪽으로 치우치는 현상
#2_아웃라이어(Outlier) : 다른 데이터에 비해 극단적으로 크거나 작은 수치

 

조건 간 차이 검증

요구 목적(목표)
월요일과 화요일의 평균 매출은 차이가 나는가?

요일별 매출 평균 비교
축을 어떻게 만들었냐에 따라 다른 결과로 해석됨

누구나 인정할 수 있는 객관적인 결과를 원한다!

조건 간 차이
차이가 난다는 것의 기준은?

 

정리

1. 우리의 목표 : 조건 간 차이를 구해라!
2. 조건 간 차이 검증
   - 샘플의 기술통계로 그래프만 그려서 판단하는 것은 객관적인 방법이 아니며, 잘못된 판단을 할 가능성이 높음
   - 정확히 얼마가 차이 나야 차이가 있다고 할 지, '차이 값'에 대한 객관적 정의가 필요함

 

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함