티스토리 뷰
[직딩잇템] 어서와 데이터는 처음이지 - Part2. 효과 검증을 위한 기초 개념: Chapter 1. 요일별 매출 좀 비교해봐! - 흔히 저지르는 실수
miiingo 2020. 4. 17. 15:05Chapter 1. 요일별 매출 좀 비교해봐! - 흔히 저지르는 실수
Orientation
이제까지의 분석?
막대그래프/꺾은선그래프를 활용
시각화정도를 추가하는 것으로 끝냄
그래프 상으로 차이가 있으면 조건별로 차이가 있는 거지, 효과가 있는거지(조건이라는 것이) 그렇게 분석하고 끝냄
-> 위험한 분석!
조건별 차이라는 것을 어떻게 검증할 것인가?
다양한 조건이 있을 떄 효과 차이라는 것을 어떻게 정확히 확인할 지 통계적으로 확인하는 과정을 살펴볼 예정
데이터 소개
"우리마을가게 상권분석" -> 다운로드 필요(엑셀)
기준년월 : 날짜(년월)
상권코드, 상권코드명 : 상권의 분류
서비스업종코드, 서비스업종코드명 : 서비스 업종의 분류
샘플 데이터 (3개월 치 밖에 없다!)
필수로 알아야하는 기본 개념!
1. 모집단 : 원래 알고 싶은 데이터 전체(현실적으로 이 데이터는 존재하지 않는다)
2. 표본 : 모집단에서 일부만 뽑아낸 부분 데이터
3. 샘플링 : 모집단에서 표본을 뽑는 과정
4. 표집수(N) : 샘플링한 데이터 개수
5. 랜덤 샘플링 : 표집 시에 어떠한 기준을 두지 않고 무작위로 추출하는 과정
#1_편향(Bias) : 특정 기준을 두고 샘플링해서 데이터가 한 쪽으로 치우치는 현상
#2_아웃라이어(Outlier) : 다른 데이터에 비해 극단적으로 크거나 작은 수치
조건 간 차이 검증
요구 목적(목표)
월요일과 화요일의 평균 매출은 차이가 나는가?
요일별 매출 평균 비교
축을 어떻게 만들었냐에 따라 다른 결과로 해석됨
누구나 인정할 수 있는 객관적인 결과를 원한다!
조건 간 차이
차이가 난다는 것의 기준은?
정리
1. 우리의 목표 : 조건 간 차이를 구해라!
2. 조건 간 차이 검증
- 샘플의 기술통계로 그래프만 그려서 판단하는 것은 객관적인 방법이 아니며, 잘못된 판단을 할 가능성이 높음
- 정확히 얼마가 차이 나야 차이가 있다고 할 지, '차이 값'에 대한 객관적 정의가 필요함
'교육 및 세미나' 카테고리의 다른 글
- Total
- Today
- Yesterday
- 문제풀이
- 빅데이터 기초
- 기초 of 기초 데이터 개념
- DOCs
- 하이퍼레저 인디
- docker
- Blockchain
- Hyperledger Fabric v1.2
- Hyperledger Indy
- Hyperledger Fabric v1.1
- 블록체인
- 코딜리티
- javascript
- 코딩테스트
- 하이퍼레저 패브릭
- 알고리즘
- codility
- 직딩잇템
- 어서와 데이터는 처음이지
- 빅데이터 교육
- Private Data
- 빅데이터
- 코테
- 암브로셔스
- 블록 체인
- Hyperledger Fabric
- 하이퍼레저 페브릭
- ambrosus
- 빅데이터 강의
- ubuntu
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |