Chapter 13. 데이터 분석 실습 - 연도별 매출 비교 미션 해결하기! 0가설 정의/검증법 선택 목표 정의 월요일과 화요일의 평균 매출의 차이가 있는가? 샘플의 평균 차이 : 약 3만 정도 샘플의 차이 ≠ 모집단의 차이 0가설 : 월요일과 화요일의 매출 평균이 같다(내 추론과 반대) H0 : μ1=μ2 (또는 μ1-μ2=0) H0 : True일 확률 p는? P가 α보다 낮으면 0가설이 참일 확률이 낮다 α = 0.05(5%) 기준 #조건간차이 #샘플 데이터 => t검증 엑셀 추가 기능 세팅법 엑셀 상단 메뉴(파일) > 옵션 > 추가기능 > '분석 도구' 클릭 > 'Excel 추가 기능' 이동 버튼 클릭 > '분석 도구'만 체크 후 확인 버튼 클릭 > 추가 기능 세팅 완료! 화면 상단의 데이터 탭을 ..
Chapter 12. t를 제대로 쓰려면 알아야 한다 - 정규성, 독립성, 등분산성 정규성(정상성) 정규성(정상성)은 무엇을 확인하려는 것일까? -> 모집단이 정상분포 형태인가? 정규성을 만족하지 못할 때 쓰는 방법? -> 비모수검증 독립성 독립성? -> 조건을 2개로 나눴을 때 서로의 결과에 영향을 미칠 수 있느냐? 등분산성 등(=같다)분산(=편차 제곱의 평균)성 -> 두 조건별 데이터의 분산이 서로 같은가? 두 분포 간의 차이 -> 분포에서 겹치는 부분이 많고 적음에 따라 결정 이분산 : 분산이 다를 때 -> 평균 차이는 같아도 분산에 따라 겹쳐지는 부분이 달라진다! 두 조건의 분산이 비슷하변 등분산! => t검증 공식 적용 왜 확인하는가? 적용할 t의 공식(알고리즘)이 달라진다! 꼭 확인하고 진행해..
Chapter 11. 두통약의 효과를 판단하려면? - t검증을 위한 실험 설계 새로운 미션 "새로 나온 두통약이 정말 효과가 있는지 데이터 분석 좀 해" - 효과라는 것을 정확히 무슨 수치로 구할 건가요? - 어떤 수치가 나와야 두통완화에 효과가 있다고 하실겁니까? 해결책 1. 그룹 간 비교 Random Sampling N = 100 모집단(모든 사람) ----------------------> 표본(실험참가자) 뇌파의 양 비슷 (= 두통 정도 비슷) '어떤 수치로 두통을 측정할 것인가?' L. 가정. 뇌파가 높으면 두통이 심한 것 실험 설계 : 방법론을 정의하는 과정 N = 50 새로 만든 두통약 사용 |--- 조건 1 ------------------------> 조건 1 X1바 표본 | (실험 참가..
Chapter 10. 근데 이럴 때 Z는 못 쓰잖아? 그럼 대체자는? - t검증 현업에서 Z는 쓸 수 없다 Z = X-μ/σ - μ(모평균), σ(모표준편차) : 모집단의 데이터가 있어야 구할 수 있는 모수치! - Z를 쓰려면 모집단을 알아야 한다 -> 현업에 없는 데이터 Z의 대체자, t Z를 대체할 녀석 표본평균과 표본 표준편차는 구할 수 있습니까? 표본수치를 알면 Z를 추론 가능! 어떻게 표본수치를 이용해서 Z를 잘 추론할 수 있을까? - 랜덤 샘플링(N=100) -> 평균 = A - 랜덤 샘플링(N=100,000) -> 평균 = B Q. A와 B 중 모집단 평균에 더 가까운 수치는? : B (샘플을 많이 뽑아줘서) 중심극한정리(CLT) : N이 충분하다면 - X는 μ에 근사한다 - X바(표본의 평..
Chapter 9. 차이가 난다는 것의 기준은?(2) - 알파(α)와 p-value 기준선 α 대립가설(HA) : 월요일과 화요일의 매출에 차이가 있다. 0가설(H0) : 월요일과 화요일의 매출에 차이가 없다. HA : μ1≠μ2 또는 μ1-μ2≠0 H0 : μ1=μ2 또는 μ1-μ2=0 H0=True일 확률을 따져야 함 0가설이 참일 확률이 너무 낮으면 0가설 기각 => 대립가설이 참일 확률이 더 높다! 정확히 몇 %까지가 확률이 낮은 것인가? 기준이 필요 α = 0.05(5%) 0가설이 참일 확률이 5% 이하 -> 0가설 기각 실제 확률 값은? p-value 실제 데이터로 구해진 0가설이 참일 확률 : p-value(p) a.k.a 유의확률 α > p -> 0.05 > p - 0가설이 참일 확률이 매..
Chapter 8. 차이가 난다는 것의 기준은?(1) - 0가설 검정 어떤 확률을 따진다? 추론을 정확히 어떻게 하는가 - 정확도가 높은 추론 어떤 확률을 구해야 하는가? - 추론이 틀릴 확률 - 내가 틀릴 확률이 몇 % 0가설 검정 가설 (내가 확인하고 싶은 추론) : 월요일과 화요일의 매출 차이가 있다 -> 월요일과 화요일의 매출 차이가 없을 확률은 얼마인가? 내 추론과 반대되는 추론이 참이 될 확률을 따져보자 반대 추론 : 0가설(zero-hypothesis, H0) 내 추론 : 대립가설(alternative hypothesis, HA) 0가설이 참인지 아닌지 그 확률을 보면 된다! 6시그마 - 표준화를 이용하면 확률을 구할 수 있다 - 표준점수(Z)값에 따라 정상품일 확률이 달라진다 => H0 =..
Chapter 7. 6시그마? 들어는 봤는데 정확히 뭐지? - 표준화의 응용 6sigma의 단위 6sigma - 공장 불량률 - 품질 관리 - 업무 효율 - 다양하게 이용 표준화 공식 - 표준점수로 바꿔주는 공식 - 거리(편차)를 '표준 편차' 단위로 나타내는 것 - Z = X-μ/σ 6sigma = 6σ 6sigma의 진짜 의미 품질 관리에서 어떻게 사용하고 있을까? 95% 확률을 나타내는 Z 값 = 1.96 -> 어떤 데이터를 표준화 했을 때 표준편차 대비 2배(2σ)까지 거리의 표준점수들이 전체 데이터의 95%를 커버하는 구간이다 -> 2σ 범위 내에 데이터의 95%가 존재 하고 있다 ※ Z 값이 커지면 확률(밑넓이)은 줄어든다 정상일 확률이 엄청나게 높고 불량일 확률은 엄청나게 낮다는 것 => 엄..
Chapter 6. 하나도 안 숨겨둔 비기 공개 - 계산 안하고 확률 구하는 법 내 키는 상위 몇%? 우리나라 20세 이상 국민 중 내 키(180cm)는 상위 몇 %일까? 20세 이상 국민의 키 (가정) - 평균(μ) = 173cm - 표준 편차(σ) = 5 - 정상분포 확률 = 분포의 밑넓이 내 키는 상위 몇%? = 내 키~max 분포 밑넓이/20세 이상 키 분포 전체 밑넓이 표준정규분포로 바꾸면 적분 안써도 된다! 표준정규분포의 밑넓이 표준정규분포의 특징 - 평균 = 0 - 표준편차 = 1 - 전체 밑넓이 = 1 키 180cm를 표준정규분포로 바꾸면 어디에 위치할까? - 표준점수 = 180-173/5 = 1.4 표준정규분포표 표준정규분포표(Z table) - 표준정규분포의 밑넓이 수치들이 일일이 다 ..
Chapter 5. 모든 점수의 표준점수를 다 구해보면? - 표준정규분포 모든 점수의 표준 점수 A = [1,2,3,4,5] - 모집단 평균(μ) = 3 - 모집단 표준 편차(σ) = 루트2 Z(1) = 1-3/루트2 = -2/루트2 Z(2) = -1/루트2 Z(3) = 0/루트2=0 Z(4) = 1/루트2 Z(5) = 2/루트2 표준 점수들의 평균 모든 표준 점수의 평균을 구해보자! -> Always 0! 원 점수의 분포가 정상 분포라면? -> 표준 점수들의 평균은 Always 0! 표준 점수들의 표준 편차 표준 점수들의 표준 편차도 구해보자! -> 분산을 알아야함 - 분산 = 편차 제곱의 평균 - σ² = ∑(X-μ)²/N - 표준편차 = 루트[분산] - σ = 루트[∑(X-μ)²/N] - 편차 제곱..
Chapter 4. 국어와 수학 중 무엇을 더 잘한걸까? - 표준화와 표준점수 다른 분포, 같은 점수 국어와 수학 둘 다 80점 맞았다 둘 중에 뭘 더 잘본거죠? 국어 점수 수학 점수 - 분포, 평균, 표준편차 다 다르다 - 똑같은 80점이 아니다! 국어와 수학의 분포는 어떻게 생겼을까? - 국어와 수학 점수는 어떤 특성을 가지고 있을까? - 국어는 그래도 대부분 잘하고 - 수학은 별의별 놈 다 있지 않을까요? ※ 알고 있어야할 내용 1. 분산/표준편차를 구하는 목적 : 데이터의 각 수치들이 평균에 수렴하는지, 아니면 넓게 흩어져 있는지 그 정도를 알려고 하는 것 2. 편차 : 평균에서 각 데이터까지의 거리(차) 3. 분산 : 편차제곱의 평균 4. 표준편차 : 분산의 제곱근(root) 5. 분산/표준편차..
Chapter 3. 확률은 어떻게 구하냐고? - 분포의 밑넓이와 확률 상대평가 상대평가(a.k.a 비교평가) X - μ 분포의 밑넓이 분포(정규분포로 가정) 우리 반 수학 점수 분포 - 넓이가 작다 = 1등과 가깝다 = 시험을 잘 봤다 꼴등~1등 전체 분포 밑넓이 = 100 내 점수(X~1등 분포 밑넓이 = 10 -> 확률은 10% => 내 수학 점수는 상위 10% 분포의 밑넓이는 적분으로 구할 수 있음 정리 1. 상대평가 - 내가 맞은 점수를 다른 사람들의 점수와 비교해야 함 - (내 점수 - 평균)으로 판단 가능 - (내 점수 - 평균)이 양(+)의 값으로 클수록 상대적으로 높은 점수를 기록한 것 2. 분포의 밑넓이와 확률 - 분포의 밑넓이를 구할 수 있으면 내가 원하는 구간의 밑넓이와 전체 밑넓이의..
Chapter 2. 차이는 무엇으로 정의하냐고? - 확률로 접근하는 이유 목표 확인 우리의 목표 : 월요일과 화요일의 평균 매출이 차이가 나는가? 기술통계 - 샘플 데이터의 특성만 알려줌 모집단 간 차이가 있는가? -> 기술통계로 확인하긴 어려움 => 모집단이 되어도 월요일과 화요일 매출 평균이 차이가 나는가? 샘플의 차이값으로 모집단의 차이값을 추론·유추해야함 추론을 하려면? 월요일과 화요일 모집단 평균 (실제로 가지고 있지 않은 데이터. 어딘가 있겠지...) - 월요일의 모집단 평균 : μ1 - 화요일의 모집단 평균 : μ2 월요일과 화요일 샘플 평균 (내가 가지고 있는 데이터) - 월요일의 모집단 평균 : X1바 - 화요일의 모집단 평균 : X2바 목표 : μ1 - μ2 현재 : X1바 - X2바 ..
Chapter 1. 요일별 매출 좀 비교해봐! - 흔히 저지르는 실수 Orientation 이제까지의 분석? 막대그래프/꺾은선그래프를 활용 시각화정도를 추가하는 것으로 끝냄 그래프 상으로 차이가 있으면 조건별로 차이가 있는 거지, 효과가 있는거지(조건이라는 것이) 그렇게 분석하고 끝냄 -> 위험한 분석! 조건별 차이라는 것을 어떻게 검증할 것인가? 다양한 조건이 있을 떄 효과 차이라는 것을 어떻게 정확히 확인할 지 통계적으로 확인하는 과정을 살펴볼 예정 데이터 소개 "우리마을가게 상권분석" -> 다운로드 필요(엑셀) 기준년월 : 날짜(년월) 상권코드, 상권코드명 : 상권의 분류 서비스업종코드, 서비스업종코드명 : 서비스 업종의 분류 샘플 데이터 (3개월 치 밖에 없다!) 필수로 알아야하는 기본 개념! 1..
- Total
- Today
- Yesterday
- Hyperledger Indy
- ubuntu
- 블록 체인
- docker
- 블록체인
- Blockchain
- 하이퍼레저 인디
- 하이퍼레저 패브릭
- 직딩잇템
- 하이퍼레저 페브릭
- 어서와 데이터는 처음이지
- 코딜리티
- DOCs
- 코테
- Private Data
- 알고리즘
- ambrosus
- Hyperledger Fabric v1.1
- Hyperledger Fabric
- 빅데이터 강의
- 빅데이터 기초
- 문제풀이
- 기초 of 기초 데이터 개념
- javascript
- Hyperledger Fabric v1.2
- 빅데이터
- 코딩테스트
- 빅데이터 교육
- codility
- 암브로셔스
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |