Chapter 9. 차이가 난다는 것의 기준은?(2) - 알파(α)와 p-value 기준선 α 대립가설(HA) : 월요일과 화요일의 매출에 차이가 있다. 0가설(H0) : 월요일과 화요일의 매출에 차이가 없다. HA : μ1≠μ2 또는 μ1-μ2≠0 H0 : μ1=μ2 또는 μ1-μ2=0 H0=True일 확률을 따져야 함 0가설이 참일 확률이 너무 낮으면 0가설 기각 => 대립가설이 참일 확률이 더 높다! 정확히 몇 %까지가 확률이 낮은 것인가? 기준이 필요 α = 0.05(5%) 0가설이 참일 확률이 5% 이하 -> 0가설 기각 실제 확률 값은? p-value 실제 데이터로 구해진 0가설이 참일 확률 : p-value(p) a.k.a 유의확률 α > p -> 0.05 > p - 0가설이 참일 확률이 매..
Chapter 8. 차이가 난다는 것의 기준은?(1) - 0가설 검정 어떤 확률을 따진다? 추론을 정확히 어떻게 하는가 - 정확도가 높은 추론 어떤 확률을 구해야 하는가? - 추론이 틀릴 확률 - 내가 틀릴 확률이 몇 % 0가설 검정 가설 (내가 확인하고 싶은 추론) : 월요일과 화요일의 매출 차이가 있다 -> 월요일과 화요일의 매출 차이가 없을 확률은 얼마인가? 내 추론과 반대되는 추론이 참이 될 확률을 따져보자 반대 추론 : 0가설(zero-hypothesis, H0) 내 추론 : 대립가설(alternative hypothesis, HA) 0가설이 참인지 아닌지 그 확률을 보면 된다! 6시그마 - 표준화를 이용하면 확률을 구할 수 있다 - 표준점수(Z)값에 따라 정상품일 확률이 달라진다 => H0 =..
Chapter 7. 6시그마? 들어는 봤는데 정확히 뭐지? - 표준화의 응용 6sigma의 단위 6sigma - 공장 불량률 - 품질 관리 - 업무 효율 - 다양하게 이용 표준화 공식 - 표준점수로 바꿔주는 공식 - 거리(편차)를 '표준 편차' 단위로 나타내는 것 - Z = X-μ/σ 6sigma = 6σ 6sigma의 진짜 의미 품질 관리에서 어떻게 사용하고 있을까? 95% 확률을 나타내는 Z 값 = 1.96 -> 어떤 데이터를 표준화 했을 때 표준편차 대비 2배(2σ)까지 거리의 표준점수들이 전체 데이터의 95%를 커버하는 구간이다 -> 2σ 범위 내에 데이터의 95%가 존재 하고 있다 ※ Z 값이 커지면 확률(밑넓이)은 줄어든다 정상일 확률이 엄청나게 높고 불량일 확률은 엄청나게 낮다는 것 => 엄..
Chapter 6. 하나도 안 숨겨둔 비기 공개 - 계산 안하고 확률 구하는 법 내 키는 상위 몇%? 우리나라 20세 이상 국민 중 내 키(180cm)는 상위 몇 %일까? 20세 이상 국민의 키 (가정) - 평균(μ) = 173cm - 표준 편차(σ) = 5 - 정상분포 확률 = 분포의 밑넓이 내 키는 상위 몇%? = 내 키~max 분포 밑넓이/20세 이상 키 분포 전체 밑넓이 표준정규분포로 바꾸면 적분 안써도 된다! 표준정규분포의 밑넓이 표준정규분포의 특징 - 평균 = 0 - 표준편차 = 1 - 전체 밑넓이 = 1 키 180cm를 표준정규분포로 바꾸면 어디에 위치할까? - 표준점수 = 180-173/5 = 1.4 표준정규분포표 표준정규분포표(Z table) - 표준정규분포의 밑넓이 수치들이 일일이 다 ..
Chapter 5. 모든 점수의 표준점수를 다 구해보면? - 표준정규분포 모든 점수의 표준 점수 A = [1,2,3,4,5] - 모집단 평균(μ) = 3 - 모집단 표준 편차(σ) = 루트2 Z(1) = 1-3/루트2 = -2/루트2 Z(2) = -1/루트2 Z(3) = 0/루트2=0 Z(4) = 1/루트2 Z(5) = 2/루트2 표준 점수들의 평균 모든 표준 점수의 평균을 구해보자! -> Always 0! 원 점수의 분포가 정상 분포라면? -> 표준 점수들의 평균은 Always 0! 표준 점수들의 표준 편차 표준 점수들의 표준 편차도 구해보자! -> 분산을 알아야함 - 분산 = 편차 제곱의 평균 - σ² = ∑(X-μ)²/N - 표준편차 = 루트[분산] - σ = 루트[∑(X-μ)²/N] - 편차 제곱..
Chapter 4. 국어와 수학 중 무엇을 더 잘한걸까? - 표준화와 표준점수 다른 분포, 같은 점수 국어와 수학 둘 다 80점 맞았다 둘 중에 뭘 더 잘본거죠? 국어 점수 수학 점수 - 분포, 평균, 표준편차 다 다르다 - 똑같은 80점이 아니다! 국어와 수학의 분포는 어떻게 생겼을까? - 국어와 수학 점수는 어떤 특성을 가지고 있을까? - 국어는 그래도 대부분 잘하고 - 수학은 별의별 놈 다 있지 않을까요? ※ 알고 있어야할 내용 1. 분산/표준편차를 구하는 목적 : 데이터의 각 수치들이 평균에 수렴하는지, 아니면 넓게 흩어져 있는지 그 정도를 알려고 하는 것 2. 편차 : 평균에서 각 데이터까지의 거리(차) 3. 분산 : 편차제곱의 평균 4. 표준편차 : 분산의 제곱근(root) 5. 분산/표준편차..
Chapter 3. 확률은 어떻게 구하냐고? - 분포의 밑넓이와 확률 상대평가 상대평가(a.k.a 비교평가) X - μ 분포의 밑넓이 분포(정규분포로 가정) 우리 반 수학 점수 분포 - 넓이가 작다 = 1등과 가깝다 = 시험을 잘 봤다 꼴등~1등 전체 분포 밑넓이 = 100 내 점수(X~1등 분포 밑넓이 = 10 -> 확률은 10% => 내 수학 점수는 상위 10% 분포의 밑넓이는 적분으로 구할 수 있음 정리 1. 상대평가 - 내가 맞은 점수를 다른 사람들의 점수와 비교해야 함 - (내 점수 - 평균)으로 판단 가능 - (내 점수 - 평균)이 양(+)의 값으로 클수록 상대적으로 높은 점수를 기록한 것 2. 분포의 밑넓이와 확률 - 분포의 밑넓이를 구할 수 있으면 내가 원하는 구간의 밑넓이와 전체 밑넓이의..
Chapter 2. 차이는 무엇으로 정의하냐고? - 확률로 접근하는 이유 목표 확인 우리의 목표 : 월요일과 화요일의 평균 매출이 차이가 나는가? 기술통계 - 샘플 데이터의 특성만 알려줌 모집단 간 차이가 있는가? -> 기술통계로 확인하긴 어려움 => 모집단이 되어도 월요일과 화요일 매출 평균이 차이가 나는가? 샘플의 차이값으로 모집단의 차이값을 추론·유추해야함 추론을 하려면? 월요일과 화요일 모집단 평균 (실제로 가지고 있지 않은 데이터. 어딘가 있겠지...) - 월요일의 모집단 평균 : μ1 - 화요일의 모집단 평균 : μ2 월요일과 화요일 샘플 평균 (내가 가지고 있는 데이터) - 월요일의 모집단 평균 : X1바 - 화요일의 모집단 평균 : X2바 목표 : μ1 - μ2 현재 : X1바 - X2바 ..
Chapter 1. 요일별 매출 좀 비교해봐! - 흔히 저지르는 실수 Orientation 이제까지의 분석? 막대그래프/꺾은선그래프를 활용 시각화정도를 추가하는 것으로 끝냄 그래프 상으로 차이가 있으면 조건별로 차이가 있는 거지, 효과가 있는거지(조건이라는 것이) 그렇게 분석하고 끝냄 -> 위험한 분석! 조건별 차이라는 것을 어떻게 검증할 것인가? 다양한 조건이 있을 떄 효과 차이라는 것을 어떻게 정확히 확인할 지 통계적으로 확인하는 과정을 살펴볼 예정 데이터 소개 "우리마을가게 상권분석" -> 다운로드 필요(엑셀) 기준년월 : 날짜(년월) 상권코드, 상권코드명 : 상권의 분류 서비스업종코드, 서비스업종코드명 : 서비스 업종의 분류 샘플 데이터 (3개월 치 밖에 없다!) 필수로 알아야하는 기본 개념! 1..
Chapter 5. 기본 용어와 기호부터 알고 가자 - 모수치와 표본수치 모집단의 평균과 표준편차 평균 : 데이터의 각 수치를 전부 더한 다음에 개수로 나누면 된다 모집단의 평균 = 모평균(μ, 뮤) - 모집단의 데이터에서 구해낸 평균 - μ = ∑X/N ※ ∑(시그마): 더해라(sum)라는 연산 기호 X: 각 데이터 하나하나를 의미 N: 표집수, 데이터 개수 -> 모집단 평균이라는 것은 모집단의 각 데이터를 다 더한 것을 데이터의 총 개수인 N으로 나눈 것이다. 모집단의 표준편차 = 모표준편자(σ, 시그마) - ∑(시그마)와 이름만 같음 모수치 - 모집단의 데이터가 있을 때의 모평균(μ)과 모표준편차(σ) - 즉, μ와 σ - 현실에 없는 데이터 표본의 평균과 표준편차 표본의 평균 = 표본평균(X바, ..
Chapter 13. 데이터 분석 실습 Part3 - 이 데이터, 뭐가 문제일까? 이 데이터는 무엇이 문제인가? - 편향(Bias) 잘못 뽑지 않았는가? 편향되게 뽑지 않았는가? 특정 기준에 치우치지 않았는가? 코드 - 범주형 데이터 - 카테고리 형식으로 되어 있는 데이터 - ex) 남자=1, 여자=2 남녀의 비율? -> 53:46 신장의 평균? -> 162cm 신장에 따라 허리둘레가 영향을 받는데 신장의 평균 값이 남자 수치도, 여자 수치도 아니라면? 요구 목적에 따라서 편향된 데이터일 수도 있고, 아닌 데이터일 수도 있다! 성별에 따른 차이 -> 문제인지 아닌지 판단하고 분석을 진행하자 콜레스테롤, 혈압 -> 연령에 심각하게 영향을 받는 수치 연령대별로 데이터 개수가 다르다면? 목적에 부합하도록 잘 ..
Chapter 12. 데이터 분석 실습 Part2 - 결측치 처리 이 데이터는 무엇이 문제인가? - Null, NaN 칼럼 별로 데이터 개수가 다르다 빈 값 처리를 안하면 평균부터 망한다! 1. 칼럼 별로 빈 개수가 다르다 2. 같은 행의 데이터가 빈 것인지 알 수 없다 개수가 같다고 같은 위치가 비어있는 것은 아니다! 이것을 처리하는 방법? 빈 값이 하나라도 있으면 그 행은 버린다! 정리 1. 필요 없거나 쓸모 없는 칼럼(열) 정리 : 샘플 개수가 너무 적거나 아예 없는 칼럼은 버림 2. 결측치 정리 - 각 칼럼별로 N(개수)이 다르다면 결측치가 존재 - 각 칼럼 중 어느 하나라도 빈 값이 있는 행은 그냥 버림
Chapter 11. 데이터 분석 실습 Part1 - 데이터 확인과 기술 통계 실습 ※ 실습 전 주의사항 - 데이터 분석에는 정답이 없다 - 파이썬 프로그래밍 언어를 사용 실습의 목표 - 데이터에서 무엇이 문제인지 직접 찾아내는 것 - 문제의 해결보다 문제 자체를 정확하게 정의하는 데에 중점 구글 드라이브에 복사본 저장해놓음. 정리 1. 목적 정의 : 분석 목적을 명확하게 정의 2. 데이터 확인 : 정의된 분석 목적을 보면서 더 고려해볼 점은 없는지, 부족한 데이터는 없는지 확인 3. 구글 드라이브의 데이터 불러오기 4. Import Libraries : 분석에 필요한 다양한 기능 불러오기 5. 데이터 구조 파악 : 컬럼명, 각 컬럼의 데이터 타입, 기술통계
Chapter 10. 어디나 문제아는 있다 - 아웃라이어(outlier) 왜 문제아인가? 데이터 분석은 왜 하는가? - 객관적 사실, 경향성 등을 파악 - 분석 결과를 바탕으로 의사결정 아웃라이어 - 객관적 판단의 방해꾼 - 분석 목적을 제대로 달성할 수 없다 - 모든 데이터에 무조건 다 존재한다! - 분석 결과 왜곡 - 자기가 문제아라는 걸 모른다... - 직접 아웃라이어를 색출하라!! 1. 아웃라이어(outlier)는 분석 결과를 심하게 왜곡시키거나 망가뜨리는 문제아 데이터이다. 2. 아웃라이어는 분야를 막론하고 모든 데이터에 다 존재한다. 3. 아웃라이어는 자기자신이 문제아인지 모르므로, 분석하는 내가 판단하고 처리해야 한다. 어디나 반드시 있다, 아웃라이어 아웃라이어가 생기는 이유 - 사람의 실수..
Chapter 9. 데이터에서 맨 처음 봐야 하는 것 Part3 - 분산과 표준편차(2) 분산 1. A 데이터만 일단 보자 - 편차(거리)에 음수가 있어서 더해도 0만 나온다! - -를 +로 바꾸는 법 -> 절대값 OR 제곱 2. 거리제곱의 평균을 구하라 - 제곱된 거리의 평균을 낸다 -> 이렇게 하면 양수만 나오기 때문에! 3. B 데이터도 구해보자 - A의 편차제곱의 평균 = 2 - B의 편차제곱의 평균 = 2.67 => B가 더 벌어져 있다 분산(σ²) - 편차제곱의 평균 - 분산(σ²) = ∑(X-μ)²/N - 데이터의 벌어진 정도를 비교할 수 있다 분산과 분포의 관계 분산이 크다 = 평균에 수렴하지 않는다 넓게 퍼져있는 모양 분산이 작다 = 평균에 수렴한다 뾰족한 모양 데이터 비교에는 문제가 없..
- Total
- Today
- Yesterday
- 빅데이터 교육
- ubuntu
- Hyperledger Fabric
- 직딩잇템
- codility
- 코딜리티
- 하이퍼레저 패브릭
- Hyperledger Indy
- 하이퍼레저 인디
- Hyperledger Fabric v1.1
- Blockchain
- 빅데이터 강의
- 문제풀이
- 알고리즘
- 암브로셔스
- Hyperledger Fabric v1.2
- docker
- 어서와 데이터는 처음이지
- 빅데이터 기초
- 기초 of 기초 데이터 개념
- 블록체인
- DOCs
- javascript
- 블록 체인
- ambrosus
- 코테
- 하이퍼레저 페브릭
- Private Data
- 빅데이터
- 코딩테스트
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |