깃허브 : https://github.com/miiingo/codility Task description 원본 사이트 : https://app.codility.com/programmers/lessons/5-prefix_sums/min_avg_two_slice/ MinAvgTwoSlice coding task - Learn to Code - Codility Find the minimal average of any slice containing at least two elements. app.codility.com - N 개의 정수로 구성된 비어 있지 않은 배열 A - 0≤P
Chapter 5. 오해하지 말자 결과는 결과일뿐! - 상관값의 해석 상관강도의 기준 우리나라 20대 성인의 신장과 몸무게 간의 상관값으로 r=0.7이 나왔다 - 데이터 간 유사도를 알아보기 위해 상관을 계산 - 신장과 체중은 관계성(유사도)이 있는가? 유사도의 강도는 |r|로 계산 - |r| 아이스크림 판매량이 익사자 수의 원인이다??? 상관은 데이터 변화패턴 이용 유사도만 구한다. - 인과관계를 밝히기 위한 수단이 아님!!! - 인과관계를 확인하기 위해서는 실험을 거쳐야 함 상관관계는 인과관계를 알려주지 않는다! ex) 구제역 바이러스 - A 백신, B 백신 - "구제역 바이러스와 백신 간의 상관을 구해봤더니 A 백신보다 B 백신이 더 상관이 높다. 따라서 B를 썼어야 된다." - '상관이 높다' →..
Chapter 4. 유사하다는 것은 무엇인가?(3) - 상관값에 따른 데이터의 관계성 rxy = -1일때 데이터는? X Y(r=1) Y(r=0) Y(r=-1) 0 0 0 1 1 -1 2 2 -2 3 3 -3 4 4 -4 5 5 -5 6 6 -6 7 7 -7 8 8 -8 9 9 -9 Y = -X Y = X일 때와 기울기 부호만 달라진다 rxy가 양의 값(+) : 증가함수 rxy가 음의 값(-) : 감소함수 Pearson-r 특성 정리 Pearson-r의 최대값은 1 Pearson-r의 최소값은 -1 -1 ≤ Pearson-r ≤ 1 - : 감소함수 + : 증가함수 상관강도(유사도가 강한 정도) : |r| (절대값) rxy = 1 & rxy = -1 - X, Y 유사도 100% - 방향만 반대 변화 패턴이 ..
Chapter 3. 유사하다는 것은 무엇인가?(2) - 데이터로 직접 확인하기 Pearson-r과 데이터 패턴의 관계 데이터 X 데이터 Y N = 10 N = 10 X = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] Y = [?, ?, ?, ?, ?, ?, ?, ?, ?, ?] Q1. 만약 rxy(x, y 두 데이터 간의 r값) = 1이라면, Y 데이터는 어떤 패턴이어야 할까요? Q2. 만약 rxy(x, y 두 데이터 간의 r값) = 0이라면, Y 데이터는 어떤 패턴이어야 할까요? Q3. 만약 rxy(x, y 두 데이터 간의 r값) = -1이라면, Y 데이터는 어떤 패턴이어야 할까요? X Y(r=1) Y(r=0) Y(r=-1) 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9..
Chapter 2. 유사하다는 것은 무엇인가?(1) - 상관분석(pearson-r) 기초 Pearson-r 상관값 r = 서로 같이 변하는 정도 / 서로 각기 변하는 정도 r = ∑xy / √(∑x²∑y²) - ∑x² = Sx²= x 데이터의 표준편차의 제곱 = x 데이터의 분산 → Δx - ∑y² = Sy²= y 데이터의 표준편차의 제곱 = y 데이터의 분산 → Δy - 제곱으로 뻥튀기된 거리 값을 되돌리기 위해 √(루트)를 사용 - √(∑x²∑y²) : x, y 데이터의 변화량(분산)의 총량 - ∑xy : 두 데이터의 변화 패턴이 동일한 구간의 변화량만 계산 공통된 변화량의 총량, 공통된 분산(공분산) ∴ r = 변화 패턴이 일치하는 변화량의 총량 / 변화량의 총량 = 서로 같이 변하는 정도 / 서로..
Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석 Orientation 예측을 어떻게 한다는 거야? 예측, 정확히 무엇을 어떻게 하는 것인가? 준비물 #1 펜과 노트 : 중요 내용은 직접 적으면서 볼 것 #2 일시정지 버튼을 누르는 순발력 : 중간중간 질문에 스스로 생각해보고 진행할 것 상관분석의 목적 상관분석(Correlation) 상관분석의 목적 - '유사도'를 구하기 위해 사용 - 유사도 : 데이터 A와 데이터 B 사이의 관계성 두 변화 패턴의 유사도가 동일하다 = 두 데이터 간의 관계성이 있다 = 유사하다 A, B의 관계성이 B, C의 관계성보다는 좀 더 유사도가 높다. 유사도를 이용해서 만들어내는 것? : 추천 서비스 유사도를 정의하는 방법 유사도를 무엇으로 정의할 것인가? #..
Chapter 13. 데이터 분석 실습 - 연도별 매출 비교 미션 해결하기! 0가설 정의/검증법 선택 목표 정의 월요일과 화요일의 평균 매출의 차이가 있는가? 샘플의 평균 차이 : 약 3만 정도 샘플의 차이 ≠ 모집단의 차이 0가설 : 월요일과 화요일의 매출 평균이 같다(내 추론과 반대) H0 : μ1=μ2 (또는 μ1-μ2=0) H0 : True일 확률 p는? P가 α보다 낮으면 0가설이 참일 확률이 낮다 α = 0.05(5%) 기준 #조건간차이 #샘플 데이터 => t검증 엑셀 추가 기능 세팅법 엑셀 상단 메뉴(파일) > 옵션 > 추가기능 > '분석 도구' 클릭 > 'Excel 추가 기능' 이동 버튼 클릭 > '분석 도구'만 체크 후 확인 버튼 클릭 > 추가 기능 세팅 완료! 화면 상단의 데이터 탭을 ..
Chapter 12. t를 제대로 쓰려면 알아야 한다 - 정규성, 독립성, 등분산성 정규성(정상성) 정규성(정상성)은 무엇을 확인하려는 것일까? -> 모집단이 정상분포 형태인가? 정규성을 만족하지 못할 때 쓰는 방법? -> 비모수검증 독립성 독립성? -> 조건을 2개로 나눴을 때 서로의 결과에 영향을 미칠 수 있느냐? 등분산성 등(=같다)분산(=편차 제곱의 평균)성 -> 두 조건별 데이터의 분산이 서로 같은가? 두 분포 간의 차이 -> 분포에서 겹치는 부분이 많고 적음에 따라 결정 이분산 : 분산이 다를 때 -> 평균 차이는 같아도 분산에 따라 겹쳐지는 부분이 달라진다! 두 조건의 분산이 비슷하변 등분산! => t검증 공식 적용 왜 확인하는가? 적용할 t의 공식(알고리즘)이 달라진다! 꼭 확인하고 진행해..
Chapter 11. 두통약의 효과를 판단하려면? - t검증을 위한 실험 설계 새로운 미션 "새로 나온 두통약이 정말 효과가 있는지 데이터 분석 좀 해" - 효과라는 것을 정확히 무슨 수치로 구할 건가요? - 어떤 수치가 나와야 두통완화에 효과가 있다고 하실겁니까? 해결책 1. 그룹 간 비교 Random Sampling N = 100 모집단(모든 사람) ----------------------> 표본(실험참가자) 뇌파의 양 비슷 (= 두통 정도 비슷) '어떤 수치로 두통을 측정할 것인가?' L. 가정. 뇌파가 높으면 두통이 심한 것 실험 설계 : 방법론을 정의하는 과정 N = 50 새로 만든 두통약 사용 |--- 조건 1 ------------------------> 조건 1 X1바 표본 | (실험 참가..
Chapter 10. 근데 이럴 때 Z는 못 쓰잖아? 그럼 대체자는? - t검증 현업에서 Z는 쓸 수 없다 Z = X-μ/σ - μ(모평균), σ(모표준편차) : 모집단의 데이터가 있어야 구할 수 있는 모수치! - Z를 쓰려면 모집단을 알아야 한다 -> 현업에 없는 데이터 Z의 대체자, t Z를 대체할 녀석 표본평균과 표본 표준편차는 구할 수 있습니까? 표본수치를 알면 Z를 추론 가능! 어떻게 표본수치를 이용해서 Z를 잘 추론할 수 있을까? - 랜덤 샘플링(N=100) -> 평균 = A - 랜덤 샘플링(N=100,000) -> 평균 = B Q. A와 B 중 모집단 평균에 더 가까운 수치는? : B (샘플을 많이 뽑아줘서) 중심극한정리(CLT) : N이 충분하다면 - X는 μ에 근사한다 - X바(표본의 평..
Chapter 9. 차이가 난다는 것의 기준은?(2) - 알파(α)와 p-value 기준선 α 대립가설(HA) : 월요일과 화요일의 매출에 차이가 있다. 0가설(H0) : 월요일과 화요일의 매출에 차이가 없다. HA : μ1≠μ2 또는 μ1-μ2≠0 H0 : μ1=μ2 또는 μ1-μ2=0 H0=True일 확률을 따져야 함 0가설이 참일 확률이 너무 낮으면 0가설 기각 => 대립가설이 참일 확률이 더 높다! 정확히 몇 %까지가 확률이 낮은 것인가? 기준이 필요 α = 0.05(5%) 0가설이 참일 확률이 5% 이하 -> 0가설 기각 실제 확률 값은? p-value 실제 데이터로 구해진 0가설이 참일 확률 : p-value(p) a.k.a 유의확률 α > p -> 0.05 > p - 0가설이 참일 확률이 매..
Chapter 8. 차이가 난다는 것의 기준은?(1) - 0가설 검정 어떤 확률을 따진다? 추론을 정확히 어떻게 하는가 - 정확도가 높은 추론 어떤 확률을 구해야 하는가? - 추론이 틀릴 확률 - 내가 틀릴 확률이 몇 % 0가설 검정 가설 (내가 확인하고 싶은 추론) : 월요일과 화요일의 매출 차이가 있다 -> 월요일과 화요일의 매출 차이가 없을 확률은 얼마인가? 내 추론과 반대되는 추론이 참이 될 확률을 따져보자 반대 추론 : 0가설(zero-hypothesis, H0) 내 추론 : 대립가설(alternative hypothesis, HA) 0가설이 참인지 아닌지 그 확률을 보면 된다! 6시그마 - 표준화를 이용하면 확률을 구할 수 있다 - 표준점수(Z)값에 따라 정상품일 확률이 달라진다 => H0 =..
Chapter 7. 6시그마? 들어는 봤는데 정확히 뭐지? - 표준화의 응용 6sigma의 단위 6sigma - 공장 불량률 - 품질 관리 - 업무 효율 - 다양하게 이용 표준화 공식 - 표준점수로 바꿔주는 공식 - 거리(편차)를 '표준 편차' 단위로 나타내는 것 - Z = X-μ/σ 6sigma = 6σ 6sigma의 진짜 의미 품질 관리에서 어떻게 사용하고 있을까? 95% 확률을 나타내는 Z 값 = 1.96 -> 어떤 데이터를 표준화 했을 때 표준편차 대비 2배(2σ)까지 거리의 표준점수들이 전체 데이터의 95%를 커버하는 구간이다 -> 2σ 범위 내에 데이터의 95%가 존재 하고 있다 ※ Z 값이 커지면 확률(밑넓이)은 줄어든다 정상일 확률이 엄청나게 높고 불량일 확률은 엄청나게 낮다는 것 => 엄..
Chapter 6. 하나도 안 숨겨둔 비기 공개 - 계산 안하고 확률 구하는 법 내 키는 상위 몇%? 우리나라 20세 이상 국민 중 내 키(180cm)는 상위 몇 %일까? 20세 이상 국민의 키 (가정) - 평균(μ) = 173cm - 표준 편차(σ) = 5 - 정상분포 확률 = 분포의 밑넓이 내 키는 상위 몇%? = 내 키~max 분포 밑넓이/20세 이상 키 분포 전체 밑넓이 표준정규분포로 바꾸면 적분 안써도 된다! 표준정규분포의 밑넓이 표준정규분포의 특징 - 평균 = 0 - 표준편차 = 1 - 전체 밑넓이 = 1 키 180cm를 표준정규분포로 바꾸면 어디에 위치할까? - 표준점수 = 180-173/5 = 1.4 표준정규분포표 표준정규분포표(Z table) - 표준정규분포의 밑넓이 수치들이 일일이 다 ..
Chapter 5. 모든 점수의 표준점수를 다 구해보면? - 표준정규분포 모든 점수의 표준 점수 A = [1,2,3,4,5] - 모집단 평균(μ) = 3 - 모집단 표준 편차(σ) = 루트2 Z(1) = 1-3/루트2 = -2/루트2 Z(2) = -1/루트2 Z(3) = 0/루트2=0 Z(4) = 1/루트2 Z(5) = 2/루트2 표준 점수들의 평균 모든 표준 점수의 평균을 구해보자! -> Always 0! 원 점수의 분포가 정상 분포라면? -> 표준 점수들의 평균은 Always 0! 표준 점수들의 표준 편차 표준 점수들의 표준 편차도 구해보자! -> 분산을 알아야함 - 분산 = 편차 제곱의 평균 - σ² = ∑(X-μ)²/N - 표준편차 = 루트[분산] - σ = 루트[∑(X-μ)²/N] - 편차 제곱..
- Total
- Today
- Yesterday
- Hyperledger Fabric
- Hyperledger Fabric v1.2
- 블록 체인
- 기초 of 기초 데이터 개념
- DOCs
- ubuntu
- 빅데이터 교육
- docker
- Private Data
- Blockchain
- 직딩잇템
- 코딜리티
- 하이퍼레저 패브릭
- 빅데이터 기초
- 암브로셔스
- 블록체인
- codility
- Hyperledger Fabric v1.1
- 하이퍼레저 페브릭
- ambrosus
- 코테
- javascript
- 빅데이터 강의
- Hyperledger Indy
- 코딩테스트
- 어서와 데이터는 처음이지
- 하이퍼레저 인디
- 알고리즘
- 문제풀이
- 빅데이터
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |