Chapter 6. 예측을 해보자(1) - 회귀, Data-fitting, Modeling 데이터 변화 패턴과 예측 입력값(input) : 예측에 이용할 값 출력값(output) : 예측해서 나오는 결과값 X로 Y를 예측 - 입력값 : X - 출력값 : Y Y = AX + B - 입력값 : X - 출력값 : Y - 기울기 : A - 절편 : B (= X가 0일 때 Y값) Y = X Y = 1X + 0 - 기울기 : 1 - 절편 : 0 Q. X가 10일 때 Y는? (패턴이 유지된다고 가정) A. 10 (방정식으로 예측한 것) X로 Y를 예측 데이터 간의 관계성을 기반 예측 = 데이터 간의 방정식 정의 상관 : 데이터 간의 변화 패턴으로 유사도(관계성)를 찾는 것 회귀 : 정의된 변화 패턴을 이용해서 데이터..
기존 Golang 제거 기존에 Golang을 /opt 디렉토리 내에 설치했기 때문에 해당 디렉토리를 모두 제거합니다. (일반적으로는 /usr/local 디렉토리 내에 설치됩니다) 버전을 변경하기 위해 재설치하는 것이므로 GOPATH와 GOROOT 등의 환경변수는 그대로 유지합니다. (/etc/profile 파일 변경 X) # golang 제거 sudo apt-get purge golang* cd /opt sudo rm -rf go # golang 제거 확인 go version Golang 설치 /opt 디렉토리 내에 golang을 설치합니다. (따로 지정하지 않을 경우 /usr/local 디렉토리 내에 설치됩니다) go 1.12 버전을 설치하도록 하겠습니다. # golang 설치 cd /opt sudo ..
깃허브 : https://github.com/miiingo/codility Task description 원본 사이트 : https://app.codility.com/programmers/lessons/5-prefix_sums/min_avg_two_slice/ MinAvgTwoSlice coding task - Learn to Code - Codility Find the minimal average of any slice containing at least two elements. app.codility.com - N 개의 정수로 구성된 비어 있지 않은 배열 A - 0≤P
Chapter 5. 오해하지 말자 결과는 결과일뿐! - 상관값의 해석 상관강도의 기준 우리나라 20대 성인의 신장과 몸무게 간의 상관값으로 r=0.7이 나왔다 - 데이터 간 유사도를 알아보기 위해 상관을 계산 - 신장과 체중은 관계성(유사도)이 있는가? 유사도의 강도는 |r|로 계산 - |r| 아이스크림 판매량이 익사자 수의 원인이다??? 상관은 데이터 변화패턴 이용 유사도만 구한다. - 인과관계를 밝히기 위한 수단이 아님!!! - 인과관계를 확인하기 위해서는 실험을 거쳐야 함 상관관계는 인과관계를 알려주지 않는다! ex) 구제역 바이러스 - A 백신, B 백신 - "구제역 바이러스와 백신 간의 상관을 구해봤더니 A 백신보다 B 백신이 더 상관이 높다. 따라서 B를 썼어야 된다." - '상관이 높다' →..
Chapter 4. 유사하다는 것은 무엇인가?(3) - 상관값에 따른 데이터의 관계성 rxy = -1일때 데이터는? X Y(r=1) Y(r=0) Y(r=-1) 0 0 0 1 1 -1 2 2 -2 3 3 -3 4 4 -4 5 5 -5 6 6 -6 7 7 -7 8 8 -8 9 9 -9 Y = -X Y = X일 때와 기울기 부호만 달라진다 rxy가 양의 값(+) : 증가함수 rxy가 음의 값(-) : 감소함수 Pearson-r 특성 정리 Pearson-r의 최대값은 1 Pearson-r의 최소값은 -1 -1 ≤ Pearson-r ≤ 1 - : 감소함수 + : 증가함수 상관강도(유사도가 강한 정도) : |r| (절대값) rxy = 1 & rxy = -1 - X, Y 유사도 100% - 방향만 반대 변화 패턴이 ..
Chapter 3. 유사하다는 것은 무엇인가?(2) - 데이터로 직접 확인하기 Pearson-r과 데이터 패턴의 관계 데이터 X 데이터 Y N = 10 N = 10 X = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] Y = [?, ?, ?, ?, ?, ?, ?, ?, ?, ?] Q1. 만약 rxy(x, y 두 데이터 간의 r값) = 1이라면, Y 데이터는 어떤 패턴이어야 할까요? Q2. 만약 rxy(x, y 두 데이터 간의 r값) = 0이라면, Y 데이터는 어떤 패턴이어야 할까요? Q3. 만약 rxy(x, y 두 데이터 간의 r값) = -1이라면, Y 데이터는 어떤 패턴이어야 할까요? X Y(r=1) Y(r=0) Y(r=-1) 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9..
Chapter 2. 유사하다는 것은 무엇인가?(1) - 상관분석(pearson-r) 기초 Pearson-r 상관값 r = 서로 같이 변하는 정도 / 서로 각기 변하는 정도 r = ∑xy / √(∑x²∑y²) - ∑x² = Sx²= x 데이터의 표준편차의 제곱 = x 데이터의 분산 → Δx - ∑y² = Sy²= y 데이터의 표준편차의 제곱 = y 데이터의 분산 → Δy - 제곱으로 뻥튀기된 거리 값을 되돌리기 위해 √(루트)를 사용 - √(∑x²∑y²) : x, y 데이터의 변화량(분산)의 총량 - ∑xy : 두 데이터의 변화 패턴이 동일한 구간의 변화량만 계산 공통된 변화량의 총량, 공통된 분산(공분산) ∴ r = 변화 패턴이 일치하는 변화량의 총량 / 변화량의 총량 = 서로 같이 변하는 정도 / 서로..
Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석 Orientation 예측을 어떻게 한다는 거야? 예측, 정확히 무엇을 어떻게 하는 것인가? 준비물 #1 펜과 노트 : 중요 내용은 직접 적으면서 볼 것 #2 일시정지 버튼을 누르는 순발력 : 중간중간 질문에 스스로 생각해보고 진행할 것 상관분석의 목적 상관분석(Correlation) 상관분석의 목적 - '유사도'를 구하기 위해 사용 - 유사도 : 데이터 A와 데이터 B 사이의 관계성 두 변화 패턴의 유사도가 동일하다 = 두 데이터 간의 관계성이 있다 = 유사하다 A, B의 관계성이 B, C의 관계성보다는 좀 더 유사도가 높다. 유사도를 이용해서 만들어내는 것? : 추천 서비스 유사도를 정의하는 방법 유사도를 무엇으로 정의할 것인가? #..
Chapter 13. 데이터 분석 실습 - 연도별 매출 비교 미션 해결하기! 0가설 정의/검증법 선택 목표 정의 월요일과 화요일의 평균 매출의 차이가 있는가? 샘플의 평균 차이 : 약 3만 정도 샘플의 차이 ≠ 모집단의 차이 0가설 : 월요일과 화요일의 매출 평균이 같다(내 추론과 반대) H0 : μ1=μ2 (또는 μ1-μ2=0) H0 : True일 확률 p는? P가 α보다 낮으면 0가설이 참일 확률이 낮다 α = 0.05(5%) 기준 #조건간차이 #샘플 데이터 => t검증 엑셀 추가 기능 세팅법 엑셀 상단 메뉴(파일) > 옵션 > 추가기능 > '분석 도구' 클릭 > 'Excel 추가 기능' 이동 버튼 클릭 > '분석 도구'만 체크 후 확인 버튼 클릭 > 추가 기능 세팅 완료! 화면 상단의 데이터 탭을 ..
Chapter 12. t를 제대로 쓰려면 알아야 한다 - 정규성, 독립성, 등분산성 정규성(정상성) 정규성(정상성)은 무엇을 확인하려는 것일까? -> 모집단이 정상분포 형태인가? 정규성을 만족하지 못할 때 쓰는 방법? -> 비모수검증 독립성 독립성? -> 조건을 2개로 나눴을 때 서로의 결과에 영향을 미칠 수 있느냐? 등분산성 등(=같다)분산(=편차 제곱의 평균)성 -> 두 조건별 데이터의 분산이 서로 같은가? 두 분포 간의 차이 -> 분포에서 겹치는 부분이 많고 적음에 따라 결정 이분산 : 분산이 다를 때 -> 평균 차이는 같아도 분산에 따라 겹쳐지는 부분이 달라진다! 두 조건의 분산이 비슷하변 등분산! => t검증 공식 적용 왜 확인하는가? 적용할 t의 공식(알고리즘)이 달라진다! 꼭 확인하고 진행해..
Chapter 11. 두통약의 효과를 판단하려면? - t검증을 위한 실험 설계 새로운 미션 "새로 나온 두통약이 정말 효과가 있는지 데이터 분석 좀 해" - 효과라는 것을 정확히 무슨 수치로 구할 건가요? - 어떤 수치가 나와야 두통완화에 효과가 있다고 하실겁니까? 해결책 1. 그룹 간 비교 Random Sampling N = 100 모집단(모든 사람) ----------------------> 표본(실험참가자) 뇌파의 양 비슷 (= 두통 정도 비슷) '어떤 수치로 두통을 측정할 것인가?' L. 가정. 뇌파가 높으면 두통이 심한 것 실험 설계 : 방법론을 정의하는 과정 N = 50 새로 만든 두통약 사용 |--- 조건 1 ------------------------> 조건 1 X1바 표본 | (실험 참가..
Chapter 10. 근데 이럴 때 Z는 못 쓰잖아? 그럼 대체자는? - t검증 현업에서 Z는 쓸 수 없다 Z = X-μ/σ - μ(모평균), σ(모표준편차) : 모집단의 데이터가 있어야 구할 수 있는 모수치! - Z를 쓰려면 모집단을 알아야 한다 -> 현업에 없는 데이터 Z의 대체자, t Z를 대체할 녀석 표본평균과 표본 표준편차는 구할 수 있습니까? 표본수치를 알면 Z를 추론 가능! 어떻게 표본수치를 이용해서 Z를 잘 추론할 수 있을까? - 랜덤 샘플링(N=100) -> 평균 = A - 랜덤 샘플링(N=100,000) -> 평균 = B Q. A와 B 중 모집단 평균에 더 가까운 수치는? : B (샘플을 많이 뽑아줘서) 중심극한정리(CLT) : N이 충분하다면 - X는 μ에 근사한다 - X바(표본의 평..
Chapter 9. 차이가 난다는 것의 기준은?(2) - 알파(α)와 p-value 기준선 α 대립가설(HA) : 월요일과 화요일의 매출에 차이가 있다. 0가설(H0) : 월요일과 화요일의 매출에 차이가 없다. HA : μ1≠μ2 또는 μ1-μ2≠0 H0 : μ1=μ2 또는 μ1-μ2=0 H0=True일 확률을 따져야 함 0가설이 참일 확률이 너무 낮으면 0가설 기각 => 대립가설이 참일 확률이 더 높다! 정확히 몇 %까지가 확률이 낮은 것인가? 기준이 필요 α = 0.05(5%) 0가설이 참일 확률이 5% 이하 -> 0가설 기각 실제 확률 값은? p-value 실제 데이터로 구해진 0가설이 참일 확률 : p-value(p) a.k.a 유의확률 α > p -> 0.05 > p - 0가설이 참일 확률이 매..
Chapter 8. 차이가 난다는 것의 기준은?(1) - 0가설 검정 어떤 확률을 따진다? 추론을 정확히 어떻게 하는가 - 정확도가 높은 추론 어떤 확률을 구해야 하는가? - 추론이 틀릴 확률 - 내가 틀릴 확률이 몇 % 0가설 검정 가설 (내가 확인하고 싶은 추론) : 월요일과 화요일의 매출 차이가 있다 -> 월요일과 화요일의 매출 차이가 없을 확률은 얼마인가? 내 추론과 반대되는 추론이 참이 될 확률을 따져보자 반대 추론 : 0가설(zero-hypothesis, H0) 내 추론 : 대립가설(alternative hypothesis, HA) 0가설이 참인지 아닌지 그 확률을 보면 된다! 6시그마 - 표준화를 이용하면 확률을 구할 수 있다 - 표준점수(Z)값에 따라 정상품일 확률이 달라진다 => H0 =..
Chapter 7. 6시그마? 들어는 봤는데 정확히 뭐지? - 표준화의 응용 6sigma의 단위 6sigma - 공장 불량률 - 품질 관리 - 업무 효율 - 다양하게 이용 표준화 공식 - 표준점수로 바꿔주는 공식 - 거리(편차)를 '표준 편차' 단위로 나타내는 것 - Z = X-μ/σ 6sigma = 6σ 6sigma의 진짜 의미 품질 관리에서 어떻게 사용하고 있을까? 95% 확률을 나타내는 Z 값 = 1.96 -> 어떤 데이터를 표준화 했을 때 표준편차 대비 2배(2σ)까지 거리의 표준점수들이 전체 데이터의 95%를 커버하는 구간이다 -> 2σ 범위 내에 데이터의 95%가 존재 하고 있다 ※ Z 값이 커지면 확률(밑넓이)은 줄어든다 정상일 확률이 엄청나게 높고 불량일 확률은 엄청나게 낮다는 것 => 엄..
- Total
- Today
- Yesterday
- Private Data
- 빅데이터
- 빅데이터 교육
- docker
- 암브로셔스
- 문제풀이
- 코딩테스트
- 빅데이터 기초
- 하이퍼레저 인디
- Hyperledger Indy
- javascript
- 블록체인
- Blockchain
- 기초 of 기초 데이터 개념
- 빅데이터 강의
- codility
- 어서와 데이터는 처음이지
- Hyperledger Fabric v1.1
- Hyperledger Fabric v1.2
- ubuntu
- 코딜리티
- 알고리즘
- 하이퍼레저 페브릭
- 코테
- DOCs
- 직딩잇템
- Hyperledger Fabric
- ambrosus
- 블록 체인
- 하이퍼레저 패브릭
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |