Chapter 11. 예측 모델 만들기 실습(2) - 머신러닝을 이용한 선형 회귀 모델 머신러닝 코드 및 결과 해석 설명 머신러닝 코드 실행 결과? - 기울기 - Y절편 전통적 회귀와 비교하는 것이 포인트 # 기계학습용 라이브러리인 텐서플로를 임포트 합니다. # 학습도구 : 예제 데이터 -> 데이터 지정. 기울기=1, Y절편=0 # parameter : 기울기(slope)와 Y절편(intercept) -> 전통적인 회귀와 달라지는 지점 (여기부터!) -> 기울기와 Y절편에 랜덤 값을 지정 # 플레이스 홀더 선언. 지금은 뭔지 몰라도 됩니다 # 어떤 모델 만들겁니까? 네 단순선형회귀니까 1차방정식 -> 학습 목적 설정 # 학습을 진행하려면 내가 현재까지 얼마나 틀리고 있는지 알아야 합니다. # 그 틀린정도..
Chapter 10. 예측 모델 만들기 실습(1) - 전통적 방식의 선형 회귀 모델 실습 준비 - 크롬 브라우저 사용 - 구글 로그인 필요 (안그럼 중간에 오류 발생) - "파일 > 드라이브에 사본 저장" -> 자신의 구글 드라이브에 저장됨 전통적인 선형회귀 코드 선형회귀 : 최소제곱법(LMS) 이용 단순선형회귀 코드를 실행하면 어떤 결과가 나올까? -> 기울기와 Y절편 실습 내용 #import libraries : 라이브러리 추가 #샘플데이터, 결과는 뭘로 예상됩니까? : 데이터 지정. A, B의 상관 = 1 Y = X #선형회귀 결과 : 선형회귀 실행 linregress = Linear-regression #시각화 : 그래프를 그리고 출력 결과 확인 - LinregressResult : 선형회귀 결과..
Chapter 9. 아, 이제야 이해할 수 있다 - 회귀분석 vs. 머신러닝 전통적 회귀 방식 X = [1, 2, 3, 4, 5] Y = [1, 2, 3, 4, 5] X로 Y를 예측하는 모델 -> 단순선형회귀 => Y = X 변화 패턴에 기반해서 최적의 방정식을 찾는 것 Y = AX + B 최적의 Parameter(A, B) 값을 찾는 것 MSE를 최소화하는 LMS(최소제곱법) 데이터가 각각 백만 개라면? 오차 제곱 평균(MSE)을 다 구해서 비교 (백만 개 전부..) -> 너무 불편! 불가능! Y = AX + B - A = r·Sy/Sx - B = Y바 - A·X바 - r : 상관계수 - x : 표준편차 - X바, Y바 : 평균 => 이 공식을 이용하면 노가다 하지 않아도 공식으로 Parameter 구..
Chapter 7. 예측을 해보자(2) - 최적의 선을 찾는 방법, 최소제곱법 Model과 Parameter 회귀의 목적 : 데이터간의 관계성을 가장 잘 설명하는 방정식 찾기 회귀분석 = Data-fitting = Modeling Model : 원하는 목표 방정식 (Y = AX + B) 매개변수(Parameter) : Model을 구하기 위해 반드시 필요한 변수 (기울기와 절편) 최소 제곱법 (LMS) 최적의 Parameter를 정확히 어떻게 구할까? x가 1인 경우 - 실제값 (1, 6) - 예측값 (1, 5) 오차 = 실제값 - 예측값 = 1 오차의 평균이 가장 작은 선 = 최적의 방정식 오차의 방향성 (+, -) 존재 오차의 부호를 없애려면? 절대값 or 제곱 최적의 Model #1 (실제값 - 예..
Chapter 6. 예측을 해보자(1) - 회귀, Data-fitting, Modeling 데이터 변화 패턴과 예측 입력값(input) : 예측에 이용할 값 출력값(output) : 예측해서 나오는 결과값 X로 Y를 예측 - 입력값 : X - 출력값 : Y Y = AX + B - 입력값 : X - 출력값 : Y - 기울기 : A - 절편 : B (= X가 0일 때 Y값) Y = X Y = 1X + 0 - 기울기 : 1 - 절편 : 0 Q. X가 10일 때 Y는? (패턴이 유지된다고 가정) A. 10 (방정식으로 예측한 것) X로 Y를 예측 데이터 간의 관계성을 기반 예측 = 데이터 간의 방정식 정의 상관 : 데이터 간의 변화 패턴으로 유사도(관계성)를 찾는 것 회귀 : 정의된 변화 패턴을 이용해서 데이터..
Chapter 5. 오해하지 말자 결과는 결과일뿐! - 상관값의 해석 상관강도의 기준 우리나라 20대 성인의 신장과 몸무게 간의 상관값으로 r=0.7이 나왔다 - 데이터 간 유사도를 알아보기 위해 상관을 계산 - 신장과 체중은 관계성(유사도)이 있는가? 유사도의 강도는 |r|로 계산 - |r| 아이스크림 판매량이 익사자 수의 원인이다??? 상관은 데이터 변화패턴 이용 유사도만 구한다. - 인과관계를 밝히기 위한 수단이 아님!!! - 인과관계를 확인하기 위해서는 실험을 거쳐야 함 상관관계는 인과관계를 알려주지 않는다! ex) 구제역 바이러스 - A 백신, B 백신 - "구제역 바이러스와 백신 간의 상관을 구해봤더니 A 백신보다 B 백신이 더 상관이 높다. 따라서 B를 썼어야 된다." - '상관이 높다' →..
Chapter 4. 유사하다는 것은 무엇인가?(3) - 상관값에 따른 데이터의 관계성 rxy = -1일때 데이터는? X Y(r=1) Y(r=0) Y(r=-1) 0 0 0 1 1 -1 2 2 -2 3 3 -3 4 4 -4 5 5 -5 6 6 -6 7 7 -7 8 8 -8 9 9 -9 Y = -X Y = X일 때와 기울기 부호만 달라진다 rxy가 양의 값(+) : 증가함수 rxy가 음의 값(-) : 감소함수 Pearson-r 특성 정리 Pearson-r의 최대값은 1 Pearson-r의 최소값은 -1 -1 ≤ Pearson-r ≤ 1 - : 감소함수 + : 증가함수 상관강도(유사도가 강한 정도) : |r| (절대값) rxy = 1 & rxy = -1 - X, Y 유사도 100% - 방향만 반대 변화 패턴이 ..
Chapter 3. 유사하다는 것은 무엇인가?(2) - 데이터로 직접 확인하기 Pearson-r과 데이터 패턴의 관계 데이터 X 데이터 Y N = 10 N = 10 X = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] Y = [?, ?, ?, ?, ?, ?, ?, ?, ?, ?] Q1. 만약 rxy(x, y 두 데이터 간의 r값) = 1이라면, Y 데이터는 어떤 패턴이어야 할까요? Q2. 만약 rxy(x, y 두 데이터 간의 r값) = 0이라면, Y 데이터는 어떤 패턴이어야 할까요? Q3. 만약 rxy(x, y 두 데이터 간의 r값) = -1이라면, Y 데이터는 어떤 패턴이어야 할까요? X Y(r=1) Y(r=0) Y(r=-1) 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9..
Chapter 2. 유사하다는 것은 무엇인가?(1) - 상관분석(pearson-r) 기초 Pearson-r 상관값 r = 서로 같이 변하는 정도 / 서로 각기 변하는 정도 r = ∑xy / √(∑x²∑y²) - ∑x² = Sx²= x 데이터의 표준편차의 제곱 = x 데이터의 분산 → Δx - ∑y² = Sy²= y 데이터의 표준편차의 제곱 = y 데이터의 분산 → Δy - 제곱으로 뻥튀기된 거리 값을 되돌리기 위해 √(루트)를 사용 - √(∑x²∑y²) : x, y 데이터의 변화량(분산)의 총량 - ∑xy : 두 데이터의 변화 패턴이 동일한 구간의 변화량만 계산 공통된 변화량의 총량, 공통된 분산(공분산) ∴ r = 변화 패턴이 일치하는 변화량의 총량 / 변화량의 총량 = 서로 같이 변하는 정도 / 서로..
Chapter 1. 많은 사람들이 오해하고 있는 그 단어! 상관분석 Orientation 예측을 어떻게 한다는 거야? 예측, 정확히 무엇을 어떻게 하는 것인가? 준비물 #1 펜과 노트 : 중요 내용은 직접 적으면서 볼 것 #2 일시정지 버튼을 누르는 순발력 : 중간중간 질문에 스스로 생각해보고 진행할 것 상관분석의 목적 상관분석(Correlation) 상관분석의 목적 - '유사도'를 구하기 위해 사용 - 유사도 : 데이터 A와 데이터 B 사이의 관계성 두 변화 패턴의 유사도가 동일하다 = 두 데이터 간의 관계성이 있다 = 유사하다 A, B의 관계성이 B, C의 관계성보다는 좀 더 유사도가 높다. 유사도를 이용해서 만들어내는 것? : 추천 서비스 유사도를 정의하는 방법 유사도를 무엇으로 정의할 것인가? #..
Chapter 13. 데이터 분석 실습 - 연도별 매출 비교 미션 해결하기! 0가설 정의/검증법 선택 목표 정의 월요일과 화요일의 평균 매출의 차이가 있는가? 샘플의 평균 차이 : 약 3만 정도 샘플의 차이 ≠ 모집단의 차이 0가설 : 월요일과 화요일의 매출 평균이 같다(내 추론과 반대) H0 : μ1=μ2 (또는 μ1-μ2=0) H0 : True일 확률 p는? P가 α보다 낮으면 0가설이 참일 확률이 낮다 α = 0.05(5%) 기준 #조건간차이 #샘플 데이터 => t검증 엑셀 추가 기능 세팅법 엑셀 상단 메뉴(파일) > 옵션 > 추가기능 > '분석 도구' 클릭 > 'Excel 추가 기능' 이동 버튼 클릭 > '분석 도구'만 체크 후 확인 버튼 클릭 > 추가 기능 세팅 완료! 화면 상단의 데이터 탭을 ..
Chapter 12. t를 제대로 쓰려면 알아야 한다 - 정규성, 독립성, 등분산성 정규성(정상성) 정규성(정상성)은 무엇을 확인하려는 것일까? -> 모집단이 정상분포 형태인가? 정규성을 만족하지 못할 때 쓰는 방법? -> 비모수검증 독립성 독립성? -> 조건을 2개로 나눴을 때 서로의 결과에 영향을 미칠 수 있느냐? 등분산성 등(=같다)분산(=편차 제곱의 평균)성 -> 두 조건별 데이터의 분산이 서로 같은가? 두 분포 간의 차이 -> 분포에서 겹치는 부분이 많고 적음에 따라 결정 이분산 : 분산이 다를 때 -> 평균 차이는 같아도 분산에 따라 겹쳐지는 부분이 달라진다! 두 조건의 분산이 비슷하변 등분산! => t검증 공식 적용 왜 확인하는가? 적용할 t의 공식(알고리즘)이 달라진다! 꼭 확인하고 진행해..
Chapter 11. 두통약의 효과를 판단하려면? - t검증을 위한 실험 설계 새로운 미션 "새로 나온 두통약이 정말 효과가 있는지 데이터 분석 좀 해" - 효과라는 것을 정확히 무슨 수치로 구할 건가요? - 어떤 수치가 나와야 두통완화에 효과가 있다고 하실겁니까? 해결책 1. 그룹 간 비교 Random Sampling N = 100 모집단(모든 사람) ----------------------> 표본(실험참가자) 뇌파의 양 비슷 (= 두통 정도 비슷) '어떤 수치로 두통을 측정할 것인가?' L. 가정. 뇌파가 높으면 두통이 심한 것 실험 설계 : 방법론을 정의하는 과정 N = 50 새로 만든 두통약 사용 |--- 조건 1 ------------------------> 조건 1 X1바 표본 | (실험 참가..
Chapter 10. 근데 이럴 때 Z는 못 쓰잖아? 그럼 대체자는? - t검증 현업에서 Z는 쓸 수 없다 Z = X-μ/σ - μ(모평균), σ(모표준편차) : 모집단의 데이터가 있어야 구할 수 있는 모수치! - Z를 쓰려면 모집단을 알아야 한다 -> 현업에 없는 데이터 Z의 대체자, t Z를 대체할 녀석 표본평균과 표본 표준편차는 구할 수 있습니까? 표본수치를 알면 Z를 추론 가능! 어떻게 표본수치를 이용해서 Z를 잘 추론할 수 있을까? - 랜덤 샘플링(N=100) -> 평균 = A - 랜덤 샘플링(N=100,000) -> 평균 = B Q. A와 B 중 모집단 평균에 더 가까운 수치는? : B (샘플을 많이 뽑아줘서) 중심극한정리(CLT) : N이 충분하다면 - X는 μ에 근사한다 - X바(표본의 평..
Chapter 9. 차이가 난다는 것의 기준은?(2) - 알파(α)와 p-value 기준선 α 대립가설(HA) : 월요일과 화요일의 매출에 차이가 있다. 0가설(H0) : 월요일과 화요일의 매출에 차이가 없다. HA : μ1≠μ2 또는 μ1-μ2≠0 H0 : μ1=μ2 또는 μ1-μ2=0 H0=True일 확률을 따져야 함 0가설이 참일 확률이 너무 낮으면 0가설 기각 => 대립가설이 참일 확률이 더 높다! 정확히 몇 %까지가 확률이 낮은 것인가? 기준이 필요 α = 0.05(5%) 0가설이 참일 확률이 5% 이하 -> 0가설 기각 실제 확률 값은? p-value 실제 데이터로 구해진 0가설이 참일 확률 : p-value(p) a.k.a 유의확률 α > p -> 0.05 > p - 0가설이 참일 확률이 매..
- Total
- Today
- Yesterday
- Private Data
- Hyperledger Fabric v1.2
- 빅데이터
- DOCs
- ubuntu
- 알고리즘
- ambrosus
- 하이퍼레저 인디
- 블록체인
- 빅데이터 기초
- 코딩테스트
- Hyperledger Fabric v1.1
- 블록 체인
- javascript
- docker
- 어서와 데이터는 처음이지
- 빅데이터 교육
- Hyperledger Indy
- 문제풀이
- 빅데이터 강의
- Blockchain
- 암브로셔스
- codility
- 코딜리티
- 코테
- 기초 of 기초 데이터 개념
- Hyperledger Fabric
- 직딩잇템
- 하이퍼레저 페브릭
- 하이퍼레저 패브릭
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |