Chapter 4. 국어와 수학 중 무엇을 더 잘한걸까? - 표준화와 표준점수 다른 분포, 같은 점수 국어와 수학 둘 다 80점 맞았다 둘 중에 뭘 더 잘본거죠? 국어 점수 수학 점수 - 분포, 평균, 표준편차 다 다르다 - 똑같은 80점이 아니다! 국어와 수학의 분포는 어떻게 생겼을까? - 국어와 수학 점수는 어떤 특성을 가지고 있을까? - 국어는 그래도 대부분 잘하고 - 수학은 별의별 놈 다 있지 않을까요? ※ 알고 있어야할 내용 1. 분산/표준편차를 구하는 목적 : 데이터의 각 수치들이 평균에 수렴하는지, 아니면 넓게 흩어져 있는지 그 정도를 알려고 하는 것 2. 편차 : 평균에서 각 데이터까지의 거리(차) 3. 분산 : 편차제곱의 평균 4. 표준편차 : 분산의 제곱근(root) 5. 분산/표준편차..
Chapter 3. 확률은 어떻게 구하냐고? - 분포의 밑넓이와 확률 상대평가 상대평가(a.k.a 비교평가) X - μ 분포의 밑넓이 분포(정규분포로 가정) 우리 반 수학 점수 분포 - 넓이가 작다 = 1등과 가깝다 = 시험을 잘 봤다 꼴등~1등 전체 분포 밑넓이 = 100 내 점수(X~1등 분포 밑넓이 = 10 -> 확률은 10% => 내 수학 점수는 상위 10% 분포의 밑넓이는 적분으로 구할 수 있음 정리 1. 상대평가 - 내가 맞은 점수를 다른 사람들의 점수와 비교해야 함 - (내 점수 - 평균)으로 판단 가능 - (내 점수 - 평균)이 양(+)의 값으로 클수록 상대적으로 높은 점수를 기록한 것 2. 분포의 밑넓이와 확률 - 분포의 밑넓이를 구할 수 있으면 내가 원하는 구간의 밑넓이와 전체 밑넓이의..
Chapter 2. 차이는 무엇으로 정의하냐고? - 확률로 접근하는 이유 목표 확인 우리의 목표 : 월요일과 화요일의 평균 매출이 차이가 나는가? 기술통계 - 샘플 데이터의 특성만 알려줌 모집단 간 차이가 있는가? -> 기술통계로 확인하긴 어려움 => 모집단이 되어도 월요일과 화요일 매출 평균이 차이가 나는가? 샘플의 차이값으로 모집단의 차이값을 추론·유추해야함 추론을 하려면? 월요일과 화요일 모집단 평균 (실제로 가지고 있지 않은 데이터. 어딘가 있겠지...) - 월요일의 모집단 평균 : μ1 - 화요일의 모집단 평균 : μ2 월요일과 화요일 샘플 평균 (내가 가지고 있는 데이터) - 월요일의 모집단 평균 : X1바 - 화요일의 모집단 평균 : X2바 목표 : μ1 - μ2 현재 : X1바 - X2바 ..
Chapter 1. 요일별 매출 좀 비교해봐! - 흔히 저지르는 실수 Orientation 이제까지의 분석? 막대그래프/꺾은선그래프를 활용 시각화정도를 추가하는 것으로 끝냄 그래프 상으로 차이가 있으면 조건별로 차이가 있는 거지, 효과가 있는거지(조건이라는 것이) 그렇게 분석하고 끝냄 -> 위험한 분석! 조건별 차이라는 것을 어떻게 검증할 것인가? 다양한 조건이 있을 떄 효과 차이라는 것을 어떻게 정확히 확인할 지 통계적으로 확인하는 과정을 살펴볼 예정 데이터 소개 "우리마을가게 상권분석" -> 다운로드 필요(엑셀) 기준년월 : 날짜(년월) 상권코드, 상권코드명 : 상권의 분류 서비스업종코드, 서비스업종코드명 : 서비스 업종의 분류 샘플 데이터 (3개월 치 밖에 없다!) 필수로 알아야하는 기본 개념! 1..
깃허브 : https://github.com/miiingo/codility Task description 원본 사이트 : https://app.codility.com/programmers/lessons/5-prefix_sums/genomic_range_query/ GenomicRangeQuery coding task - Learn to Code - Codility Find the minimal nucleotide from a range of sequence DNA. app.codility.com - N 문자로 구성된 비어 있지 않은 문자열 S와 M 개의 정수로 구성된 비어 있지 않은 두 개의 배열 P, Q가 주어지면 모든 쿼리에 대한 연속 응답을 지정하는 M 개의 정수로 구성된 배열을 return - 가..
String → Array (문자열 → 배열) split() split() 메서드는 String 객체를 지정한 구분자를 이용하여 여러 개의 문자열로 나눕니다. // String → Array (문자열 → 배열) const str = 'Hello'; const arr = str.split(''); // 배열 ['h', 'e', 'l', 'l', 'o'] Array → String (배열 → 문자열) toString() toString()메서드는 지정된 배열 및 그 요소를 나타내는 문자열을 반환합니다. ※ 배열의 각 요소들이 쉼표(,)로 구분되어 하나의 문자열로 반환 // Array → String (배열 → 문자열): toString() 이용 const arr = ['h', 'e', 'l', 'l', 'o..
Chapter 5. 기본 용어와 기호부터 알고 가자 - 모수치와 표본수치 모집단의 평균과 표준편차 평균 : 데이터의 각 수치를 전부 더한 다음에 개수로 나누면 된다 모집단의 평균 = 모평균(μ, 뮤) - 모집단의 데이터에서 구해낸 평균 - μ = ∑X/N ※ ∑(시그마): 더해라(sum)라는 연산 기호 X: 각 데이터 하나하나를 의미 N: 표집수, 데이터 개수 -> 모집단 평균이라는 것은 모집단의 각 데이터를 다 더한 것을 데이터의 총 개수인 N으로 나눈 것이다. 모집단의 표준편차 = 모표준편자(σ, 시그마) - ∑(시그마)와 이름만 같음 모수치 - 모집단의 데이터가 있을 때의 모평균(μ)과 모표준편차(σ) - 즉, μ와 σ - 현실에 없는 데이터 표본의 평균과 표준편차 표본의 평균 = 표본평균(X바, ..
Chapter 13. 데이터 분석 실습 Part3 - 이 데이터, 뭐가 문제일까? 이 데이터는 무엇이 문제인가? - 편향(Bias) 잘못 뽑지 않았는가? 편향되게 뽑지 않았는가? 특정 기준에 치우치지 않았는가? 코드 - 범주형 데이터 - 카테고리 형식으로 되어 있는 데이터 - ex) 남자=1, 여자=2 남녀의 비율? -> 53:46 신장의 평균? -> 162cm 신장에 따라 허리둘레가 영향을 받는데 신장의 평균 값이 남자 수치도, 여자 수치도 아니라면? 요구 목적에 따라서 편향된 데이터일 수도 있고, 아닌 데이터일 수도 있다! 성별에 따른 차이 -> 문제인지 아닌지 판단하고 분석을 진행하자 콜레스테롤, 혈압 -> 연령에 심각하게 영향을 받는 수치 연령대별로 데이터 개수가 다르다면? 목적에 부합하도록 잘 ..
Chapter 12. 데이터 분석 실습 Part2 - 결측치 처리 이 데이터는 무엇이 문제인가? - Null, NaN 칼럼 별로 데이터 개수가 다르다 빈 값 처리를 안하면 평균부터 망한다! 1. 칼럼 별로 빈 개수가 다르다 2. 같은 행의 데이터가 빈 것인지 알 수 없다 개수가 같다고 같은 위치가 비어있는 것은 아니다! 이것을 처리하는 방법? 빈 값이 하나라도 있으면 그 행은 버린다! 정리 1. 필요 없거나 쓸모 없는 칼럼(열) 정리 : 샘플 개수가 너무 적거나 아예 없는 칼럼은 버림 2. 결측치 정리 - 각 칼럼별로 N(개수)이 다르다면 결측치가 존재 - 각 칼럼 중 어느 하나라도 빈 값이 있는 행은 그냥 버림
Chapter 11. 데이터 분석 실습 Part1 - 데이터 확인과 기술 통계 실습 ※ 실습 전 주의사항 - 데이터 분석에는 정답이 없다 - 파이썬 프로그래밍 언어를 사용 실습의 목표 - 데이터에서 무엇이 문제인지 직접 찾아내는 것 - 문제의 해결보다 문제 자체를 정확하게 정의하는 데에 중점 구글 드라이브에 복사본 저장해놓음. 정리 1. 목적 정의 : 분석 목적을 명확하게 정의 2. 데이터 확인 : 정의된 분석 목적을 보면서 더 고려해볼 점은 없는지, 부족한 데이터는 없는지 확인 3. 구글 드라이브의 데이터 불러오기 4. Import Libraries : 분석에 필요한 다양한 기능 불러오기 5. 데이터 구조 파악 : 컬럼명, 각 컬럼의 데이터 타입, 기술통계
Chapter 10. 어디나 문제아는 있다 - 아웃라이어(outlier) 왜 문제아인가? 데이터 분석은 왜 하는가? - 객관적 사실, 경향성 등을 파악 - 분석 결과를 바탕으로 의사결정 아웃라이어 - 객관적 판단의 방해꾼 - 분석 목적을 제대로 달성할 수 없다 - 모든 데이터에 무조건 다 존재한다! - 분석 결과 왜곡 - 자기가 문제아라는 걸 모른다... - 직접 아웃라이어를 색출하라!! 1. 아웃라이어(outlier)는 분석 결과를 심하게 왜곡시키거나 망가뜨리는 문제아 데이터이다. 2. 아웃라이어는 분야를 막론하고 모든 데이터에 다 존재한다. 3. 아웃라이어는 자기자신이 문제아인지 모르므로, 분석하는 내가 판단하고 처리해야 한다. 어디나 반드시 있다, 아웃라이어 아웃라이어가 생기는 이유 - 사람의 실수..
호스트에서 컨테이너로 파일 복사 파일 복사 호스트에 있는 파일을 컨테이너 내에 복사 // docker container cp docker container cp [호스트 파일 경로] [컨테이너명]:[컨테이너 파일 경로] 예를 들어, 호스트의 /home/indy/file_copy.txt 파일을 nodejs_alice_1 컨테이너 내에 있는 /home/indy/file_copy.txt에 복사할 경우 다음과 같은 명령을 실행하면 된다. # 호스트에서 컨테이너로 파일 복사 docker container cp /home/indy/file_copy.txt nodejs_alice_1:/home/indy/file_copy.txt 디렉토리 복사 호스트에 있는 디렉토리를 컨테이너 내에 복사 // docker contain..
Github : https://github.com/hyperledger/blockchain-explorer 소스 코드 복제 # 소스 코드 복제 cd /opt/gopath/src/github.com/hyperledger/ git clone https://github.com/hyperledger/blockchain-explorer cd blockchain-explorer 실행 환경 설정 docker-compose.yaml 파일 수정 # docker-compose.yaml 파일 수정 vi docker-compose.yaml explorer.mynetwork.com 서비스의 볼륨 설정을 변경해줘야합니다. byfn 네트워크 실행 시 만들어진 crypto-config 디렉토리를 ./examples/net1/cryp..
Chapter 9. 데이터에서 맨 처음 봐야 하는 것 Part3 - 분산과 표준편차(2) 분산 1. A 데이터만 일단 보자 - 편차(거리)에 음수가 있어서 더해도 0만 나온다! - -를 +로 바꾸는 법 -> 절대값 OR 제곱 2. 거리제곱의 평균을 구하라 - 제곱된 거리의 평균을 낸다 -> 이렇게 하면 양수만 나오기 때문에! 3. B 데이터도 구해보자 - A의 편차제곱의 평균 = 2 - B의 편차제곱의 평균 = 2.67 => B가 더 벌어져 있다 분산(σ²) - 편차제곱의 평균 - 분산(σ²) = ∑(X-μ)²/N - 데이터의 벌어진 정도를 비교할 수 있다 분산과 분포의 관계 분산이 크다 = 평균에 수렴하지 않는다 넓게 퍼져있는 모양 분산이 작다 = 평균에 수렴한다 뾰족한 모양 데이터 비교에는 문제가 없..
Chapter 8. 데이터에서 맨 처음 봐야 하는 것 Part3 - 분산과 표준편차(1) 아직 한발 남았다 데이터를 분석할 때 가장 먼저 해야되는 것들 - 분포의 모양 - 집중경향치 이 두 개만 알면 데이터의 특성을 다 이해한 걸까? ex) 데이터 A = [1, 2, 3, 4, 5] 데이터 B = [1, 3, 5] - 평균 : 3 - 좌우대칭 분포 - 같은 데이터? X! => 분포와 집중경향치만으로는 데이터의 특성을 다 알 수 없다 편차 A와 B는 데이터가 떨어진 정도가 다름 평균으로부터 각각의 수치들이 떨어진 거리가 다르다! 거리를 수치화하면 'A,B는 다른 데이터'임을 나타낼 수 있다. 1. 평균에서 각 데이터까지의 '거리'를 구한다 - 구해진 각각의 거리 = 편차 2. 거리(편차)의 짱(평균)을 뽑..
- Total
- Today
- Yesterday
- 블록체인
- Hyperledger Fabric
- 코딩테스트
- 암브로셔스
- Hyperledger Fabric v1.1
- 직딩잇템
- docker
- Hyperledger Indy
- 코딜리티
- 코테
- 하이퍼레저 페브릭
- ambrosus
- Private Data
- javascript
- 블록 체인
- 문제풀이
- 하이퍼레저 패브릭
- 기초 of 기초 데이터 개념
- 빅데이터 강의
- codility
- Hyperledger Fabric v1.2
- ubuntu
- DOCs
- 빅데이터 교육
- 하이퍼레저 인디
- 빅데이터
- 빅데이터 기초
- Blockchain
- 어서와 데이터는 처음이지
- 알고리즘
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |