티스토리 뷰
[직딩잇템] 어서와 데이터는 처음이지 - 기초 of 기초 데이터 개념: Chapter 10. 어디나 문제아는 있다 - 아웃라이어(outlier)
miiingo 2020. 4. 9. 10:31Chapter 10. 어디나 문제아는 있다 - 아웃라이어(outlier)
왜 문제아인가?
데이터 분석은 왜 하는가?
- 객관적 사실, 경향성 등을 파악
- 분석 결과를 바탕으로 의사결정
아웃라이어
- 객관적 판단의 방해꾼
- 분석 목적을 제대로 달성할 수 없다
- 모든 데이터에 무조건 다 존재한다!
- 분석 결과 왜곡
- 자기가 문제아라는 걸 모른다...
- 직접 아웃라이어를 색출하라!!
1. 아웃라이어(outlier)는 분석 결과를 심하게 왜곡시키거나 망가뜨리는 문제아 데이터이다.
2. 아웃라이어는 분야를 막론하고 모든 데이터에 다 존재한다.
3. 아웃라이어는 자기자신이 문제아인지 모르므로, 분석하는 내가 판단하고 처리해야 한다.
어디나 반드시 있다, 아웃라이어
아웃라이어가 생기는 이유
- 사람의 실수
- 자동화했는데도 우연히
- 현업에서만 쓰는 특정 수치
- 등등등
아웃라이어
- 이상점, 이상치
- 다른 수치에 비해 극단적으로 크거나 극단적으로 작은 수치
중앙치는 아웃라이어에 덜 민감
ex)
A = [1, 2, 3, 4, 5]
- 중앙치 : 3
- 평균 : 3
B = [1, 2, 3, 4, 999]
- 중앙치 : 3
- 평균 : 201.8
아웃라이어, 어떻게 다룰까?
아웃라이어를 다루는 방법
- 버려라
- 차라리 버리는 것이 낫다!
반드시 제거한 후 분석을 진행할 것!
정리
아웃라이어(outlier)
- 다른 데이터에 비해 극단적으로 크거나 작은 수치
- 평균, 중앙치, 최대, 최소 등 각종 수치를 확인하면서 파악해야 함
- 분석 시 아웃라이어는 결과를 왜곡하기 때문에, 반드시 제거한 후 분석해야 함
'교육 및 세미나' 카테고리의 다른 글
- Total
- Today
- Yesterday
- 블록 체인
- Hyperledger Fabric v1.2
- 코딩테스트
- 문제풀이
- 빅데이터 기초
- 빅데이터
- 직딩잇템
- DOCs
- 블록체인
- ubuntu
- Hyperledger Fabric v1.1
- Private Data
- 빅데이터 교육
- docker
- Hyperledger Fabric
- javascript
- 어서와 데이터는 처음이지
- 코테
- Hyperledger Indy
- 하이퍼레저 패브릭
- 암브로셔스
- 기초 of 기초 데이터 개념
- 하이퍼레저 인디
- Blockchain
- 알고리즘
- 코딜리티
- 빅데이터 강의
- codility
- ambrosus
- 하이퍼레저 페브릭
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |