티스토리 뷰

반응형

Chapter 10. 어디나 문제아는 있다 - 아웃라이어(outlier)

왜 문제아인가?

데이터 분석은 왜 하는가?
  - 객관적 사실, 경향성 등을 파악
  - 분석 결과를 바탕으로 의사결정

아웃라이어
  - 객관적 판단의 방해꾼
  - 분석 목적을 제대로 달성할 수 없다
  - 모든 데이터에 무조건 다 존재한다!
  - 분석 결과 왜곡
  - 자기가 문제아라는 걸 모른다...
  - 직접 아웃라이어를 색출하라!!

1. 아웃라이어(outlier)는 분석 결과를 심하게 왜곡시키거나 망가뜨리는 문제아 데이터이다.
2. 아웃라이어는 분야를 막론하고 모든 데이터에 다 존재한다.
3. 아웃라이어는 자기자신이 문제아인지 모르므로, 분석하는 내가 판단하고 처리해야 한다.

 

어디나 반드시 있다, 아웃라이어

아웃라이어가 생기는 이유
  - 사람의 실수
  - 자동화했는데도 우연히
  - 현업에서만 쓰는 특정 수치
  - 등등등

아웃라이어
  - 이상점, 이상치
  - 다른 수치에 비해 극단적으로 크거나 극단적으로 작은 수치

중앙치는 아웃라이어에 덜 민감
ex)
A = [1, 2, 3, 4, 5]
    - 중앙치 : 3
    - 평균 : 3
B = [1, 2, 3, 4, 999]
    - 중앙치 : 3
    - 평균 : 201.8

 

아웃라이어, 어떻게 다룰까?

아웃라이어를 다루는 방법
  - 버려라
  - 차라리 버리는 것이 낫다!

반드시 제거한 후 분석을 진행할 것!

 

정리

아웃라이어(outlier)
  - 다른 데이터에 비해 극단적으로 크거나 작은 수치
  - 평균, 중앙치, 최대, 최소 등 각종 수치를 확인하면서 파악해야 함
  - 분석 시 아웃라이어는 결과를 왜곡하기 때문에, 반드시 제거한 후 분석해야 함

 

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함