티스토리 뷰

반응형

Chapter 3. 데이터는 항상 없다! 그럼 어떻게 모으지? - 모집단과 랜덤샘플링

데이터를 모으자

질 좋은 데이터는 요구 조건에 따라 달라진다
  - 어떤 결과를 어떻게 얻고 싶은데?
  - 데이터에서는 왜 하는지, 무엇을 위해서 할 것인지가 더 중요
  - 쓰레기를 넣으면 쓰레기가 나온다

모집단과 표본

ex) 요구 조건: 우리나라 20대 성인은 대체로 신장(키)이 몇 cm인가?
  - 모든 데이터에 대해 평균 값을 구하면 됨
  - 문제는 이러한 데이터가 없다!

모집단(population) : 원래 구하고 싶은 데이터 전체 (상식적으로 구하기 어려움)

표본(sample) : 모집단의 특성을 파악하기 위해서 모집단 중 일부를 선택하여 얻어진 데이터

표집(sampling) : 모집단에서 표본을 뽑아내는 과정

표집수(N) : 모집단에서 샘플링을 할 때 몇 개를 뽑았는가?

 

랜덤 샘플링(무선표집)

어떻게 뽑느냐에 따라 샘플의 특징이 달라진다

랜덤 샘플링 = 무작위로 추출

 

정리

1. 데이터는 수집을 어떻게 했느냐에 따라 특성이 결정됨
2. 모집단 : 원래 알고 싶은 데이터 전체(현실적으로 이 데이터는 존재하지 않는다)
3. 표본 : 모집단에서 일부만 뽑아낸 부분 데이터
4. 샘플링 : 모집단에서 표본을 뽑는 과정
5. 표집수(N) : 샘플링한 데이터 개수
6. 랜덤 샘플링 : 표집 시에 어떠한 기준을 두지 않고 무작위로 추출하는 과정

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함