통계

목차

  1. 확률분포

  2. 통계적추론

  3. 가설검증


1. 확률분포

  • 회귀분석
    • 예측하고 싶은 자료와 그 자료에 영향을 미치는 자료들의 선형식을 도출하는 것
    • 회귀분석이 가능한 자료의 조건
      • 예측하고 싶은 자료는 정규분포를 따라야 하고, 연속형 변수여야 함
    • 일반화 선형 모형 : 여러 다른 분포를 가정하고 회귀분석을 하는 것
      • 이산형 분포 중 2가지 카테고리만 있는 경우 이항분포를 사용
    • 통계적 추론 : 추정치, 표준오차(추정치의 잘못된 정도를 알려주는 것)가 존재
    • 가설검정 : 자료에 영향을 미칠 것으로 추정한 자료가 실제로 영향을 미치는지 입증하는 것
    • 회귀분석이 가능하다 = 정규분포(확률분포) + 통계적 추정 + 검정이 무엇인지 알고 있다
  • 확률분포

    • 통계 : 표본을 바탕으로 모집단을 추론하는 것. 확률이 있어야 의미가 있음

    • 확률 : 근원사건들이 일어날 가능성이 모두 같을 때, 사건이 일어날 확률

    • 이산확률변수 - 확률분포표 : 발생할 사건에 대해 확률을 나열한 것

    • 연속확률변수 - 확률밀도함수 : 확률의 밀도가 어느 구간이 더 높고/낮은지를 영역으로 표현

    • '정규분포의 특징 이해' 슬라이드 정답 : 50점, 70점, 2.5%, 2~3등

    • 정규분포의 표준화 : 정규분포인 두 개 이상의 그룹을 비교하기 위해 하나의 기준으로 재배치

    • 표준정규분포 함수

      • NORMSINV(확률) : 표준정규분포 역함수 값 반환 (확률을 넣으면 해당하는 z값 출력)
      • NORMSDIST(z) : 표준정규분포 함수의 값을 반환 (z값을 넣으면 누적확률 값을 출력)
      • NORMSINV(0) = '#NUM!' 오류 발생 (→ 표준정규분포는 무한한 Long tail이므로 0%가 불가능)
    • 중심극한의 정리

      • 모집단이 정규분포를 따르지 않더라도 성립함

      • 실습 : 국민청원 sampled 파일 log(참여인원(votes))로 중심극한의 정리 확인

      • sampled 파일 불러오면서 한글 깨질 때 : 데이터 → 데이터 가져오기 → CSV → UTF-8 지정

2. 통계적 추론

  • 통계적 추론

    • 표본이 가지고 있는 정보를 이용하여 모수에 관한 결론을 유도, 모수에 대한 가설의 옳고 그름을 판단
    • 모수의 추정, 모수에 대한 가설검증으로 나눌 수 있음

    • 표본을 통해 모집단을 예측하려면 둘 사이의 연결고리가 필요함

  • 표준편차 vs. 표준오차

    • 표준편차 : 데이터의 흩어진 정도를 평가, 평균으로부터 표본들의 흩어져 있는 산포도를 나타냄
    • 표준오차 : 모평균을 추정했을 시, 추정량은 표본으로부터 모집단을 추론한 것이기 때문에 불완전함
  • 모평균에 대한 구간추정


3. 가설검정

  • 가설검증의 단계

    (1) 가설을 수립

    • 가설의 정의 : 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측
    • 귀무가설 : 연구자가 증명하고자 하는 실험가설과 반대되는 입자 (= 효과(혹은 차이)가 없다). 보통 그렇다고 받아들여지는 사실이 귀무가설이 된다.
    • 대립가설 : 귀무가설의 반대. 연구자가 실험을 통해 규명하고자 하는 가설 (= 효과(혹은 차이)가 있다)

      - 예시
        귀무가설 : 이 사람은 암에 걸리지 않았다. 
        대립가설 : 이 사람은 암에 걸렸다.
      
(2) 유의수준 결정

  - 유의수준의 정의 : 모수의 추정이 맞지 않을 확률을 (일반적으로 5%로 설정)



(3) 기각역 설정 

  - 가설의 기각여부를 결정하는 범위를 결정 (유의수준이 결정되면 자동적으로 계산됨)



(4) 통계량의 계산

  - 표본의 통계량을 이용해 가설검정



(5) 의사결정

  - 기각역에 검정통계량이 포함되는 경우 : 귀무가설 기각, 대립가설 채택
  - 채택역에 검정통계량이 포함되는 경우 : 귀무가설 채택, 대립가설 기각 

용어정리

  • 유의확률(p-value) : 귀무가설이 맞다는 전제 하에, 통계값이 실제로 관측된 값 이상일 확률

  • 1종 오류 / 2종 오류 :

    • 1종 오류 : 귀무가설이 실제로는 옳으나 기각한 경우
    • 2종 오류 : 귀무가설이 실제로는 옳지 않으나 기각하지 않은 경우
    • 1종 오류에 우선순위를 두나, 2종 오류도 무시할 수 없음 (1종 오류가 좀 더 치명적인 결과를 불러오는 경우가 많기 때문 : 신약개발 예제)

results matching ""

    No results matching ""