통계
목차
확률분포
통계적추론
가설검증
1. 확률분포
- 회귀분석
- 예측하고 싶은 자료와 그 자료에 영향을 미치는 자료들의 선형식을 도출하는 것
- 회귀분석이 가능한 자료의 조건
- 예측하고 싶은 자료는 정규분포를 따라야 하고, 연속형 변수여야 함
- 일반화 선형 모형 : 여러 다른 분포를 가정하고 회귀분석을 하는 것
- 이산형 분포 중 2가지 카테고리만 있는 경우 이항분포를 사용
- 통계적 추론 : 추정치, 표준오차(추정치의 잘못된 정도를 알려주는 것)가 존재
- 가설검정 : 자료에 영향을 미칠 것으로 추정한 자료가 실제로 영향을 미치는지 입증하는 것
- 회귀분석이 가능하다 = 정규분포(확률분포) + 통계적 추정 + 검정이 무엇인지 알고 있다
확률분포
통계 : 표본을 바탕으로 모집단을 추론하는 것. 확률이 있어야 의미가 있음
확률 : 근원사건들이 일어날 가능성이 모두 같을 때, 사건이 일어날 확률
이산확률변수 - 확률분포표 : 발생할 사건에 대해 확률을 나열한 것
연속확률변수 - 확률밀도함수 : 확률의 밀도가 어느 구간이 더 높고/낮은지를 영역으로 표현
'정규분포의 특징 이해' 슬라이드 정답 : 50점, 70점, 2.5%, 2~3등
정규분포의 표준화 : 정규분포인 두 개 이상의 그룹을 비교하기 위해 하나의 기준으로 재배치
표준정규분포 함수
- NORMSINV(확률) : 표준정규분포 역함수 값 반환 (확률을 넣으면 해당하는 z값 출력)
- NORMSDIST(z) : 표준정규분포 함수의 값을 반환 (z값을 넣으면 누적확률 값을 출력)
- NORMSINV(0) = '#NUM!' 오류 발생 (→ 표준정규분포는 무한한 Long tail이므로 0%가 불가능)
중심극한의 정리
모집단이 정규분포를 따르지 않더라도 성립함
실습 : 국민청원 sampled 파일 log(참여인원(votes))로 중심극한의 정리 확인
- sampled 파일 불러오면서 한글 깨질 때 : 데이터 → 데이터 가져오기 → CSV → UTF-8 지정
2. 통계적 추론
통계적 추론
- 표본이 가지고 있는 정보를 이용하여 모수에 관한 결론을 유도, 모수에 대한 가설의 옳고 그름을 판단
모수의 추정, 모수에 대한 가설검증으로 나눌 수 있음
표본을 통해 모집단을 예측하려면 둘 사이의 연결고리가 필요함
표준편차 vs. 표준오차
- 표준편차 : 데이터의 흩어진 정도를 평가, 평균으로부터 표본들의 흩어져 있는 산포도를 나타냄
- 표준오차 : 모평균을 추정했을 시, 추정량은 표본으로부터 모집단을 추론한 것이기 때문에 불완전함
모평균에 대한 구간추정
3. 가설검정
가설검증의 단계
(1) 가설을 수립
- 가설의 정의 : 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측
- 귀무가설 : 연구자가 증명하고자 하는 실험가설과 반대되는 입자 (= 효과(혹은 차이)가 없다). 보통 그렇다고 받아들여지는 사실이 귀무가설이 된다.
대립가설 : 귀무가설의 반대. 연구자가 실험을 통해 규명하고자 하는 가설 (= 효과(혹은 차이)가 있다)
- 예시 귀무가설 : 이 사람은 암에 걸리지 않았다. 대립가설 : 이 사람은 암에 걸렸다.
(2) 유의수준 결정
- 유의수준의 정의 : 모수의 추정이 맞지 않을 확률을 (일반적으로 5%로 설정)
(3) 기각역 설정
- 가설의 기각여부를 결정하는 범위를 결정 (유의수준이 결정되면 자동적으로 계산됨)
(4) 통계량의 계산
- 표본의 통계량을 이용해 가설검정
(5) 의사결정
- 기각역에 검정통계량이 포함되는 경우 : 귀무가설 기각, 대립가설 채택
- 채택역에 검정통계량이 포함되는 경우 : 귀무가설 채택, 대립가설 기각
용어정리
유의확률(p-value) : 귀무가설이 맞다는 전제 하에, 통계값이 실제로 관측된 값 이상일 확률
1종 오류 / 2종 오류 :
- 1종 오류 : 귀무가설이 실제로는 옳으나 기각한 경우
- 2종 오류 : 귀무가설이 실제로는 옳지 않으나 기각하지 않은 경우
- 1종 오류에 우선순위를 두나, 2종 오류도 무시할 수 없음 (1종 오류가 좀 더 치명적인 결과를 불러오는 경우가 많기 때문 : 신약개발 예제)