지난 시간 복습
EDA란 그림! 분석의 첫 단계
- 탐색적 자료 분석이라고 불린다.
- 데이터가 가진 정보를 탐색만으로 얻는 방법이다.
- 여러가지 방법을 통해 정보를 유추한다.
- 다양한 시도 를 해야 한다
- 데이터의 패턴이나 규칙 파악해야 한다.
자료의 분류
범주형 자료의 요약
- 범주형 자료의 요약
- 범주의 종류와 횟수를 요약한다.
범주형 자료의 종류
도수분포표 : 범주와 그 범주에 대응하는 도수와 상대도수를 나열한 표
- 실습. 화장지 불량종류에 대해서 도수와 상대도수를 구함.
원형그래프 : 상대도수에 비례하여 중심각을 나누어 조각을 나눈 것
- 실습. 혈액형에 대한 원형 그래프
- 막대그래프 : 범주에 대하여 도수의 크기만큼 막대를 그린 그래프
- 파레토그림 : 막대그래프와 상대도수를 합쳐서 그려주는 것
- 실습. 파레토 그림 - 혈액형
연속형 자료의 요약
- 수치 자료가 연속적인 척도로 관측된 자료
연속형 자료의 종류
- 점도표 : 적은 데이터에서는 유용
- 도수분포표
- 히스토그램 : 각 계급에 대하여 범주형 자료에서의 막대그래프와 같은 모양의 그림
- 전체 면적은 1이됨.
- 데이터 값의 범위를 알 수 있음, 빈도의 집중영역을 알 수 있음, 대칭성을 알 수 있음
- 줄기 잎 그림 : 자료의 분포를 시각적으로 쉽게 파악하면서 각 관측값을 유지하는 방법
이산형 자료의 요약
- 관측값의 종류가 적은 경우 : 범주형 자료의 요약 방법 사용
- 관측값의 종류가 많은 경우 : 연속형 자료의 요약 방법 사용
수치 요약
중심 위치의 측도
- 평균 : 극단값에 영향을 많이 받음 중앙값 : 식에 활용하기가 힘듬
퍼진 정도의 측도
- 분산과 표준편차 : 관측값이 자료의 중심위치로부터 떨어진 정도를 고려함.
- 편차의 합은 0이 되어서 제곱해줌.
사분위수
- 사분위수 : 전체 관측값을 작은 순서로 배열했을 때 전체를 사등분하는 값
- 제 1 사분위수(Q1) = 제 25 백분위수
- 제 2 사분위수(Q2) = 제 50 백분위수 = 중앙값
- 제 3 사분위수(Q3) = 제 75 백분위수
- 사분위수의 범위(IQR) = Q3 -Q1
상자그림
상자그림 : 자료로부터 얻은 다섯 가지 요약수치인 최솟값, Q1,Q2,Q3,최댓값을 가지고 그림을 그린 것
사분위수(Q1, Q2, Q3)를 결정한다.
Q1과 Q3을 네모난 상자로 연결하고 ,중앙값(Q2)의 위치에 수직선을 긋는다.
- IQR=Q3−Q1을 계산한다.
- 상자 양끝에서 1.5×IQR 크기의 범위를 경계로 하여, 이 범위에 포함되는 최솟값과 최댓값을 Q1과 Q3으로부터 각각 선으로 연결한다.
- 양 경계를 벗어나는 자료값들을 *로 표시하고 ,이 점들을 이상점이라고 한다.
- 실습 - 집 값
두 변수 자료의 요약
- 변수의 정의
- 자연 및 사회현상의 여러가지 요인 : 변수
- 영향을 받는 변수(y) : 반응변수, 종속변수
- 영향을 주는 변수(x) : 설명변수, 독립변수
상관계수
- 산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는 데 쓰이는 측도
-피어슨의 표본상관계수 참고
- 상관계수의 특징
- -−1≤𝑟≤1 -표본상관계수의 절대값의 크기는 직선관계에 가까운 정도를 나타내며 부호는 직선관계의 방향을 나타냄
- 절대값이 1에 가까울수록 직선에 가깝게 몰려있으며 0에 가까울수록 직선의 관계가 매우 약함
- 산점도와 함께 보는 것이 올바름
- 상관계수 값이 항상 두 변수 사이의 어떤 인과관계를 의미하지 않음
실습 - 국민청원 데이터로 EDA해보기
확률분포
- 통계학과 확률
- 통계는 표본을 바탕으로 모집단을 추론하는 것. 확률이 있어야 의미가 생김
- 확률 : 근원사건들이 일어날 가능성이 모두 같을 때, 사건이 일어날 확률
- 확률의 특징
- 확률은 0~1의 값을 갖는다
- 모든 사건에 대한 확률의 합은 1이다
- 확률변수(X) : 표본공간에서 정의된 실수로의 함수
- 이산 확률변수 : 독립적으로 발생하는 사건에 대한 확률변수
- 연속 확률변수 : 발생하는 각 사건을 단일한 독립사건으로 구분하기에 경우의 수가 매우 많아 범위로 표현되는 확률변수
정규분포
- 키, 몸무게, 강수량 등의 자연현상이나 사회현상과 관련된 자료의 확률밀도함수의 그래프들은 대부분 정규분포를 따름
- 정규분포는 평균을 중심으로 좌우 대칭인 종 모양의 곡선을 띔
- 평균, 분산만으로 특성을 모두 설명할 수 있음
- 정규분포의 특징
- 평균 = 최빈값 = 중앙값
- 평균을 중심으로 좌우대칭
- 확률이 μ를 중심으로 ±3σ 안에 거의 집중되어있음
- μ: 분포의 중심을 나타내는 위치 모수(평균)
- σ : 평균으로부터 퍼져 있는 정도를 나타내는 모수(표준편차)
표준정규분포
- 정규분포에서는 평균과 표준편차에 따라 특정 영역의 넓이가 달라 두 그룹의 비교를 위해서 하나의 기준으로 재배치가 필요함
- 표준정규분포 : 평균이 0이고 분산이 1인 정규분포 N(0,1)
- 실습 - 표준정규분포 읽어보기
- 표집분포
- 통계적 추론 : 표본을 통해 모집단을 예측하기 위해 연결고리가 필요
- 모수 : 모집단으로부터 계산된 값
- 통계량 : 표본으로부터 계산된 모든 값
- 표본평균들의 평균은 모평균과 같아짐
- 표본평균들의 분산은 모분산/표본의 크기와 같음