통계
통계학 : 자료의 수집과정을 설계, 자료를 요약, 해석, 결론 도출하고
일반화하는 전체적인 원리와 방법론을 제공
1.1 통계 기본 용어
- 모집단(population) : 관심의 대상이 되는 모든 객체의 특성을 나타내는 관측값이나 측정값의 전체 집합
- 추출단위(sampling unit) : 전체를 구성하는 각 개체들
- 특성값(characteristi) : 각 추출단위의 특성을 나타내는 값
- 표본(sample) : 통계적 분석을 위해 실제로 뽑힌 추출단위들의 집합
- (모집단은 규모가 크기 때문에 조사에 시간적, 공간적 제약이 따름 -> 표본을 통해 데이터 수집)
- 관찰값(observed values) : 표본의 특성값, 관찰된 측정값
- 모수(parameter) : 모집단의 특성을 나타내는 양적인 측도.(고유의 상수)
- 통계량(statistic) : 표본에 대한 특성 나타내는 양적인 측도.(표본을 통해 모집단의 특성 추론해야 함)
ex) 투표율
- 모집단 : 투표권이 있는 사람
- 모수 : 모집단의 특성을 나타내줌
- 표본 : 나이, 성별, 지역 등 특정 기준으로 나눈 객체
- 통계량 : 표본에 대한 특성 나타내줌
1.2 통계학을 활용하는 목적
: 불확실성의 해소 / 예측 / 의사결정 / 연관성 파악 / 요약 / 보편성 부여
- 빅 데이터(수 많은 데이터) 중 의미가 있는 부분을 선별해 유의성을 찾아낼 수 있는 '도구' 로서 "통계학" 활용
1.3 통계의 한계
- 표본에서 결과 얻기 때문에 정확한 결과 내기 어려움
- 확률이 없으면 의미 없다.
- 항상 틀릴 가능성을 내포함
- 평균을 예측하기보다는 평균을 예측할 수 있는 신뢰구간이 중요!
ex) 문재인 투표율 30%
- 금천구 25%~35%
- 구로구 28%~32%
...
신뢰구간 100개 구했을 때 30%를 포함할 확률이 95% => 신뢰구간 95%
100% 신뢰구간은 지양(표본이 너무 크기 때문에)
빅데이터 시대, 모집단을 다 가지고 있는 것이 좋은 것일까?
1.4 차원의 저주(Curse of Dimension)
: 변수가 증가하면 그것을 표현하기 위한 데이터 양(같은 비율의 공간)이 기하급수적으로 증가
1) 차원의 저주
- 차원이 증가할수록 데이터의 밀도는 급속도로 희박(sparse)해짐
- 전체 공간에 있는 변수 양 동일, 우리가 찾고자 하는 공간에 있는 데이터의 양이 줄어든다.
- 일정 차원을 넘으면 분류기의 성능 떨어짐 -> overfitting
- overfitting : 많은 연산이 쌓이면서 오차가 증가한다. 예측력이 낮다.
ex) 1차원 20% - 각 변수 20%
2차원 20% - 각 변수 45%
3차원 20 % - 각 변수 58%
차원에 따른 변수의 할당량이 다름 : 변수가 늘어나면 데이터공간을 채우는 비율(%)이 줄어들기 때문에 변수가 많아질 수록 분석에 요구되는 데이터 건수도 증가
2) 변수가 많을 때 줄이는 법 (분석가의 몫!)
- missing 비율이 큰 변수 지우기
- 현업과 상의해서 변수 제거 (도메인이 중요! 최적의 방법)
- PCA
- lasso
1.5 데이터 분석 도구 : Python / R / EXCEL
- python : 다양한 데이터 분석 라이브러리 존재, 오픈소스, 프로그래밍 실력이 분석의 질을 크게 좌우
- R : 통계분석을 목적으로 만들어진 언어, 다양한 통계 관련 라이브러리 존재
- EXCEL : 사용하기엔 쉽지만 대용량 데이터 다루기에는 부적절,
add-in 프로그램 통해 다양한 데이터 편집 및 고급 분석 가능(구글 드라이브 스프레드시트 add-on) - 엑셀
값 | 함수 |
---|---|
중앙값 | MEDIAN(범위) |
분산 | VAR(범위) |
표준편차 | STDEV(범위) |
상관계수 | CORREL(범위) |
1.6 데이터 분석 프로세스
SEMMA : 솔루션 업체인 SAS사 주도로 만들어진 방법론
- Sample : 샘플 선택
- Explore(*) : 데이터 변수
- Modify : 유의미한 변수 찾기, 변수 변환, 파생변수 생성
- Model : 통계 모델
- Assess : 모델링 작동 평가
EDA : Exploratory Data Analysis, 탐색적 자료 분석
- 분석의 시작은 그림!
- 데이터가 가진 정보를 데이터의 탐색만으로 얻는 방법.
- 데이터로부터 정보 얻기 위해 다양한 시도가 필수!
- EDA를 통해 데이터의 패턴, 규칙 파악
1.7 자료의 분류
- 수치형 변수(Numerical Variable)
- 연속형 변수(Continous Variable) : 키, 몸무게, 온도, 거리 (정확한 값X, 연속적 수)
- 이산형 변수(Discrete Variable) : 수강생 수, 카페의 개수 (정확한 숫자로 이루어진 값)
- 범주형 변수(Categorial Variable)
- 명목형 변수(Nominal Variable) : 혈액형, 성별, 통신사
- 순위형 변수(Ordinal Variable) : 학년, 등급, 설문지 척도
수치형 변수 | 범주형 변수 |
---|---|
연속형 변수 | 명목형 변수 |
이산형 변수 | 순위형 변수 |
1.8 범주형 자료의 요약
: 도수분포표, 원형 그래프, 막대그래프, 파레토 그림
: 각 범주의 개수 세어서 요약, 전체에서 범주의 비율 파악
도수분포표 : 범주와 그 범주에 대응하는 도수와 상대도수를 나열한 표. 전체 자료의 개요 파악하기 쉬움.
- 도수(frequency) : 각 범주에 속하는 관측값의 개수
- 상대도수(relative frequency) : 도수를 자료 전체의 개수로 나눈 비율
- (상대도수의 합은 항상 1)
원형그래프(Pie Chart) : 중심각을 상대도수에 비례하여 조각으로 나눔.
- 전체에서 범주의 개수, 각 범주의 차지 비율 파악하기 쉬움.
- 도수 크기 차이 파악하기엔 어려움
막대그래프 : 각 범주를 도수의 크기만큼 막대로 그린 그래프
- 각 범주 간의 도수 비교하는데 쉬움.
- 도수와 상대도수 중 어느 것을 이용해도 그림의 모양 같음.
파레토그림 : 상대도수의 크기가 큰 순서로 범주를 왼쪽 부터 오른쪽으로 나열한 막대그래프
- 상대도수가 증가하는 정도와 큰 도수의 범주들이 차지하는 비율 쉽게 파악 가능
- 순위형 자료와 같이 범주의 순서가 의미있는 자료에서는 사용하지 않음.
<쉬어가기> '빅데이터'의 등장? 기술의 차이x 환경과 조직의 인식의 차이! (데이터분석과 의사결정을 보다 더 가깝게)
서버기술의 발전으로 기존의 데이터 분석을 보다 빠르게(real-time), 시각화가 가능해 졌다.
빅데이터-데이터사이언스 : 작은 샘플링이라도 유의미한 인사이트 도출하기 위한 사회적 분위기에 편승됨.
과거엔 본질 < 키워드, 하지만 본질에 집중해야 함!
prediction | forecast |
---|---|
예측 | 전망 |
상관관계 | 인과관계 |
구체적,명시적 | 확률적 진술 |
7월2일 오전 10시에 데잇걸스 수업을 받고 있을 것이다 | 다음주에 데잇걸스 수업을 갈 확률은 30%다. |
빅데이터 & FUTURE PREDICTION
Forecast와 Prediction 중 Prediction에 가깝다.
즉, '과거'의 패턴을 '통계'기법으로 분석 -> '미래'를 제시
DATA, PREDICTION, STATISTICS, SAMPLING 에 대한 의미 생각해보기
1.9 연속형 자료의 요약
- 연속형 자료의 요약 : 점도표, 도수분포표, 히스토그램, 도수다각형, 줄기-잎 그림
- (수치 자료가 연속적인 척도로 관측된 자료)
1) 점도표 : 눈금을 표시한 수평선에 각 관측값에 해당되는 위치에 점 찍어 표시
- 관측값의 개수가 상대적으로 적은 경우에 이용 (20~25 이하) 2) 도수분포표 : 모든 관측값을 포함하는 범위를 몇 개의 구간으로 나누어 작성
- 계급(class) : 나뉘어진 각 부분
- 계급구간(class interval) : 각 계급에 포함되는 값의 범위
- 계급구간의 폭 : 각 계급구간의 크기 (계급 구간의 폭에 따라 그림이 달라짐) 3) 히스토그램(중요*) : 범주형 자료의 막대그래프와 유사하지만 붙어있는 막대 그래프
- 전체 면적 1
- 데이터 값의 범위와 빈도의 집중영역, 대칭성을 알 수 있음. 4) 줄기-잎 그림 : 자료의 분포 시각적으로 쉽게 파악하면서 각 관측값 유지하는 방법. 5) 이산형 자료의 요약
- 관측값의 종류가 적은 경우 : 범주형 자료를 요약하는 방법 사용
- 관측값이 종류가 많은 경우 : 연속형 자료를 요약하는 방법 사용
1.10 수치를 통한 연속형 자료의 요약
- 중심위치의 측도 : 평균, 중앙값
퍼진정도의 측도 : 분산, 표준편차, 사분위수
중심위치의 측도
- 평균 : 중심 위치의 측도 중 가장 많이 사용, 극단적인 값에 영향을 많이 받음.
- 중앙값 : 전체 관측값을 크기 순서로 배열하였을 때 가운데 위치하는 값
- 자료의 개수가 홀수 : ((n+1))/2 번째 측도
- 자료의 개수가 짝수 : 2/n 번째 관측값과 (n/2)+1번째 관측값 사이의 평균
퍼진정도의 측도
- 분산과 표준편차 : 관측값이 자료의 중심위치로부터 떨어진 정도 고려함.
- 편차(deviation) : 각 관측값과 평균의 차이 (x1-평균, x2-평균...)
- 표본분산(sample variance) : 편차의 제곱합을 n-1로 나눈 값 (s^2)
- 표본표준편차 : 표본분산의 양의 제곱근 (단위가 맞춰짐)
ex) 변수 키 단위 cm^2, cm
사분위수(quartile) : 전체 관측값을 작은 순서로 배열하였을 때 전체를 사등분하는 값
- (제1사분위수 : Q1, 제 2사분위수 : 중앙값...)
사분위수 범위 : 사분위수의 거리
상자그림 boxplot : 두 그룹 비교에 용이
1.11 두 변수 자료의 요약
- 변수(variable) : 자연 및 사회 현상의 여러가지 요인
- 영향을 받는 변수(y) : 반응변수, 종속변수
- 영향을 주는 변수(x) : 설명변수(y를 설명), 독립변수
- 변수들 간의 관계 그림 보기
종속 변수(Y) | 설명 변수(X) | 그림 종류 |
---|---|---|
연속형 | 연속형 | 산점도 |
범주형 | 범주형 | 모자이크 플랏 |
범주형 | 연속형 | 박스 플랏 |
1.12 두 변수 자료의 요약
상관계수
정의 : 산점도에서 점들이 얼마나 직선에 가까운가의 정도를나타내는 데 쓰이는 측도
상관계수의 특징
-1 <= r <=1 표본상관계수(r)의 절대값의 크기 : '직선'관계에 가까운 정도를 표현 표본상관계수(r)의 부호 : 직선관계(그래프)의 방향을 표현
절대값이 1에 가까울수록 직선에 가깝게 몰려있고 0에 가까울 수록 직선의 관계가 약하다
상관관계 vs. 인과관계
- 상관계수 값이 항상 두 변수 사이의 어떤 인과관계를 의미하지 않는다.
ex) x = 살인사건의 발생건수 , y = 종교집회의 횟수 가정 x, y 가 +1 에 가까운 상관관계 => 직접적인 원인과 결과의 관계? X
왜냐하면 , 제3의 요소(ex. 도시주민수 잠재변수)가 무시 되었기 때문
--> x, y 의 높은 상관계수는 '주민의 수'에 따른 결과 (O)x, y 는 서로 원인과 결과의 관계를 가진다(X)<br>