통계

통계학 : 자료의 수집과정을 설계, 자료를 요약, 해석, 결론 도출하고
일반화하는 전체적인 원리와 방법론을 제공

1.1 통계 기본 용어

모집단(population) : 관심의 대상이 되는 모든 객체의 특성을 나타내는 관측값이나 측정값의 전체 집합

추출단위(sampling unit) : 전체를 구성하는 각 개체들

특성값(characteristi) : 각 추출단위의 특성을 나타내는 값

표본(sample) : 통계적 분석을 위해 실제로 뽑힌 추출단위들의 집합

(모집단은 규모가 크기 때문에 조사에 시간적, 공간적 제약이 따름 -> 표본을 통해 데이터 수집)

관찰값(observed values) : 표본의 특성값, 관찰된 측정값

모수(parameter) : 모집단의 특성을 나타내는 양적인 측도.(고유의 상수)

통계량(statistic) : 표본에 대한 특성 나타내는 양적인 측도.(표본을 통해 모집단의 특성 추론해야 함)

ex) 투표율

모집단 : 투표권이 있는 사람

모수 : 모집단의 특성을 나타내줌

표본 : 나이, 성별, 지역 등 특정 기준으로 나눈 객체

통계량 : 표본에 대한 특성 나타내줌

1.2 통계학을 활용하는 목적

: 불확실성의 해소 / 예측 / 의사결정 / 연관성 파악 / 요약 / 보편성 부여

빅 데이터(수 많은 데이터) 중 의미가 있는 부분을 선별해 유의성을 찾아낼 수 있는 '도구' 로서 "통계학" 활용

1.3 통계의 한계

표본에서 결과 얻기 때문에 정확한 결과 내기 어려움
확률이 없으면 의미 없다.
항상 틀릴 가능성을 내포함
- 평균을 예측하기보다는 평균을 예측할 수 있는 신뢰구간이 중요!

ex) 문재인 투표율 30%

금천구 25%~35%

구로구 28%~32%
...
신뢰구간 100개 구했을 때 30%를 포함할 확률이 95% => 신뢰구간 95%
100% 신뢰구간은 지양(표본이 너무 크기 때문에)

빅데이터 시대, 모집단을 다 가지고 있는 것이 좋은 것일까?

1.4 차원의 저주(Curse of Dimension)

: 변수가 증가하면 그것을 표현하기 위한 데이터 양(같은 비율의 공간)이 기하급수적으로 증가
1) 차원의 저주

차원이 증가할수록 데이터의 밀도는 급속도로 희박(sparse)해짐
전체 공간에 있는 변수 양 동일, 우리가 찾고자 하는 공간에 있는 데이터의 양이 줄어든다.
일정 차원을 넘으면 분류기의 성능 떨어짐 -> overfitting
- overfitting : 많은 연산이 쌓이면서 오차가 증가한다. 예측력이 낮다.

ex) 1차원 20% - 각 변수 20%
2차원 20% - 각 변수 45%
3차원 20 % - 각 변수 58%
차원에 따른 변수의 할당량이 다름 : 변수가 늘어나면 데이터공간을 채우는 비율(%)이 줄어들기 때문에 변수가 많아질 수록 분석에 요구되는 데이터 건수도 증가

2) 변수가 많을 때 줄이는 법 (분석가의 몫!)

missing 비율이 큰 변수 지우기
현업과 상의해서 변수 제거 (도메인이 중요! 최적의 방법)
PCA
lasso

1.5 데이터 분석 도구 : Python / R / EXCEL

python : 다양한 데이터 분석 라이브러리 존재, 오픈소스, 프로그래밍 실력이 분석의 질을 크게 좌우
R : 통계분석을 목적으로 만들어진 언어, 다양한 통계 관련 라이브러리 존재
EXCEL : 사용하기엔 쉽지만 대용량 데이터 다루기에는 부적절,
add-in 프로그램 통해 다양한 데이터 편집 및 고급 분석 가능(구글 드라이브 스프레드시트 add-on)
엑셀

값	함수
중앙값	MEDIAN(범위)
분산	VAR(범위)
표준편차	STDEV(범위)
상관계수	CORREL(범위)

1.6 데이터 분석 프로세스

SEMMA : 솔루션 업체인 SAS사 주도로 만들어진 방법론
- Sample : 샘플 선택
- Explore(*) : 데이터 변수
- Modify : 유의미한 변수 찾기, 변수 변환, 파생변수 생성
- Model : 통계 모델
- Assess : 모델링 작동 평가
EDA : Exploratory Data Analysis, 탐색적 자료 분석
- 분석의 시작은 그림!
- 데이터가 가진 정보를 데이터의 탐색만으로 얻는 방법.
- 데이터로부터 정보 얻기 위해 다양한 시도가 필수!
- EDA를 통해 데이터의 패턴, 규칙 파악

1.7 자료의 분류

수치형 변수(Numerical Variable)
- 연속형 변수(Continous Variable) : 키, 몸무게, 온도, 거리 (정확한 값X, 연속적 수)
- 이산형 변수(Discrete Variable) : 수강생 수, 카페의 개수 (정확한 숫자로 이루어진 값)
범주형 변수(Categorial Variable)
- 명목형 변수(Nominal Variable) : 혈액형, 성별, 통신사
- 순위형 변수(Ordinal Variable) : 학년, 등급, 설문지 척도

수치형 변수	범주형 변수
연속형 변수	명목형 변수
이산형 변수	순위형 변수

1.8 범주형 자료의 요약

: 도수분포표, 원형 그래프, 막대그래프, 파레토 그림
: 각 범주의 개수 세어서 요약, 전체에서 범주의 비율 파악

도수분포표 : 범주와 그 범주에 대응하는 도수와 상대도수를 나열한 표. 전체 자료의 개요 파악하기 쉬움.
- 도수(frequency) : 각 범주에 속하는 관측값의 개수
- 상대도수(relative frequency) : 도수를 자료 전체의 개수로 나눈 비율
- (상대도수의 합은 항상 1)
원형그래프(Pie Chart) : 중심각을 상대도수에 비례하여 조각으로 나눔.
- 전체에서 범주의 개수, 각 범주의 차지 비율 파악하기 쉬움.
- 도수 크기 차이 파악하기엔 어려움
막대그래프 : 각 범주를 도수의 크기만큼 막대로 그린 그래프
- 각 범주 간의 도수 비교하는데 쉬움.
- 도수와 상대도수 중 어느 것을 이용해도 그림의 모양 같음.
파레토그림 : 상대도수의 크기가 큰 순서로 범주를 왼쪽 부터 오른쪽으로 나열한 막대그래프
- 상대도수가 증가하는 정도와 큰 도수의 범주들이 차지하는 비율 쉽게 파악 가능
- 순위형 자료와 같이 범주의 순서가 의미있는 자료에서는 사용하지 않음.

<쉬어가기> '빅데이터'의 등장? 기술의 차이x 환경과 조직의 인식의 차이! (데이터분석과 의사결정을 보다 더 가깝게)
서버기술의 발전으로 기존의 데이터 분석을 보다 빠르게(real-time), 시각화가 가능해 졌다.
빅데이터-데이터사이언스 : 작은 샘플링이라도 유의미한 인사이트 도출하기 위한 사회적 분위기에 편승됨.
과거엔 본질 < 키워드, 하지만 본질에 집중해야 함!

prediction	forecast
예측	전망
상관관계	인과관계
구체적,명시적	확률적 진술
7월2일 오전 10시에 데잇걸스 수업을 받고 있을 것이다	다음주에 데잇걸스 수업을 갈 확률은 30%다.

빅데이터 & FUTURE PREDICTION
Forecast와 Prediction 중 Prediction에 가깝다.
즉, '과거'의 패턴을 '통계'기법으로 분석 -> '미래'를 제시

DATA, PREDICTION, STATISTICS, SAMPLING 에 대한 의미 생각해보기

1.9 연속형 자료의 요약

연속형 자료의 요약 : 점도표, 도수분포표, 히스토그램, 도수다각형, 줄기-잎 그림
- (수치 자료가 연속적인 척도로 관측된 자료)

1) 점도표 : 눈금을 표시한 수평선에 각 관측값에 해당되는 위치에 점 찍어 표시

관측값의 개수가 상대적으로 적은 경우에 이용 (20~25 이하) 2) 도수분포표 : 모든 관측값을 포함하는 범위를 몇 개의 구간으로 나누어 작성
계급(class) : 나뉘어진 각 부분
계급구간(class interval) : 각 계급에 포함되는 값의 범위
계급구간의 폭 : 각 계급구간의 크기 (계급 구간의 폭에 따라 그림이 달라짐) 3) 히스토그램(중요*) : 범주형 자료의 막대그래프와 유사하지만 붙어있는 막대 그래프
전체 면적 1
데이터 값의 범위와 빈도의 집중영역, 대칭성을 알 수 있음. 4) 줄기-잎 그림 : 자료의 분포 시각적으로 쉽게 파악하면서 각 관측값 유지하는 방법. 5) 이산형 자료의 요약
관측값의 종류가 적은 경우 : 범주형 자료를 요약하는 방법 사용
관측값이 종류가 많은 경우 : 연속형 자료를 요약하는 방법 사용

1.10 수치를 통한 연속형 자료의 요약

중심위치의 측도 : 평균, 중앙값
퍼진정도의 측도 : 분산, 표준편차, 사분위수
중심위치의 측도
- 평균 : 중심 위치의 측도 중 가장 많이 사용, 극단적인 값에 영향을 많이 받음.
- 중앙값 : 전체 관측값을 크기 순서로 배열하였을 때 가운데 위치하는 값
- 자료의 개수가 홀수 : ((n+1))/2 번째 측도
- 자료의 개수가 짝수 : 2/n 번째 관측값과 (n/2)+1번째 관측값 사이의 평균
퍼진정도의 측도
- 분산과 표준편차 : 관측값이 자료의 중심위치로부터 떨어진 정도 고려함.
- 편차(deviation) : 각 관측값과 평균의 차이 (x1-평균, x2-평균...)
- 표본분산(sample variance) : 편차의 제곱합을 n-1로 나눈 값 (s^2)
- 표본표준편차 : 표본분산의 양의 제곱근 (단위가 맞춰짐)
  
  ex) 변수 키 단위 cm^2, cm
사분위수(quartile) : 전체 관측값을 작은 순서로 배열하였을 때 전체를 사등분하는 값
- (제1사분위수 : Q1, 제 2사분위수 : 중앙값...)
사분위수 범위 : 사분위수의 거리
상자그림 boxplot : 두 그룹 비교에 용이

1.11 두 변수 자료의 요약

변수(variable) : 자연 및 사회 현상의 여러가지 요인
- 영향을 받는 변수(y) : 반응변수, 종속변수
- 영향을 주는 변수(x) : 설명변수(y를 설명), 독립변수

변수들 간의 관계 그림 보기

종속 변수(Y)	설명 변수(X)	그림 종류
연속형	연속형	산점도
범주형	범주형	모자이크 플랏
범주형	연속형	박스 플랏

1.12 두 변수 자료의 요약

상관계수
- 정의 : 산점도에서 점들이 얼마나 직선에 가까운가의 정도를나타내는 데 쓰이는 측도
- 상관계수의 특징
- -1 <= r <=1 표본상관계수(r)의 절대값의 크기 : '직선'관계에 가까운 정도를 표현 표본상관계수(r)의 부호 : 직선관계(그래프)의 방향을 표현
  
  절대값이 1에 가까울수록 직선에 가깝게 몰려있고 0에 가까울 수록 직선의 관계가 약하다
- 상관관계 vs. 인과관계
  - 상관계수 값이 항상 두 변수 사이의 어떤 인과관계를 의미하지 않는다.
  ex) x = 살인사건의 발생건수 , y = 종교집회의 횟수 가정 x, y 가 +1 에 가까운 상관관계 => 직접적인 원인과 결과의 관계? X
  왜냐하면 , 제3의 요소(ex. 도시주민수 잠재변수)가 무시 되었기 때문
  --> x, y 의 높은 상관계수는 '주민의 수'에 따른 결과 (O)
```
   x, y 는 서로 원인과 결과의 관계를 가진다(X)<br>
```

통계 기본 개념과 설명

통계

통계학 : 자료의 수집과정을 설계, 자료를 요약, 해석, 결론 도출하고
일반화하는 전체적인 원리와 방법론을 제공

1.1 통계 기본 용어

1.2 통계학을 활용하는 목적

1.3 통계의 한계

1.4 차원의 저주(Curse of Dimension)

1.5 데이터 분석 도구 : Python / R / EXCEL

1.6 데이터 분석 프로세스

1.7 자료의 분류

1.8 범주형 자료의 요약

DATA, PREDICTION, STATISTICS, SAMPLING 에 대한 의미 생각해보기

1.9 연속형 자료의 요약

1.10 수치를 통한 연속형 자료의 요약

1.11 두 변수 자료의 요약

1.12 두 변수 자료의 요약

빅데이터에서 상관관계 파악 중요!

results matching ""

No results matching ""

통계

통계학 : 자료의 수집과정을 설계, 자료를 요약, 해석, 결론 도출하고일반화하는 전체적인 원리와 방법론을 제공

1.1 통계 기본 용어

1.2 통계학을 활용하는 목적

1.3 통계의 한계

1.4 차원의 저주(Curse of Dimension)

1.5 데이터 분석 도구 : Python / R / EXCEL

1.6 데이터 분석 프로세스

1.7 자료의 분류

1.8 범주형 자료의 요약

DATA, PREDICTION, STATISTICS, SAMPLING 에 대한 의미 생각해보기

1.9 연속형 자료의 요약

1.10 수치를 통한 연속형 자료의 요약

1.11 두 변수 자료의 요약

1.12 두 변수 자료의 요약

빅데이터에서 상관관계 파악 중요!

results matching ""

No results matching ""

통계학 : 자료의 수집과정을 설계, 자료를 요약, 해석, 결론 도출하고
일반화하는 전체적인 원리와 방법론을 제공