통계

통계학 : 자료의 수집과정을 설계, 자료를 요약, 해석, 결론 도출하고
일반화하는 전체적인 원리와 방법론을 제공


1.1 통계 기본 용어

  • 모집단(population) : 관심의 대상이 되는 모든 객체의 특성을 나타내는 관측값이나 측정값의 전체 집합
  • 추출단위(sampling unit) : 전체를 구성하는 각 개체들
  • 특성값(characteristi) : 각 추출단위의 특성을 나타내는 값
  • 표본(sample) : 통계적 분석을 위해 실제로 뽑힌 추출단위들의 집합
    • (모집단은 규모가 크기 때문에 조사에 시간적, 공간적 제약이 따름 -> 표본을 통해 데이터 수집)
  • 관찰값(observed values) : 표본의 특성값, 관찰된 측정값
  • 모수(parameter) : 모집단의 특성을 나타내는 양적인 측도.(고유의 상수)
  • 통계량(statistic) : 표본에 대한 특성 나타내는 양적인 측도.(표본을 통해 모집단의 특성 추론해야 함)

ex) 투표율

  • 모집단 : 투표권이 있는 사람
  • 모수 : 모집단의 특성을 나타내줌
  • 표본 : 나이, 성별, 지역 등 특정 기준으로 나눈 객체
  • 통계량 : 표본에 대한 특성 나타내줌

1.2 통계학을 활용하는 목적

: 불확실성의 해소 / 예측 / 의사결정 / 연관성 파악 / 요약 / 보편성 부여

  • 빅 데이터(수 많은 데이터) 중 의미가 있는 부분을 선별해 유의성을 찾아낼 수 있는 '도구' 로서 "통계학" 활용

1.3 통계의 한계

  • 표본에서 결과 얻기 때문에 정확한 결과 내기 어려움
  • 확률이 없으면 의미 없다.
  • 항상 틀릴 가능성을 내포함
    • 평균을 예측하기보다는 평균을 예측할 수 있는 신뢰구간이 중요!

ex) 문재인 투표율 30%

  1. 금천구 25%~35%
  2. 구로구 28%~32%
    ...
    신뢰구간 100개 구했을 때 30%를 포함할 확률이 95% => 신뢰구간 95%
    100% 신뢰구간은 지양(표본이 너무 크기 때문에)

빅데이터 시대, 모집단을 다 가지고 있는 것이 좋은 것일까?

1.4 차원의 저주(Curse of Dimension)

: 변수가 증가하면 그것을 표현하기 위한 데이터 양(같은 비율의 공간)이 기하급수적으로 증가
1) 차원의 저주

  • 차원이 증가할수록 데이터의 밀도는 급속도로 희박(sparse)해짐
  • 전체 공간에 있는 변수 양 동일, 우리가 찾고자 하는 공간에 있는 데이터의 양이 줄어든다.
  • 일정 차원을 넘으면 분류기의 성능 떨어짐 -> overfitting
    • overfitting : 많은 연산이 쌓이면서 오차가 증가한다. 예측력이 낮다.

ex) 1차원 20% - 각 변수 20%
2차원 20% - 각 변수 45%
3차원 20 % - 각 변수 58%
차원에 따른 변수의 할당량이 다름 : 변수가 늘어나면 데이터공간을 채우는 비율(%)이 줄어들기 때문에 변수가 많아질 수록 분석에 요구되는 데이터 건수도 증가

2) 변수가 많을 때 줄이는 법 (분석가의 몫!)

  • missing 비율이 큰 변수 지우기
  • 현업과 상의해서 변수 제거 (도메인이 중요! 최적의 방법)
  • PCA
  • lasso

1.5 데이터 분석 도구 : Python / R / EXCEL

  • python : 다양한 데이터 분석 라이브러리 존재, 오픈소스, 프로그래밍 실력이 분석의 질을 크게 좌우
  • R : 통계분석을 목적으로 만들어진 언어, 다양한 통계 관련 라이브러리 존재
  • EXCEL : 사용하기엔 쉽지만 대용량 데이터 다루기에는 부적절,
    add-in 프로그램 통해 다양한 데이터 편집 및 고급 분석 가능(구글 드라이브 스프레드시트 add-on)
  • 엑셀
함수
중앙값 MEDIAN(범위)
분산 VAR(범위)
표준편차 STDEV(범위)
상관계수 CORREL(범위)


1.6 데이터 분석 프로세스

  • SEMMA : 솔루션 업체인 SAS사 주도로 만들어진 방법론

    • Sample : 샘플 선택
    • Explore(*) : 데이터 변수
    • Modify : 유의미한 변수 찾기, 변수 변환, 파생변수 생성
    • Model : 통계 모델
    • Assess : 모델링 작동 평가
  • EDA : Exploratory Data Analysis, 탐색적 자료 분석

    • 분석의 시작은 그림!
    • 데이터가 가진 정보를 데이터의 탐색만으로 얻는 방법.
    • 데이터로부터 정보 얻기 위해 다양한 시도가 필수!
    • EDA를 통해 데이터의 패턴, 규칙 파악

1.7 자료의 분류

  • 수치형 변수(Numerical Variable)
    • 연속형 변수(Continous Variable) : 키, 몸무게, 온도, 거리 (정확한 값X, 연속적 수)
    • 이산형 변수(Discrete Variable) : 수강생 수, 카페의 개수 (정확한 숫자로 이루어진 값)
  • 범주형 변수(Categorial Variable)
    • 명목형 변수(Nominal Variable) : 혈액형, 성별, 통신사
    • 순위형 변수(Ordinal Variable) : 학년, 등급, 설문지 척도
수치형 변수 범주형 변수
연속형 변수 명목형 변수
이산형 변수 순위형 변수


1.8 범주형 자료의 요약

: 도수분포표, 원형 그래프, 막대그래프, 파레토 그림
: 각 범주의 개수 세어서 요약, 전체에서 범주의 비율 파악

  • 도수분포표 : 범주와 그 범주에 대응하는 도수와 상대도수를 나열한 표. 전체 자료의 개요 파악하기 쉬움.

    • 도수(frequency) : 각 범주에 속하는 관측값의 개수
    • 상대도수(relative frequency) : 도수를 자료 전체의 개수로 나눈 비율
    • (상대도수의 합은 항상 1)
  • 원형그래프(Pie Chart) : 중심각을 상대도수에 비례하여 조각으로 나눔.

    • 전체에서 범주의 개수, 각 범주의 차지 비율 파악하기 쉬움.
    • 도수 크기 차이 파악하기엔 어려움
  • 막대그래프 : 각 범주를 도수의 크기만큼 막대로 그린 그래프

    • 각 범주 간의 도수 비교하는데 쉬움.
    • 도수와 상대도수 중 어느 것을 이용해도 그림의 모양 같음.
  • 파레토그림 : 상대도수의 크기가 큰 순서로 범주를 왼쪽 부터 오른쪽으로 나열한 막대그래프

    • 상대도수가 증가하는 정도와 큰 도수의 범주들이 차지하는 비율 쉽게 파악 가능
    • 순위형 자료와 같이 범주의 순서가 의미있는 자료에서는 사용하지 않음.

<쉬어가기> '빅데이터'의 등장? 기술의 차이x 환경과 조직의 인식의 차이! (데이터분석과 의사결정을 보다 더 가깝게)
서버기술의 발전으로 기존의 데이터 분석을 보다 빠르게(real-time), 시각화가 가능해 졌다.
빅데이터-데이터사이언스 : 작은 샘플링이라도 유의미한 인사이트 도출하기 위한 사회적 분위기에 편승됨.
과거엔 본질 < 키워드, 하지만 본질에 집중해야 함!

prediction forecast
예측 전망
상관관계 인과관계
구체적,명시적 확률적 진술
7월2일 오전 10시에 데잇걸스 수업을 받고 있을 것이다 다음주에 데잇걸스 수업을 갈 확률은 30%다.

빅데이터 & FUTURE PREDICTION
Forecast와 Prediction 중 Prediction에 가깝다.
즉, '과거'의 패턴을 '통계'기법으로 분석 -> '미래'를 제시


DATA, PREDICTION, STATISTICS, SAMPLING 에 대한 의미 생각해보기


1.9 연속형 자료의 요약

  • 연속형 자료의 요약 : 점도표, 도수분포표, 히스토그램, 도수다각형, 줄기-잎 그림
    • (수치 자료가 연속적인 척도로 관측된 자료)

1) 점도표 : 눈금을 표시한 수평선에 각 관측값에 해당되는 위치에 점 찍어 표시

  • 관측값의 개수가 상대적으로 적은 경우에 이용 (20~25 이하) 2) 도수분포표 : 모든 관측값을 포함하는 범위를 몇 개의 구간으로 나누어 작성
  • 계급(class) : 나뉘어진 각 부분
  • 계급구간(class interval) : 각 계급에 포함되는 값의 범위
  • 계급구간의 폭 : 각 계급구간의 크기 (계급 구간의 폭에 따라 그림이 달라짐) 3) 히스토그램(중요*) : 범주형 자료의 막대그래프와 유사하지만 붙어있는 막대 그래프
  • 전체 면적 1
  • 데이터 값의 범위와 빈도의 집중영역, 대칭성을 알 수 있음. 4) 줄기-잎 그림 : 자료의 분포 시각적으로 쉽게 파악하면서 각 관측값 유지하는 방법. 5) 이산형 자료의 요약
  • 관측값의 종류가 적은 경우 : 범주형 자료를 요약하는 방법 사용
  • 관측값이 종류가 많은 경우 : 연속형 자료를 요약하는 방법 사용

1.10 수치를 통한 연속형 자료의 요약

  • 중심위치의 측도 : 평균, 중앙값
  • 퍼진정도의 측도 : 분산, 표준편차, 사분위수

  • 중심위치의 측도

    • 평균 : 중심 위치의 측도 중 가장 많이 사용, 극단적인 값에 영향을 많이 받음.
    • 중앙값 : 전체 관측값을 크기 순서로 배열하였을 때 가운데 위치하는 값
    • 자료의 개수가 홀수 : ((n+1))/2 번째 측도
    • 자료의 개수가 짝수 : 2/n 번째 관측값과 (n/2)+1번째 관측값 사이의 평균
  • 퍼진정도의 측도

    • 분산과 표준편차 : 관측값이 자료의 중심위치로부터 떨어진 정도 고려함.
    • 편차(deviation) : 각 관측값과 평균의 차이 (x1-평균, x2-평균...)
    • 표본분산(sample variance) : 편차의 제곱합을 n-1로 나눈 값 (s^2)
    • 표본표준편차 : 표본분산의 양의 제곱근 (단위가 맞춰짐)

      ex) 변수 키 단위 cm^2, cm

  • 사분위수(quartile) : 전체 관측값을 작은 순서로 배열하였을 때 전체를 사등분하는 값

    • (제1사분위수 : Q1, 제 2사분위수 : 중앙값...)
  • 사분위수 범위 : 사분위수의 거리

  • 상자그림 boxplot : 두 그룹 비교에 용이

1.11 두 변수 자료의 요약

  • 변수(variable) : 자연 및 사회 현상의 여러가지 요인
    • 영향을 받는 변수(y) : 반응변수, 종속변수
    • 영향을 주는 변수(x) : 설명변수(y를 설명), 독립변수
  • 변수들 간의 관계 그림 보기
종속 변수(Y) 설명 변수(X) 그림 종류
연속형 연속형 산점도
범주형 범주형 모자이크 플랏
범주형 연속형 박스 플랏

1.12 두 변수 자료의 요약

  • 상관계수

    • 정의 : 산점도에서 점들이 얼마나 직선에 가까운가의 정도를나타내는 데 쓰이는 측도

    • 상관계수의 특징

    • -1 <= r <=1 표본상관계수(r)의 절대값의 크기 : '직선'관계에 가까운 정도를 표현 표본상관계수(r)의 부호 : 직선관계(그래프)의 방향을 표현

      절대값이 1에 가까울수록 직선에 가깝게 몰려있고 0에 가까울 수록 직선의 관계가 약하다

    • 상관관계 vs. 인과관계

      • 상관계수 값이 항상 두 변수 사이의 어떤 인과관계를 의미하지 않는다.

      ex) x = 살인사건의 발생건수 , y = 종교집회의 횟수 가정 x, y 가 +1 에 가까운 상관관계 => 직접적인 원인과 결과의 관계? X
      왜냐하면 , 제3의 요소(ex. 도시주민수 잠재변수)가 무시 되었기 때문
      --> x, y 의 높은 상관계수는 '주민의 수'에 따른 결과 (O)

         x, y 는 서로 원인과 결과의 관계를 가진다(X)<br>
      

빅데이터에서 상관관계 파악 중요!

results matching ""

    No results matching ""