지난 시간 복습

EDA란 그림! 분석의 단계

  • 탐색적 자료 분석이라고 불린다.
  • 데이터가 가진 정보를 탐색만으로 얻는 방법이다.
  • 여러가지 방법을 통해 정보를 유추한다.
  • 다양한 시도 를 해야 한다
  • 데이터의 패턴이나 규칙 파악해야 한다.

자료의 분류

범주형 자료의 요약

  • 범주형 자료의 요약
  • 범주의 종류와 횟수를 요약한다.
  • 범주형 자료의 종류

    • 도수분포표 : 범주와 그 범주에 대응하는 도수와 상대도수를 나열한 표

      • 실습. 화장지 불량종류에 대해서 도수와 상대도수를 구함.
    • 원형그래프 : 상대도수에 비례하여 중심각을 나누어 조각을 나눈 것

      • 실습. 혈액형에 대한 원형 그래프
    • 막대그래프 : 범주에 대하여 도수의 크기만큼 막대를 그린 그래프
    • 파레토그림 : 막대그래프와 상대도수를 합쳐서 그려주는 것
      • 실습. 파레토 그림 - 혈액형
  • 연속형 자료의 요약

    • 수치 자료가 연속적인 척도로 관측된 자료
  • 연속형 자료의 종류

    • 점도표 : 적은 데이터에서는 유용
    • 도수분포표
    • 히스토그램 : 각 계급에 대하여 범주형 자료에서의 막대그래프와 같은 모양의 그림
      • 전체 면적은 1이됨.
      • 데이터 값의 범위를 알 수 있음, 빈도의 집중영역을 알 수 있음, 대칭성을 알 수 있음
    • 줄기 잎 그림 : 자료의 분포를 시각적으로 쉽게 파악하면서 각 관측값을 유지하는 방법
  • 이산형 자료의 요약

    • 관측값의 종류가 적은 경우 : 범주형 자료의 요약 방법 사용
    • 관측값의 종류가 많은 경우 : 연속형 자료의 요약 방법 사용

수치 요약

  • 중심 위치의 측도

    • 평균 : 극단값에 영향을 많이 받음 중앙값 : 식에 활용하기가 힘듬
  • 퍼진 정도의 측도

    • 분산과 표준편차 : 관측값이 자료의 중심위치로부터 떨어진 정도를 고려함.
    • 편차의 합은 0이 되어서 제곱해줌.
  • 사분위수

    • 사분위수 : 전체 관측값을 작은 순서로 배열했을 때 전체를 사등분하는 값
    • 제 1 사분위수(Q1) = 제 25 백분위수
    • 제 2 사분위수(Q2) = 제 50 백분위수 = 중앙값
    • 제 3 사분위수(Q3) = 제 75 백분위수
    • 사분위수의 범위(IQR) = Q3 -Q1
  • 상자그림

    • 상자그림 : 자료로부터 얻은 다섯 가지 요약수치인 최솟값, Q1,Q2,Q3,최댓값을 가지고 그림을 그린 것

      1. 사분위수(Q1, Q2, Q3)를 결정한다.

      2. Q1과 Q3을 네모난 상자로 연결하고 ,중앙값(Q2)의 위치에 수직선을 긋는다.

      3. IQR=Q3−Q1을 계산한다.
      4. 상자 양끝에서 1.5×IQR 크기의 범위를 경계로 하여, 이 범위에 포함되는 최솟값과 최댓값을 Q1과 Q3으로부터 각각 선으로 연결한다.
      5. 양 경계를 벗어나는 자료값들을 *로 표시하고 ,이 점들을 이상점이라고 한다.
        • 실습 - 집 값

두 변수 자료의 요약

  • 변수의 정의
    • 자연 및 사회현상의 여러가지 요인 : 변수
    • 영향을 받는 변수(y) : 반응변수, 종속변수
    • 영향을 주는 변수(x) : 설명변수, 독립변수
  • 상관계수

    • 산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는 데 쓰이는 측도

    -피어슨의 표본상관계수 참고

    • 상관계수의 특징
      • -−1≤𝑟≤1 -표본상관계수의 절대값의 크기는 직선관계에 가까운 정도를 나타내며 부호는 직선관계의 방향을 나타냄
      • 절대값이 1에 가까울수록 직선에 가깝게 몰려있으며 0에 가까울수록 직선의 관계가 매우 약함
      • 산점도와 함께 보는 것이 올바름
      • 상관계수 값이 항상 두 변수 사이의 어떤 인과관계를 의미하지 않음
  • 실습 - 국민청원 데이터로 EDA해보기

확률분포

  • 통계학과 확률
    • 통계는 표본을 바탕으로 모집단을 추론하는 것. 확률이 있어야 의미가 생김
    • 확률 : 근원사건들이 일어날 가능성이 모두 같을 때, 사건이 일어날 확률
    • 확률의 특징
      • 확률은 0~1의 값을 갖는다
      • 모든 사건에 대한 확률의 합은 1이다
    • 확률변수(X) : 표본공간에서 정의된 실수로의 함수
    • 이산 확률변수 : 독립적으로 발생하는 사건에 대한 확률변수
    • 연속 확률변수 : 발생하는 각 사건을 단일한 독립사건으로 구분하기에 경우의 수가 매우 많아 범위로 표현되는 확률변수
  • 정규분포

    • 키, 몸무게, 강수량 등의 자연현상이나 사회현상과 관련된 자료의 확률밀도함수의 그래프들은 대부분 정규분포를 따름
    • 정규분포는 평균을 중심으로 좌우 대칭인 종 모양의 곡선을 띔
    • 평균, 분산만으로 특성을 모두 설명할 수 있음
    • 정규분포의 특징
      • 평균 = 최빈값 = 중앙값
      • 평균을 중심으로 좌우대칭
      • 확률이 μ를 중심으로 ±3σ 안에 거의 집중되어있음
      • μ: 분포의 중심을 나타내는 위치 모수(평균)
      • σ : 평균으로부터 퍼져 있는 정도를 나타내는 모수(표준편차)
  • 표준정규분포

    • 정규분포에서는 평균과 표준편차에 따라 특정 영역의 넓이가 달라 두 그룹의 비교를 위해서 하나의 기준으로 재배치가 필요함
    • 표준정규분포 : 평균이 0이고 분산이 1인 정규분포 N(0,1)
    • 실습 - 표준정규분포 읽어보기
  • 표집분포
    • 통계적 추론 : 표본을 통해 모집단을 예측하기 위해 연결고리가 필요
    • 모수 : 모집단으로부터 계산된 값
    • 통계량 : 표본으로부터 계산된 모든 값
    • 표본평균들의 평균은 모평균과 같아짐
    • 표본평균들의 분산은 모분산/표본의 크기와 같음

results matching ""

    No results matching ""