ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Boxplot, '상자 수염 그림'(Box-and-Whisker Plot), 상자그림, 설명 해석
    데이터 분석/Statistics 2021. 6. 28. 17:24

    데이터를 분석하다보면 종종 boxplot 도표를 보게 된다. 

    상자수염그림이라고도 부르는 boxplot 을 어떻게 해석하는지 알아보려고 한다.

    빅데이터를 다루다보면 데이터가 전체적으로 어떻게 분포하는지, 4분위 값과 이상치 등을 한눈에 알아보기 위해 boxplot 시각화할 때가 있다.

     

    다음의 상자그림을 보면 최댓값, 최솟값과 4분위 값 (75%, 50%(중앙값), 25%), 최솟값을 확인할 수 있다.

    oulier에 위치한 x는 MinMax 범위를 넘어서는 이상치다.

     

    출처: http://www.scielo.org.mx

    실제로 대파의 2020년 1~3월과 2021년 1~3월 거래가격을 boxplot 시각화하면 2020년도 대파의 거래가는 이상치가 많고 MinMax범위가 2021년에 비해 매우 좁음을 알 수 있다. 2021년 거래가격의 중앙값은 75%에 위치한 값보다 25%에 위치한 값과 더 가깝다. 

    대파 공공 데이터 2020 1~3월 vs 2021 1~3월 거래가격 데이터 분포 

    반응형
Designed by Tistory.