데이터 분석/Statistics

Boxplot, '상자 수염 그림'(Box-and-Whisker Plot), 상자그림, 설명 해석

catloaf 2021. 6. 28. 17:24

데이터를 분석하다보면 종종 boxplot 도표를 보게 된다. 

상자수염그림이라고도 부르는 boxplot 을 어떻게 해석하는지 알아보려고 한다.

빅데이터를 다루다보면 데이터가 전체적으로 어떻게 분포하는지, 4분위 값과 이상치 등을 한눈에 알아보기 위해 boxplot 시각화할 때가 있다.

 

다음의 상자그림을 보면 최댓값, 최솟값과 4분위 값 (75%, 50%(중앙값), 25%), 최솟값을 확인할 수 있다.

oulier에 위치한 x는 MinMax 범위를 넘어서는 이상치다.

 

출처: http://www.scielo.org.mx

실제로 대파의 2020년 1~3월과 2021년 1~3월 거래가격을 boxplot 시각화하면 2020년도 대파의 거래가는 이상치가 많고 MinMax범위가 2021년에 비해 매우 좁음을 알 수 있다. 2021년 거래가격의 중앙값은 75%에 위치한 값보다 25%에 위치한 값과 더 가깝다. 

대파 공공 데이터 2020 1~3월 vs 2021 1~3월 거래가격 데이터 분포 

반응형
댓글수0