데이터 분석/Statistics
-
피어슨 상관계수(Pearson Correlation Coefficient)란?데이터 분석/Statistics 2021. 6. 28. 17:36
피어슨 상관계수(Pearson Correlation Coefficient)는 두 연속형 변수 사이의 선형관계의 강도와 방향을 조사하기 위해서 계량화한 상관분석 방법으로 Pearson상관계수를 사용한다 1일수록 한 변수가 증가하면 다른 변수도 증가하는 완전한 양의 선형관계를 나타내며 0에 가까운 상관 값은 선형관계가 없고 -1일수록 한 변수가 증가할수록 다른 변수가 감소하는 강한 음의 상관관계를 나타낸다 두 변수간의 식은 공분산을 각각의 표준 편차의 곱으로 나눈 값이다. 아래 대파 공공 데이터의 평균 거래가격과 한달전 평균 최저기온과는 음의 상관관계로 대파 평균 가격이 증가할수록 평균 최저기온은 감소하는 것을 알 수 있다. 하지만 상관분석이므로 서로 영향을 미쳤다는 인과관계가 있는 것으로 볼 수는 없다.
-
Boxplot, '상자 수염 그림'(Box-and-Whisker Plot), 상자그림, 설명 해석데이터 분석/Statistics 2021. 6. 28. 17:24
데이터를 분석하다보면 종종 boxplot 도표를 보게 된다. 상자수염그림이라고도 부르는 boxplot 을 어떻게 해석하는지 알아보려고 한다. 빅데이터를 다루다보면 데이터가 전체적으로 어떻게 분포하는지, 4분위 값과 이상치 등을 한눈에 알아보기 위해 boxplot 시각화할 때가 있다. 다음의 상자그림을 보면 최댓값, 최솟값과 4분위 값 (75%, 50%(중앙값), 25%), 최솟값을 확인할 수 있다. oulier에 위치한 x는 MinMax 범위를 넘어서는 이상치다. 실제로 대파의 2020년 1~3월과 2021년 1~3월 거래가격을 boxplot 시각화하면 2020년도 대파의 거래가는 이상치가 많고 MinMax범위가 2021년에 비해 매우 좁음을 알 수 있다. 2021년 거래가격의 중앙값은 75%에 위치한 ..