전체 글
-
파이차트, pie chart ValueError: 'label' must be of length 'x'카테고리 없음 2021. 7. 9. 13:16
수입차 bmw 판매 데이터를 가공하여 모델별 점유율을 데이터 시각화하려고 했다. 데이터프레임을 파이차트로 시각화하려는데 데이터를 맞게 넣었는데도 자꾸 오류가 발생한다 ValueError: 'label' must be of length 'x' 아무리 검색해도 답이 나오지 않아서 골머리 썩다가 알고봤더니 원 데이터프레임에 넣고자했던 칼럼 수와 labels 갯수가 서로 일치하지 않아서였다. labels에 모델을 맞게 입력했는데 ',' 콤마를 빼먹어서 생긴일 ㅜㅜㅜㅜ 맞게 작성했더니 파이 차트가 잘 시각화됐다.
-
피어슨 상관계수(Pearson Correlation Coefficient)란?데이터 분석/Statistics 2021. 6. 28. 17:36
피어슨 상관계수(Pearson Correlation Coefficient)는 두 연속형 변수 사이의 선형관계의 강도와 방향을 조사하기 위해서 계량화한 상관분석 방법으로 Pearson상관계수를 사용한다 1일수록 한 변수가 증가하면 다른 변수도 증가하는 완전한 양의 선형관계를 나타내며 0에 가까운 상관 값은 선형관계가 없고 -1일수록 한 변수가 증가할수록 다른 변수가 감소하는 강한 음의 상관관계를 나타낸다 두 변수간의 식은 공분산을 각각의 표준 편차의 곱으로 나눈 값이다. 아래 대파 공공 데이터의 평균 거래가격과 한달전 평균 최저기온과는 음의 상관관계로 대파 평균 가격이 증가할수록 평균 최저기온은 감소하는 것을 알 수 있다. 하지만 상관분석이므로 서로 영향을 미쳤다는 인과관계가 있는 것으로 볼 수는 없다.
-
Boxplot, '상자 수염 그림'(Box-and-Whisker Plot), 상자그림, 설명 해석데이터 분석/Statistics 2021. 6. 28. 17:24
데이터를 분석하다보면 종종 boxplot 도표를 보게 된다. 상자수염그림이라고도 부르는 boxplot 을 어떻게 해석하는지 알아보려고 한다. 빅데이터를 다루다보면 데이터가 전체적으로 어떻게 분포하는지, 4분위 값과 이상치 등을 한눈에 알아보기 위해 boxplot 시각화할 때가 있다. 다음의 상자그림을 보면 최댓값, 최솟값과 4분위 값 (75%, 50%(중앙값), 25%), 최솟값을 확인할 수 있다. oulier에 위치한 x는 MinMax 범위를 넘어서는 이상치다. 실제로 대파의 2020년 1~3월과 2021년 1~3월 거래가격을 boxplot 시각화하면 2020년도 대파의 거래가는 이상치가 많고 MinMax범위가 2021년에 비해 매우 좁음을 알 수 있다. 2021년 거래가격의 중앙값은 75%에 위치한 ..
-
계절요소 추가한 시계열 선형 모델 SARIMAX 파이썬 (python)데이터 분석/MachineLearning 2021. 5. 31. 22:18
SARIMAX는 ARIMA와 함께 시계열 데이터 분석할 때 사용하는 모델이다. 기존의 ARIMAX 모형에서 계절성 패턴을 추가한 모델로 SARIMAX의 X는 외부 변수를 나타내는 eXogeneous의 줄임말로 학습과 예측에 포함시킬 수 있다 from statsmodels.tsa.statespace.sarimax import SARIMAX 주요파라미터 Parameter Description endog 관측된 시계열 데이터 exog 외부 변수 데이터 order ARIMA의 p, d, q seasonal_order SARIMA의 seasonal component (P, D, Q)s enforce_stationary AR항이 stationary를 띠게 함 (default=TRUE) enforce_invertib..
-
ARIMA 모형 알고리즘(시계열 데이터 분석), python 파이썬데이터 분석/MachineLearning 2021. 5. 30. 20:23
데이콘 funda 상점 매출 예측 분석 실습을 하던 중 ARIMA 시계열 데이터를 분석하여 매출을 예측하는 것을 연습해보았다. 해당 모형은 추천 시스템, 주가, 비트코인, 금값 등 금융 데이터 시세를 예측하는 방법에 많이 사용된다. ARIMA에 대해서 자세히 공부해보자. ARIMA(p, d, q) 모델이란? ARMA모델에 차분 과정 추가 AR-> Autoregressive-AR(p) 자기회귀 t 시점의 데이터와 이전 시점(t-p; lagged p)의 데이터 사이의 관계에 대한 회귀 모델(regression model) Integrated - I(d) 차분 (Difference) 미적분에서의 개념, 임의 두 점에서의 함수 값들의 차이 - 차분 : f(xi+Δx) - f(xi) 또는 fk+1 - fk ex)..
-
단순/다항/다중 회귀분석 개념 및 차이데이터 분석/Python 2021. 5. 16. 23:01
상관분석이 단순이 두 변수 간 관련성을 파악하는 것이라면 회귀분석인 두 요인 간에 미치는 영향을 알 수 있다. 단순 회귀분석은 두 변수 간의 관계를 직선 형태로 설명하는 알고리즘이며, 다항 회귀분석은 2차함수를 이용하여 보다 복잡한 곡선 형태의 회귀선을 표현할 수 있다 단순/다항 회귀분석이 종속 변수 Y에 영향을 주는 독립변수 X가 하나인 경우라면, 다중 회귀분석은 여러 개의 독립 변수가 종속 변수에 영향을 주고 선형관계를 갖는 경우이다. 한 개 이외의 다양한 다른 요인이 있을 수 있기 때문이다. 모형의 예측값인 종속 변수에 대한 실제 데이터를 알고 있는 상태에서 학습하기 때문에 지도학습으로 분류된다. github 연습 참고 : https://github.com/Areum120/DataAnalysis_P..
-
분류 알고리즘 - 로지스틱 회귀분석데이터 분석/MachineLearning 2021. 5. 16. 22:49
로지스틱 회귀는 종속변수(Y)에 로짓 변환을 실시하여 로지스틱 회귀분석이라고 한다. 위 로지스틱 모형식은 독립변수(X)의 값에 관계 없이 종속변수(Y)의 값이 항상 0 - 1 사이에 있도록 한다. 결과가 이진형 변수(0 or 1) 라는 것을 빼면 다중선형회귀와 마찬가지로 독립변수와 종속변수를 선형관계로 가정한다. 종속변수(Y)의 결과가 범주형으로 분류 분석에 해당되는 지도 학습 유형 알고리즘이다. 즉, 연속형 자료(또는 범주형 자료)가 범주형 자료에 미치는 영향을 분류한다. 예) 타이타닉 생존자 예측 -> 나이, fare, pclass이 생존 여부(종속변수)에 미치는 영향 성별, 탑승등급 같은 종속변수도 -> 숫자로 바꿔서 로지스틱 회귀 분석이 가능하다. 분류 알고리즘 모형은 KNN, SVM, Decis..