데이터 분석/MachineLearning
-
계절요소 추가한 시계열 선형 모델 SARIMAX 파이썬 (python)데이터 분석/MachineLearning 2021. 5. 31. 22:18
SARIMAX는 ARIMA와 함께 시계열 데이터 분석할 때 사용하는 모델이다. 기존의 ARIMAX 모형에서 계절성 패턴을 추가한 모델로 SARIMAX의 X는 외부 변수를 나타내는 eXogeneous의 줄임말로 학습과 예측에 포함시킬 수 있다 from statsmodels.tsa.statespace.sarimax import SARIMAX 주요파라미터 Parameter Description endog 관측된 시계열 데이터 exog 외부 변수 데이터 order ARIMA의 p, d, q seasonal_order SARIMA의 seasonal component (P, D, Q)s enforce_stationary AR항이 stationary를 띠게 함 (default=TRUE) enforce_invertib..
-
ARIMA 모형 알고리즘(시계열 데이터 분석), python 파이썬데이터 분석/MachineLearning 2021. 5. 30. 20:23
데이콘 funda 상점 매출 예측 분석 실습을 하던 중 ARIMA 시계열 데이터를 분석하여 매출을 예측하는 것을 연습해보았다. 해당 모형은 추천 시스템, 주가, 비트코인, 금값 등 금융 데이터 시세를 예측하는 방법에 많이 사용된다. ARIMA에 대해서 자세히 공부해보자. ARIMA(p, d, q) 모델이란? ARMA모델에 차분 과정 추가 AR-> Autoregressive-AR(p) 자기회귀 t 시점의 데이터와 이전 시점(t-p; lagged p)의 데이터 사이의 관계에 대한 회귀 모델(regression model) Integrated - I(d) 차분 (Difference) 미적분에서의 개념, 임의 두 점에서의 함수 값들의 차이 - 차분 : f(xi+Δx) - f(xi) 또는 fk+1 - fk ex)..
-
분류 알고리즘 - 로지스틱 회귀분석데이터 분석/MachineLearning 2021. 5. 16. 22:49
로지스틱 회귀는 종속변수(Y)에 로짓 변환을 실시하여 로지스틱 회귀분석이라고 한다. 위 로지스틱 모형식은 독립변수(X)의 값에 관계 없이 종속변수(Y)의 값이 항상 0 - 1 사이에 있도록 한다. 결과가 이진형 변수(0 or 1) 라는 것을 빼면 다중선형회귀와 마찬가지로 독립변수와 종속변수를 선형관계로 가정한다. 종속변수(Y)의 결과가 범주형으로 분류 분석에 해당되는 지도 학습 유형 알고리즘이다. 즉, 연속형 자료(또는 범주형 자료)가 범주형 자료에 미치는 영향을 분류한다. 예) 타이타닉 생존자 예측 -> 나이, fare, pclass이 생존 여부(종속변수)에 미치는 영향 성별, 탑승등급 같은 종속변수도 -> 숫자로 바꿔서 로지스틱 회귀 분석이 가능하다. 분류 알고리즘 모형은 KNN, SVM, Decis..