ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ARIMA 모형 알고리즘(시계열 데이터 분석), python 파이썬
    데이터 분석/MachineLearning 2021. 5. 30. 20:23

     

    데이콘 funda 상점 매출 예측 분석 실습을 하던 중 ARIMA 시계열 데이터를 분석하여 매출을 예측하는 것을 연습해보았다. 해당 모형은 추천 시스템, 주가, 비트코인, 금값 등 금융 데이터 시세를 예측하는 방법에 많이 사용된다.

     

     

    ARIMA에 대해서 자세히 공부해보자.



    ARIMA(p, d, q) 모델이란?


    ARMA모델에 차분 과정 추가

    AR-> Autoregressive-AR(p) 자기회귀
    t 시점의 데이터와 이전 시점(t-p; lagged p)의 데이터 사이의 관계에 대한 회귀 모델(regression model)

    출처: 시계열 데이터분석 6 : ARIMA 모델 실습 https://www.youtube.com/watch?v=p6VnS6_IxuQ&t=2793s 

    Integrated - I(d) 

    차분 (Difference) 
    미적분에서의 개념, 임의 두 점에서의 함수 값들의 차이
    - 차분 : f(xi+Δx) - f(xi) 또는 fk+1 - fk

    ex) 원 데이터의 Time2-Time1 => 1차 차분 값


    MA - Moving Average (q) 이동모형
    t 시점의 데이터 이전 시점의 (t-q) moving average의 residual에 대한 회귀

    출처: 시계열 데이터분석 6 : ARIMA 모델 실습 https://www.youtube.com/watch?v=p6VnS6_IxuQ&t=2793s 


    즉, 시계열 데이터를 d회 차분하고 결과값은 과거 p개 관측값과 q개 오차에 의해 예측되는 모델
    결과값은 비차분화 과정을 거쳐 최종 예측값으로 변화

     

     




    ARIMA 모델링 하는 법

    1. 시계열 데이터의 정산성(stationary) 평가

    정산성(stationary)이란?
    연속되는 숫자들의 평균, 분산, 공분산이 시간에 따라 변하지 않는 것(time invariant)
    ARIMA 모델은 시계열 데이터가 stationary 특성을 보일 때 효과적이므로 
    데이터가 stationary 특성을 보이는지 확인할 수 있어야 함.

    2. Differencing
    시계열 데이터가 정산성을 보이지 않는 다면(Non-Stationary) 초기 차분(differencing)작업을 (integrated) 한 번 이상 적용해서 데이터를 stationary하게 만드는 단계가 필요함.


    ->정산성 평가 후 충족하지 못할 경우 차분과정을 통해 정산성 있는 시계열로 만듬
    ->1년 주기의 seasonality를 갖는 월간 데이터에 대해 differencing할 때, differencing시간 단위는 1이 아닌 12로 하게 됨

    2. 예측모델 생성
    3. 예측 모델 평가와 예측

     

     

    ARIMA모델 실습 참고 영상

    https://www.youtube.com/watch?v=p6VnS6_IxuQ&t=2793s 

     

    반응형
Designed by Tistory.