ARIMA Modelis: Išsamus Vadovas Su Praktiniais Pavyzdžiais ir Taikymu

Laiko eilutės yra svarbus duomenų tipas, naudojamas įvairiose srityse, nuo ekonomikos iki gamtos mokslų. Prognozavimas, kaip mašininio mokymosi šaka, naudoja praeities laiko eilutės elgseną, kad numatytų vieną ar daugiau būsimų jos reikšmių. ARIMA (Autoregressive Integrated Moving Average) modelis yra vienas iš plačiausiai naudojamų laiko eilučių prognozavimo metodų. Šis modelis integruoja autoregresinius (AR) ir slenkančiojo vidurkio (MA) modelius, leidžiantis efektyviai prognozuoti duomenis, kurie gali būti nestacionarūs ir turėti trendą.

Laiko eilutė yra matavimų seka, atlikta per tam tikrą laiko periodą. Ji gali būti stacionari arba nestacionari. Stacionari laiko eilutė pasižymi pastoviomis statistinėmis savybėmis laikui bėgant, tokiomis kaip vidurkis, dispersija ir autokoreliacija. Dauguma statistinių prognozavimo metodų, įskaitant ARIMA, remiasi prielaida, kad laiko eilutę galima padaryti maždaug stacionaria atliekant vieną ar daugiau transformacijų. Nestacionarios laiko eilutės, turinčios trendą, gali pasunkinti prognozavimą, nes trendas gali užgožti kitus duomenų dėsningumus.

Trendas yra ilgalaikis duomenų judėjimo krypties rodiklis. Jei laiko eilutė turi stabilų trendą, į kurį ji nuolat grįžta, ji gali būti trendo-stacionari, ir trendą galima pašalinti atliekant regresiją ir atimant jį iš duomenų prieš pritaikant modelį. Jei duomenys nėra trendo-stacionarūs, jie gali būti skirtumo-stacionarūs, kai trendas pašalinamas diferencijavimu. Paprasčiausias diferencijavimo būdas yra atimti ankstesnę reikšmę iš kiekvienos reikšmės, kad būtų galima išmatuoti laiko eilutės pokyčius.

Sezoniškumas yra reguliarūs ciklai, turintys įtakos laiko eilutei. Šie ciklai gali būti dienos, savaitės ar mėnesio trukmės ir padeda apibrėžti praeities duomenų dėsningumus, kurie gali būti naudojami būsimoms reikšmėms prognozuoti. ARIMA modelis gali būti pritaikytas tiek ne sezoniškiems, tiek sezoniškiems duomenims.

ARIMA modelio pagrindai

ARIMA modelio pavadinimas atspindi tris jo sudedamąsias dalis: Autoregresija (AR), Integruotas (I) ir Slenkančiojo vidurkio (MA). ARIMA modeliai yra užrašomi kaip ARIMA(p, d, q), kur:

p: Autoregresinio (AR) modelio tvarka, nurodanti, kiek ankstesnių stebėjimų bus naudojama prognozuojant.
d: Diferencijavimo (I) tvarka, nurodanti, kiek kartų duomenys turi būti diferencijuoti, kad taptų stacionarūs.
q: Slenkančiojo vidurkio (MA) modelio tvarka, nurodanti, kiek ankstesnių prognozavimo klaidų bus naudojama prognozuojant.

Autoregresinis (AR) modelis

Autoregresiniame modelyje prognozuojama kintamojo reikšmė yra tiesinė ankstesnių jo reikšmių kombinacija. Tai panašu į tiesinės regresijos modelį, kuris naudoja praeities reikšmes kaip įvestis. AR(p) modelis aprašomas lygtimi:

y_t = c + φ₁y_t-1 + ... + φ_py_t-p + ε_t

kur y_t yra laiko eilutės reikšmė laiku t, c yra konstanta, φ_i yra regresijos koeficientai, p yra modelio tvarka, o ε_t yra baltasis triukšmas (baltasis triukšmas yra atsitiktinių dydžių seka, neturinti jokios koreliacijos tarpusavyje).

Slenkančiojo vidurkio (MA) modelis

Slenkančiojo vidurkio modelyje prognozuojama kintamojo reikšmė yra tiesinė ankstesnių prognozavimo klaidų kombinacija. MA(q) modelis aprašomas lygtimi:

y_t = μ + ε_t + θ₁ε_t-1 + ... + θ_qε_t-q

kur μ yra vidurkis, θ_i yra koeficientai, q yra modelio tvarka, o ε_t yra baltasis triukšmas.

Integruotas (I) komponentas

Integruotas komponentas (d) yra naudojamas nestacionarioms laiko eilutėms paversti stacionariomis. Tai pasiekiama diferencijuojant duomenis kelis kartus. Pavyzdžiui, jei d=1, tai reiškia, kad atliekamas pirmos eilės diferencijavimas, t. y., kiekvienos reikšmės atimamas ankstesnis stebėjimas. Diferencijavimo operatorius žymimas kaip a(B) = (1-B)^d, kur B yra atgalinis poslinkio operatorius (pvz., By_t = y_t-1).

ARIMA modelio taikymas

ARIMA modelio pritaikymas apima kelis etapus:

1. Eilutės analizė ir stacionarumo įvertinimas

Pirmasis žingsnis yra laiko eilutės analizė, siekiant nustatyti jos savybes, tokias kaip stacionarumas, trendas ir sezoniškumas. Tam naudojami skirtingi metodai:

Vizualinė analizė: Laiko eilutės grafikas gali atskleisti trendą, sezoniškumą ir kitus dėsningumus.
Autokoreliacijos funkcija (ACF): ACF matuoja laiko eilutės koreliaciją su jos praeities reikšmėmis skirtingais vėlavimais (lag).
Dalinis autokoreliacijos funkcija (PACF): PACF matuoja koreliaciją tarp laiko eilutės ir jos praeities reikšmių, pašalinus tarpinių vėlavimų įtaką.
Statistiniai testai: Įvairūs testai, tokie kaip GPH (Geweke ir Porter-Hudak) testas, gali būti naudojami trupmeninio diferencijavimo parametrui d įvertinti. Didesnės nei 0 reikšmės gali rodyti trendą.

Jei laiko eilutė yra nestacionari, ji diferencijuojama d kartų, kol tampa stacionari. Diferencijavimo proceso metu gali būti sumažinamas vėlavimų skaičius, kad būtų galima efektyviau analizuoti duomenis.

Laiko eilutės grafikas su trendu ir sezoniškumu

2. Modelio identifikavimas ir parametrų vertinimas

Remiantis ACF ir PACF grafikais bei statistiniais testais, identifikuojamos tinkamiausios p ir q reikšmės. Dažnai bandoma kelis skirtingus ARIMA modelius su skirtingomis parametrų reikšmėmis.

Modelio parametrų vertinimui dažnai naudojami:

Didžiausio tikėtinumo metodas (Maximum Likelihood Estimation): Šis metodas siekia rasti tokius modelio parametrus, kurie maksimaliai padidina stebėtų duomenų tikėtinumą.
Log-tikėtinumo funkcija (Log-likelihood function): Tai kriterijus, kuris padeda pasirinkti tinkamiausią modelį, atsižvelgiant į jo sudėtingumą ir duomenų atitikimą.

Modeliai lyginami pagal informacinius kriterijus, tokius kaip AIC (Akaike Information Criterion) ir BIC (Bayesian Information Criterion). Mažesnės AIC ir BIC reikšmės rodo geresnį modelį.

ACF ir PACF grafikai laiko eilutės analizei

3. Modelio diagnostika ir patikrinimas

Įvertinus modelio parametrus, atliekama diagnostika, siekiant patikrinti modelio tinkamumą:

Liekanų analizė: Modelio liekanos (skirtumas tarp stebėtų ir prognozuotų reikšmių) turėtų būti panašios į baltąjį triukšmą - atsitiktinės, be jokios struktūros. Analizuojamos liekanų ACF ir PACF grafikai.
Ljung-Box testas: Šis testas tikrina, ar liekanos yra autokoreliuotos. Aukštos p-reikšmės rodo, kad modelis yra tinkamas.
Standartizuotų paklaidų atvaizdavimas: Šis grafikas padeda nustatyti galimus heteroskedastijos atvejus (kai paklaidų dispersija nėra pastovi).

Jei modelis nėra tinkamas, grįžtama prie ankstesnių etapų ir parenkami kiti parametrai ar modelio tipas.

4. Prognozavimas

Kai modelis yra patvirtintas kaip tinkamas, jis naudojamas būsimoms reikšmėms prognozuoti. Prognozės gali būti pateikiamos kartu su pasikliautinaisiais intervalais, kurie rodo prognozės neapibrėžtumą.

ARIMA modelio prognozė su pasikliautinaisiais intervalais

Išplėstiniai ARIMA modeliai

ARIMA modelis gali būti išplėstas, kad atitiktų sudėtingesnius laiko eilučių dėsningumus:

Sezoniškasis ARIMA (SARIMA): Šis modelis palaiko laiko eilutes su sezoniškumo komponentu. Jis prideda papildomus parametrus sezoniškumo autoregresijai, diferencijavimui ir slenkančiajam vidurkiui, taip pat sezoniškumo periodui apibrėžti.
ARFIMA (Autoregressive Fractionally Integrated Moving Average): Šis modelis leidžia naudoti trupmeninio diferencijavimo parametrus (d), kas suteikia didesnį lankstumą modeliuojant ilgalaikes priklausomybes laiko eilutėse.

ARIMA modelio paaiškinimas | Laiko eilučių prognozavimas

ARIMA modeliai yra galingas įrankis laiko eilučių analizei ir prognozavimui. Jų gebėjimas modeliuoti tiek stacionarius, tiek nestacionarius duomenis, įskaitant trendus ir sezoniškumą, daro juos nepakeičiamais įvairiose srityse.

tags: #auto #regresyvus #integruoto #slenkancio #vidurkio #modelis

ARIMA modelis: išsami analizė ir taikymas