Type a search term to find related articles by LIMS subject matter experts gathered from the most trusted and dynamic collaboration tools in the laboratory informatics industry.
L'analisi delle serie storiche raggruppa una serie di metodi statistici atti a indagare una serie storica, determinare il processo alla base della stessa e a trarre previsioni. Secondo l'approccio tradizionale, si assume che il processo abbia una parte deterministica, che consente di scomporlo in componenti tendenziali, cicliche e/o stagionali, e che la differenza tra i dati teorici del modello deterministico ed i dati osservati sia attribuibile ad una componente casuale residuale. Secondo l'approccio moderno, invece, si assume che il processo descritto sia stato generato da un processo stocastico descrivibile mediante un modello probabilistico di tipo parametrico.
L'analisi di una serie storica può avere diversi obiettivi:
Prima di qualsiasi analisi, si esaminano i dati grezzi e si apportano spesso alcuni aggiustamenti per depurare i dati da discontinuità o dagli effetti della diversa durata degli intervalli o periodi di tempo considerati, oppure per tenere conto di valori anomali.
Alcuni esempi di discontinuità sono i cambiamenti di base nelle serie storiche di numeri indice, oppure la presenza di metriche diverse per le variabili economiche (prezzi correnti o costanti, diversi criteri di deflazione ecc.).
In tali casi, se non si riesce ad eliminare la discontinuità può essere preferibile limitare l'analisi a dati omogenei.
La diversa durata dei periodi incide sui valori osservati nei medesimi periodi di anni diversi, producendo variazioni non ascrivibili all'andamento del fenomeno; ad esempio, in serie mensili di dati di produzione, le variazioni nei dati grezzi dipendono in parte solo dal numero dei giorni lavorativi nei diversi mesi. Si possono eliminare tali perturbazioni in vari modi:
Si possono distinguere due categorie di valori anomali (detti anche outlier):
Nel primo caso si preferisce ignorare il valore anomalo, eventualmente sostituendolo con una media di valori immediatamente precedenti e successivi, nel secondo è preferibile spezzare la serie ed analizzare separatamente i dati anteriori e posteriori alla variazione.
Si usa spesso visualizzare il correlogramma della serie, al fine di individuare l'eventuale prevalenza di una componente tendenziale, stagionale o stocastica.
In generale, si assume che i dati in serie storica relativi ad un fenomeno Y siano generati da un processo del tipo:
dove f(t) genera una sequenza completamente deterministica (parte sistematica della serie) e {ut} è una sequenza di variabili aleatorie che obbediscono ad una qualche legge di probabilità (parte stocastica della serie).
Nell'approccio tradizionale si assume che esista una "legge" di evoluzione temporale del fenomeno, rappresentata da f(t), e che i residui (differenze tra valori teorici e valori osservati) siano dovuti al caso e, pertanto, siano assimilabili a errori accidentali. I residui vengono normalmente indicati con εt ed intesi come variabili aleatorie indipendenti, identicamente distribuite, con media nulla e varianza costante (nell'approccio moderno, invece, si ipotizza che la parte sistematica manchi o sia già stata eliminata, mediante stime o altri modelli, e si studia la componente stocastica ut).
Si ritiene, inoltre, che la parte sistematica sia la risultante di tre componenti non direttamente osservabili:
La componente accidentale è data dai residui εt. Ad esempio, se si dispone di dati trimestrali, se si stima che i dati sono prodotti da un trend di crescita lineare del tipo:[1]
se si individua una componente stagionale che provoca un aumento nel secondo e nel quarto trimestre ed una diminuzione nel primo e nel terzo:
(dove le Qi sono variabili che assumono il valore 1 nell'i-esimo trimestre e 0 negli altri), le differenze tra i valori osservati yt ed i valori stimati sono:
Alcuni tipici modelli tradizionali sono:
dove Tt è il valore del trend al tempo t, Ct è il valore del ciclo, St quello della stagionalità e εt la componente accidentale.
Il modello moltiplicativo può essere trasformato in additivo usando i logaritmi:
Il ciclo ha una periodicità pluriennale. Per questo motivo, nelle analisi di breve/medio periodo (dette congiunturali) la componente tendenziale e quella ciclica vengono spesso considerate come un tutt'uno e si hanno modelli del tipo:
dove TCt è una componente detta "trend-ciclo".
Si dice lineare nei parametri un trend polinomiale del tipo:
in quanto i parametri da stimare, α0...αp, sono tutti di primo grado.
Si dice invece linearizzabile nei parametri un trend del tipo:
idoneo a rappresentare fenomeni che aumentano (α1 > 0) o diminuiscono (α1 < 0) secondo una progressione geometrica, e che può essere linearizzato come segue:
Nel caso di dati mensili o trimestrali, si può tenere conto della componente stagionale, come già sopra accennato, mediante le cosiddette variabili dummy (variabili fittizie). Nel caso di dati mensili si usano 12 variabili Mi che valgono 1 nell'i-esimo mese e 0 negli altri; nel caso di dati trimestrali si usano 4 variabili Qi che valgono 1 nell'i-esimo trimestre e 0 negli altri. Ad esempio, un modello lineare additivo con componente stagionale per dati trimestrale è del tipo:
dove:
Se si ritiene di poter assumere un trend lineare o linearizzabile, i parametri possono essere facilmente stimati mediante regressione lineare. Si deve solo usare qualche accorgimento se si usano variabili dummy. Queste infatti introducono multicollinearità nei dati e, pertanto, non si possono stimare insieme l'intercetta α ed i parametri delle variabili dummy (γi).[2] Si usa quindi stimare solo i parametri delle variabili dummy, oppure solo l'intercetta e tre dei parametri delle variabili dummy; ad esempio, si assume il modello:
Una volta ottenuta la stima per i parametri asteriscati, si risale all'intera serie dei parametri con una semplice trasformazione che si basa sulle uguaglianze:
Da esse si ottiene:
che consente di calcolare i parametri α, γ1, γ2, γ3 e γ4 sulla base di α*, γ*1, γ*2, γ*3.
In generale, si usa valutare l'adattamento del modello ai dati osservati si usa il coefficiente di determinazione R2. Tuttavia, aumentando il grado del polinomio interpolante l'adattamento migliora, ma diventa più arduo interpretare i parametri, il cui numero aumenta col grado.
Si usa quindi un coefficiente "corretto":
dove n è il numero delle osservazioni e p il numero dei parametri (compresa l'intercetta) e il cui valore aumenta se aumenta R2, ma diminuisce se aumenta p.
Si verifica anche il correlogramma dei residui, che devono risultare oscillanti entro un banda ristretta.
Se l'adattamento è buono, il modello può essere utilizzato per previsioni. Ad esempio, se si dispone di 80 rilevazioni trimestrali dal primo trimestre 1989 al quarto trimestre 2008, se si è ottenuto un buon adattamento per la stima:
Se il fenomeno osservato presenta una fase di crescita seguita poi da una progressiva decelerazione, si possono ipotizzare trend come i seguenti:
che presentano un asintoto orizzontale in quanto tendono ad α quando t tende all'infinito.
In casi come questi (dinamica delle popolazioni, evoluzione della domanda di beni durevoli ecc.) la linearizzazione non è possibile e si ricorre, pertanto, alla regressione non lineare.
Se l'andamento del fenomeno appare irregolare, si preferisce individuare la componente tendenziale in modo empirico, eliminando le componenti stagionale e/o accidentale mediante medie mobili.
In particolare, per eliminare la componente stagionale presente in dati trimestrali si potrebbe usare una media mobile a 4 termini:
oppure:
In entrambi i casi si userebbero valori che, essendo la media dei valori osservati in quattro trimestri successivi, non risentono della componente stagionale.
Le medie di un numero pari di termini, tuttavia, tendono ad esprimere il valore del fenomeno ad un tempo intermedio rispetto a quelli osservati (intermedio tra t–1 e t nel caso di M1, tra t e t+1 nel caso di M2).
Si preferisce quindi comporre le medie M1 e M2 in una media mobile a cinque termini centrata sul tempo t:
La serie delle medie mobili costituisce il trend (o trend-ciclo), che può poi essere studiato con altri metodi. La sua individuazione, comunque, consente il calcolo di una stagionalità lorda, che incorpora una parte accidentale; indicando con il dato osservato al tempo t e con il trend stimato con le medie mobili, si ha:
secondo che si preferisca un modello additivo o moltiplicativo.
Nelle analisi basate sulla regressione si ottengono coefficienti di stagionalità costanti. Nelle analisi basate sulle medie mobili, invece, si può scegliere tra:
Una volta individuati fattori di stagionalità netta, si calcolano i residui:
secondo che si stia seguendo l'approccio additivo o quello moltiplicativo, quindi si verifica (in prima istanza con un correlogramma) che i residui abbiano media 0 e varianza costante.
Quando si usano le medie mobili, si perdono alcuni dei valori iniziali e finali della serie storica (ad esempio, se si hanno dati dal tempo 1 al tempo 80, con una media mobile a 5 termini si ottengono medie dal tempo 3 al tempo 78). Ciò rappresenta uno svantaggio se si mira soprattutto a formulare previsioni, in quanto vengono a mancare i termini più vicini a quelli da stimare. Si potrebbe pensare di ovviare al problema con medie mobili non centrate ed asimmetriche, ad esempio del tipo:
Nella pratica, tuttavia, si preferiscono approcci che generalizzano quanto appena ipotizzato.
Nel livellamento esponenziale semplice si muove dalla media degli n valori osservati:
e la si trasforma in una media ponderata con pesi esponenzialmente crescenti (minori per i valori iniziali, maggiori per quelli finali) la cui somma sia 1. Si attribuisce quindi un peso α compreso tra 0 e 1 all'ultimo termine, il peso (1 – α) al penultimo, (1 – α)2 al terzultimo e così via, e si ha (v. serie geometrica):
Si sostituisce quindi la serie osservata yt con la serie livellata:
in cui α, il peso assegnato all'ultimo valore osservato, viene detto costante di livellamento.[3]
Per il calcolo risultano più comode le seguenti formulazioni ricorsive:
oppure:
Il valore iniziale della serie livellata viene calcolato in vari modi: si pone uguale al primo valore osservato, oppure alla media di tutti i valori osservati o di una loro parte (i primi 4 o 5, oppure la loro prima metà). Si tratta di convenzioni che non alterano il risultato finale (la previsione per il tempo n + 1), proprio perché ai primi termini della serie sono attribuiti pesi molto bassi.
Le formule di Roberts e di Hunter differiscono per l'interpretazione di ln, l'ultimo valore calcolato:
In ogni caso, è sufficiente che la serie osservata non sia troppo breve perché si ottengano gli stessi valori per .
Quanto alla costante di livellamento α, essa può essere scelta in modo che minimizzi i quadrati degli scarti tra i valori osservati e quelli livellati, oppure secondo gli obiettivi dell'indagine; un valore elevato (prossimo a 1) conferisce maggiore importanza agli ultimi valori osservati, un valore basso privilegia invece l'andamento medio del fenomeno.
È piuttosto importante sottolineare che il livellamento esponenziale semplice conduce ad una previsione costante. Infatti, considerando la formula di Roberts, si ha:
e così via. Si tratta quindi di un metodo utilizzabile solo per serie senza trend.
Un primo modo per tenere conto di un trend consiste nell'introduzione di una deriva d (drift in inglese) che modifichi i valori livellati secondo grandezze variabili col tempo; ad esempio:
Sono usati soprattutto i metodi di Holt-Winters, così detti dai nomi di coloro che li hanno introdotti.
Un primo modello tiene conto solo del trend, ipotizzando che al tempo t il fenomeno possa essere approssimato mediante una retta del tipo:
con intercetta lt e pendenza dt. Si definiscono le seguenti relazioni:[7]
La prima (analogamente a quanto avviene nel livellamento esponenziale semplice) può essere vista come una media ponderata tra il valore osservato e la previsione calcolata al tempo precedente; la seconda come una media ponderata tra la differenza tra le previsioni ai tempi t e precedente e la pendenza calcolata al tempo precedente (attribuire peso 1 a quest'ultima equivarrebbe ad assumere un trend lineare, ovvero una costanza della pendenza).
Il modello viene esteso per tenere conto della stagionalità, inserendo un ulteriore peso γ. Si hanno un modello stagionale additivo:
dove st è un fattore di stagionalità è p la sua periodicità (4 per dati trimestrali, 12 per dati mensili), e un modello stagionale moltiplicativo:
Si tratta di modelli molto flessibili, in quanto consentono di tenere conto di trend non polinomiali e di stagionalità non costanti. Quanto alla scelta di α, β e γ, anche in questo caso (ma con ovvia maggiore complessità) si possono cercare i valori che minimizzano i quadrati degli scarti o ci si può regolare secondo gli obiettivi dell'analisi.
Indicando con T il tempo del più recente valore considerato nel livellamento di una serie, le previsioni, i valori poi osservati in tempi successivi a T e le loro differenze (errori di previsione) si indicano, rispettivamente, con:
Si usano le seguenti misure di qualità:
Si usa anche il confronto tra i "punti di svolta" (test di Kendall). Per "punto di svolta" si intende un punto in cui una serie da ascendente diventa discendente o viceversa. Si contano i punti di svolta presenti nella serie rilevata ed in quella stimata o livellata e si calcolano:
Da notare che, dal momento che il modello viene ricalcolato all'aumentare di s, tutte le misure citate servono a stimare la bontà dell'approccio seguito, non quella dell'adattamento ai dati.
Si ricordi anzitutto che una variabile aleatoria può essere definita come una funzione misurabile a valori reali su uno spazio probabilistico: X:
Dove:
Stante questa premessa, si può definire un processo stocastico come una successione di variabili aleatorie indicizzate da un parametro. Nell'analisi delle serie storiche, questo parametro è il tempo, che indichiamo con t T, con T spazio parametrico, che si può considerare discreto (ipotesi usuale, se si considerano i singoli giorni, o mesi, o anni) oppure continuo.
Da qui si può derivare la nozione di serie storica, che sarà la realizzazione finita di un processo stocastico, indicata con la notazione , dove N«