Questo
materiale serve per la preparazione di
Econometria di Base, nei suoi aspetti sia teorici
sia applicati.
Il materiale da me preparato, in collaborazione con Roberto Golinelli, Docente
di Econometria all'Università di Bologna, fà parte di un più
ampio progetto in corso di realizzazione.
Pertanto, non mancheranno errori, inesattezze e quant'altro, di cui mi scuso
in anticipo. Il vostro contributo nel fornirmi indicazioni e suggerimenti è
fondamentale.
Il materiale si articola
in:
- file di tipo "pdf" contenenti la traccia di ogni lezione;
- file di tipo "dta" o "xls" o "raw" o "prn"
o "dct" che hanno a che vedere con i dati e le loro descrizioni;
- file di tipo "do" o "ado" che vi ho messo a disposizione
per implementare la versione originariamente installata del software statistico-econometrico
STATA.
Vorrei
sottolineare che una frequenza attiva al corso vi richiede un congruo numero
di ore dedicate al lavoro individuale (o di gruppo), in cui cercare di riprodurre
i risultati presentati a lezione, capendo la teoria econometrica implicita nell'applicazione.
Solo questo può garantire il graduale apprendimento dei concetti e delle
tecniche esposte a lezione, nonchè la possibilità di seguire con
profitto le lezioni successive.
Un altro consiglio è quello di cercare, per quanto possibile, di sostenere
l'esame in modalità "applicata" (da frequentanti) alle sessioni
parziali oppure, al massimo, entro la sessione di Gennaio-Febbraio. Solo in
questo modo potrete imparare ad applicare l'econometria (l'applicazione è
proprio la parte più divertente!), acquisendo un'esperienza utile per
la tesi di laurea, per un'eventuale continuazione degli studi, per il lavoro.
Rimandate equivarrebbe a perdere un'opportunità; frequentare senza applicarvi
equivarrebbe ad acquistare del vino squisito senza occuparsi di imbottigliarlo
a dovere... in poco tempo si trasformerebbe in qualcosa di poco piacevole.
Questo materiale dovrebbe essere d'ausilio anche per coloro che, per vari motivi,
non riescono a frequentare le lezioni: con poco impegno in più è
comunque possibile affrontare e superare l'esame di econometria in modalità
"applicata", invece che in modalità "teorica".
A]
Tipi di dati (cross-section, time-series, panel). Introduzione a Stata e lettura
dei dati in Stata.
In questa parte viene presentato il software statistico-econometrico STATA,
utilizzato durante le lezioni per fornirvi il risvolto applicato di quanto via
via imparato a livello teorico.
Per ciò che riguarda i contenuti, i punti essenziali sono: differenza
tra dati di serie storiche e dati cross-section ed importanza della variabile
identificativa di ogni osservazione; come creare e gestire una banca dati di
tipo stata a partire da un foglio elettronico.
Dal libro di Wooldridge, vi consiglio la lettura di:
sviluppare un'analisi econometrica: Cap. 19 pp. 646-665.
riepilogare i concetti di base matematici-statistici: App. A pp. 675-693; App.
B pp. 696-727; App. C pp. 731-740, 748-754, 756-768.
Il file .pdf è una sorta
di "micro-manuale" di alcuni comandi di Stata, meditato per fornirvi
le basi di partenza..
I files di supporto sono: wage1.dta, occ_1987_1.dta,
occ_1987_2.dta, occ_1987.dta,
occ_1988.dta, occupati_Italia.xls,
dsett_label.do, auto.prn,
auto.raw, auto_c.raw, auto_c1.dct,
auto_c2.dct, auto_cc.raw,
auto_cc.dct, occ_1987_1988.dta,
USquarter.dta, NYTdailysales.dta,
covaun.ado, covamu.ado, covamu1.ado,
reg_matrix.ado.
NOTA TECNICA: I file .ado (ed
il corrispondente file di aiuto, .hlp, quando disponibile) costituiscono programmi
integrativi di STATA che possono essere stati scritti da altri oppure da voi
stessi. In questo sito vi metto a disposizione una serie di file ado, alcuni
che ho scaricato tramite lo stata.com website, altri che ho creato io per scopi
didattici o per facilitare alcune analisi.
Affinchè siano visibili all'interno del software STATA, potete procedere
in due modi alternativi:
1) scelta consigliata: create una specifica directory c:\ado\personal ed inseriteli
lì; in questo modo saranno visibili da STATA indipendentemente dalla
directory in cui state lavorando;
2) collocateli in qualsiasi altra directory c:\pippo; dovete, però, ricordarvi
di dare il comando STATA cd c:\pippo prima di utilizzarli.
B] Analisi preliminare univariata di dati cross-section: distribuzione, centro,
variabilità, outlier.
Questa parte è dedicata alla presentazione di uno schema molto importante,
che costituisce la metodologia econometrica di riferimento per tutto il corso.
I punti chiave sono: specificazione del modello empirico a partire dalla teoria
e dai dati (teoria-DGP, modello teorico-campione, modello stimabile-modello
empirico); analisi preliminare dei dati (normalità, ricerca degli outlier);
stima del modello empirico (MQO o, in inglese, OLS); test di scorretta specificazione
sui residui (normalità, eteroschedasticità-autocorrelazione, linearità);
test di significatività sui parametri (tests t e F).
Dal libro di Wooldridge vi consiglio: Cap. 1 pp. 1-18 (introduzione all'analisi
econometrica); Cap. 2 pp. 21-60 (OLS bivariato); Cap. 3 pp. 68-104 (OLS multivariato);
Cap. 4 pp. 116-156 (inferenza).
Alcune indicazioni schematiche sono qui.
L'applicazione in STATA illustra:
alcune tecniche di analisi preliminare univariata (della sola variabile dipendente);
l'importanza delle misure di centro (media e mediana) e dispersione (varianza
o deviazione standard e pseudo-deviazione standard) della funzione di distribuzione
di probabilità.
testo.pdf e dati.dta.
Vi servono anche due files ado1 e ado2
con i corrispondenti help1 e help2.
Questa parte è dedicata ad un rapido richiamo dei concetti, noti dalla
statistica, di stimatore e stima. I punti chiave sono media e varianza a livello
di popolazione e gli stimatori campionari di media e varianza. Anche gli stimatori
sono variabili casuali con una propria funzione di distribuzione di probabilità
o distribuzione campionaria. Degli stimatori si possono valutare le proprietà
di correttezza ed efficienza. L'applicazione precedente in Stata illustra come
le stime di media e varianza cambiano al variare del campione (con o senza "Dallas").
Le misure di centro e dispersione robuste al problema dei dati anomali (outliers)
cambiano meno. Altri concetti importanti sono quelli di percentile, quartile,
IQR, outlier, nonchè il test di normalità di Jarque-Bera.
PROVA
PER ISCRIVERSI ALLA LISTA DEI FREQUENTANTI
Dal
sito UCLA ho selezionato alcune applicazioni che ti aiutano a ricordare alcuni
concetti base.
La legge dei grandi numeri: testo e ado
con help.
L'aspetto dell'istogramma e l'effetto
dell'aumento del numero di osservazioni campionarie: testo
e ado con help.
Il teorema del limite centrale: testo
(relativo alla versione 7 di STATA) e ado con help
(per la versione 8 di STATA).
La distribuzione normale standardizzata: testo
e ado con help.
La distribuzione t di Student: testo
e ado con help.
La distribuzione F: testo e ado
con help.
La distribuzione chi-squared: testo
e ado con help.
C]
Analisi preliminare
multivariata e scatter. OLS bivariato. Risultati di regressione in Stata: stima,
standard error della regressione, test t, R2.
Questa parte offre un breve richiamo del tema "prova delle ipotesi",
i cui principi sono validi, a livello generale, sia per i test di scorretta
specificazione, sia per i test di significatività. I concetti fondamentali
riguardano: definizione dell'ipotesi nulla e alternativa; costruzione della
statistica test; probabilità di commettere un errore di I specie (rifiutare
l'ipotesi nulla vera) o di II specie (accettare l'ipotesi nulla falsa); valutazione
dell'esito del test sulla base del confronto tra valore della statistica test
e valore critico della distribuzione teorica di riferimento, oppure tra valore
di probabilità associato alla statistica test e livello di significatività
o size. Con questi ulteriori concetti in mente, dovrebbe risultare agevole la
lettura ed interpretazione dell'output di una regressione bivariata (una variabile
dipendente ed una variabile esplicativa).
Applicazione in STATA: testo;
i dati sono gli stessi di cui al punto B].
D]
OLS multivariato: effetti parziali, test F.
Scopo di questa parte è schematizzare le ipotesi alla base del CLRM
(modello classico di regressione lineare) e del metodo di stima dei minimi quadrati
ordinari (MQO oppure OLS): linearità (con violazioni: variabili esplicative
errate, non linearità, non costanza dei parametri); errori a media nulla
e incorrelati con le variabili esplicative, se queste ultime sono stocastiche
(con violazioni: errori di misura delle variabili, autoregressione, simultaneità);
errori sferici (con violazioni: eteroschedasticità e (auto)correlazione);
sufficienti gradi di libertà (la multicollinearità causa elevata
varianza degli stimatori e problemi nei test t e F); errori distribuiti normalmente.
Il contesto multivariato (una variabile dipendente e più variabili esplicative)
permette di derivare lo stimatore OLS per la costante (residui a media nulla;
retta di regressione che passa per i punti medi) e per le pendenze (residui
incorrelati con le esplicative; coefficienti di regressione parziale che stimano
l'effetto della singola esplicativa, a parità di effetto delle altre
esplicative).
Gli aspetti importanti di
questa parte sono i seguenti.
Le differenze, nelle formule dello stimatore e della varianza
dello stimatore, tra regressione bivariata e regressione multivariata;
si evidenziano i canali attraverso i quali passano il problema dell'omissione
di variabili esplicative rilevanti (formula dello stimatore e distorsione) ed
il problema dell'inclusione di variabili esplicative irrilevanti (formula della
varianza dello stimatore e inefficienza).
Le formule permettono anche di evidenziare l'importanza della covarianza
tra esplicative ed il problema della multicollinearità. Le soluzioni
prospettate prevedono: l'aumento dell'informazione campionaria (aggiunta di
osservazioni); l'aggiunta di vincoli teorici al modello; la riparametrizzazione
del modello e conseguente trasformazione di una o più esplicative in
modo da ridurre la multicollinearità. Le principali conseguenze della
multicollinearità vertono sulla imprecisione delle stime (elevata varianza
degli stimatori) e sulla difficoltà a separare il contributo esplicativo
delle singole variabili. La discrepanza tra risposte dei singoli test t e del
test congiunto F è stata illustrata con l'ausilio del grafico degli intervalli
e dell'area di confidenza.
L'importanza dei test di scorretta specificazione sui residui dei stima
del modello: normalità, eteroschedasticità, linearità,
outliers e leverage. Soluzioni (stimatori robusti).
L'applicazione guida
all'utilizzo di variabili di natura qualitativa (dummy). Inoltre,
evidenzia che: l'omissione di esplicative rilevanti
comporta problemi di correlazione spuria e distorsione della stima del parametro;
l'inclusione di esplicative irrilevanti comporta problemi di efficienza degli
stimatori. L'analisi empirica, inoltre, offre un'applicazione del teorema della
regressione partizionata. Viene commentato l'output di regressione (RSS, ESS,
TSS, R2, adj-R2) e viene illustrata la costruzione del test F. Infine,
ci si occupa dei test di scorretta specificazione. Come mostra l'applicazione,
dopo il comando reg, è
possibile ottenere i residui ed il valore fitted della Y, effettuare il summarize
dei residui ed il grafico dei residui contro il fitted. Queste statistiche descrittive
e ispezioni grafiche offrono una prima idea dell'andamento più o meno
casuale dei residui del modello stimato. Il primo test di scorretta specificazione
è quello di normalità dei residui (ipotesi nulla: residui distribuiti
normalmente). Il secondo test è quello di eteroschedasticità (ipotesi
nulla: residui omoschedastici), nelle 2 opzioni varianza dei residui spiegata
dal fitted o dalle esplicative; il rifiuto dell'ipotesi nulla comporta che l'inferenza
debba essere effettuata sulla base di residui corretti per l'eteroschedasticità
(correzione di White, opzione , robust). Il terzo test di scorretta specificazione
è quello di linearità/variabili omesse; il rifiuto dell'ipotesi
nulla di corretta forma funzionale/assenza di variabili omesse comporta o la
rispecificazione del modello o una più attenta analisi dell'effetto delle
osservazioni influenti. Il comando predict D, cooks permette di ottenere una
misura dell'effetto di leva esercitato da ciascuna osservazione campionaria,
ossia la capacità di attrarre a sè la retta di regressione. La
regressione robusta al problema degli outliers (rreg) permette di valutare la
robustezza delle stime dei parametri e dei loro SE, offrendo maggiori indicazioni
sulle possibili cause del rifiuto dell'ipotesi nulla di corretta forma funzionale/assenza
di variabili omesse. A volte le problematiche nei residui possono non essere
rilevanti per la verifica di vincoli a zero, ma essere rilevanti per la verifica
di vincoli ad altri valori (comando test)
Il testo è qui; i dati sono
ancora quelli di cui al punto B], nonchè qui.
Se vi occorre approfondire la teoria, dal libro di Wooldridge vi consiglio:
Cap. 7 pp. 218-240 (variabili dummy e test di Chow; per quest'ultimo, pazientate
ancora un pò); Cap. 8 pp. 257-262, 268 (eteroschedasticità, su
cui torniamo a breve); Cap. 9 pp. 289-294, 302-308, 312-317 (forma funzionale,
errori di misura, outliers; anche sulla forma funzionale, ancora un attimo di
pazienza).
Esercizi
ed esempi interattivi (notate che gli applet Java spesso possono avere problemi):
Guarda
i diagrammi di dispersione ed indovina la correlazione [Istruzioni. Fai
partire l'applet Java cliccando sul testo evidenziato qui a sinistra. Poi clicca
su "New Plots": compariranno 4 scatter di nome "plot A",
"plot B", "plot C" e "plot D"; sotto i grafici
compaiono 4 righe in cui si riportano 4 stime di coefficienti di correlzione
("r = numero"). Indovina, cliccando una sola lettera per ogni riga,
a quale dei 4 scatter (plot) sopra corrisponde il coefficiente "r"
riportato in quella riga. Dopo che hai scelto, clicca su "Answers"
per verificare se hai dato le risposte giuste. Quando gli errori sono particolarmente
gravi, il programma ti chiede il nome (evita, chiudi la finestra senza scriverci
nulla ...). L'esercizio può essere ripetuto più volte, cliccando
ancora su "New Plots".]
Interpolazione
dei punti col metodo dei minimi quadrati ordinari [Istruzioni. Fai partire
l'applet Java cliccando sul testo evidenziato. Si aprirà una nuova pagina
che riporta uno scatter e una retta di regressione. In quel grafico si possono
modificare costante ("constant") e pendenza ("slope") della
retta riportata agendo sui corrispondenti pallini in rosso. Nota che se sposti
la retta, date le osservazioni, modifichi sia le singole aree di errore (errori
al quadrato), sia la somma dei quadrati. Allo stesso modo, si può lasciare
ferma la retta e spostare le osservazioni. Per informazioni più dettagliate,
clicca su ? nell'angolo in basso a destra del grafico.]
E] Un approfondimento dell'analisi dei residui di stima e dei test di scorretta
specificazione: il problema dell'eteroschedasticità e lo stimatore GLS
(generalised least squares).
Questa parte è dedicata ad ulteriori approfondimenti del tema dell'eteroschedasticità.
Si confrontano: le stime OLS con gli standard errors degli stimatori calcolati
assumendo omoschedasticità; le stime OLS con gli standard errors degli
stimatori corretti per l'eteroschedasticità à la White; le stime
GLS feasible in cui, "conoscendo" la causa dell'eteroschedasticità,
è possibile pesare adeguatamente ogni osservazione campionaria delle
variabili del modello.
Applicazione: testo
e dati. Ora è il momento di utilizzare questi
files ado ado1 ed i relativi
help help1.
Dal Wooldridge:
Cap. 8 pp. 262-268, 270-283
(eteroschedasticità, minimi quadrati ponderati e GLS).
F] Trasformazioni delle variabili. Test di costanza dei parametri.
In questa parte si analizzano alcune trasformazioni dei dati, da utilizzarsi
quando ciò permette di approssimare meglio una relazione e/o di ridurre
fenomeni di asimmetria. In particolare, si introduce la trasformazione logaritmica
delle variabili: nell'esempio analizzato, tale trasformazione si rivela utile
in quanto l'effetto della variabile esplicativa sulla variabile dipendente assume
rilevanza diversa a seconda dei valori di partenza della variabile esplicativa.
La lezione si conclude illustrando due diversi metodi per effettuare il test
di Chow di costanza dei parametri (utilizzo delle variabili dummy oppure calcolo
della statistica test F).
Applicazione: testo
e dati.
Dal libro
di Wooldridge, oltre a quanto citato prima, vi consiglio il Cap. 6 pp. 187-198,
207-210 (trasformazioni di variabili).
G] Analisi econometrica applicata ai dati di serie storiche.
Dal libro di Wooldridge, vi consiglio: Cap. 10 pp. 324-337, 344-350 (dati
time-series); Cap. 11 pp. 360-364, 372-380 (stazionarietà e non stazionarietà);
Cap. 12 pp. 395-399 (autocorrelazione); Cap. 18 pp. 607-615 (test di radici
unitarie).
Una validissima alternativa è: J. H. Stock & M. W. Watson (2003),
Introduction to Econometrics, Addison Wesley. Se volete, ne è disponibile
la versione in italiano: J.H. Stock and M.W. Watson (2005), Introduzione all'econometria,
Pearson-Prentice Hall.
Applicazioni: testo,
dati in excel, dati1, dati2.
Vi serve ancora qualcosa? qui e qua.
I punti di cui ci occuperemo sono i seguenti.
Analisi univariata delle serie storiche: plot, stazionarietà, correlogramma,
scatter.
Con l'ausilio del foglio elettronico e del software Stata si illustrano: l'importanza
dell'ordine nelle serie storiche; la frequenza dei dati e il periodo temporale;
l'utilizzo di variabili ritardate come variabili esplicative nel modello di
regressione; l'operatore ritardo (l.) e l'operatore differenza prima (d.); l'utilizzo
di differenze prime di trasformazioni logaritmiche di variabili come approssimazioni
di tassi di crescita delle variabili; i concetti di inflazione annua tendenziale
e inflazione annualizzata.
Test di radici unitarie e autocorrelazione.
I concetti di stazionarietà o non stazionarietà in media (presenza
di un trend nel grafico della serie storica); i concetti di stazionarietà
o non stazionarietà in covarianza (trend spezzati e persistenza); trasformazioni
dei dati di base ed interpretazione economica delle trasformazioni (livello
dei prezzi, tasso d'inflazione, accelerazione/decelerazione dell'inflazione);
i concetti di autocovarianza e autocorrelazione. Dal grafico dell'andamento
del processo stocastico si ricavano indicazioni per l'effettuazione del test
di radici unitarie (test di Dickey-Fuller, DF, e test augmented Dickey-Fuller,
ADF) che verte sulla stima di un modello autoregressivo riparametrizzato.
Modelli dinamici univariati (AR).
Analisi grafica del correlogramma e l'utilizzo delle autocorrelazioni come stima
della memoria di un processo stocastico (memoria finita se il processo è
stazionario, memoria persistente se il processo è non stazionario). E'
illustrata la differenza tra un modello autoregressivo e un random walk; è
poi presentata la stima dei parametri del modello autoregressivo.
Suggerimento: provate ad analizzare il correlogramma
dei dati, in livelli ed in differenze prime, relativi alle quotazioni mensili
del New York Stock Exchange e traetene le conclusioni in termini di autoregressione
e random walk (pp. 22-26 della lezione "serie-storiche"). I dati sono
qui.
Modelli dinamici multivariati (ARDL).
Questa lezione è dedicata ai test di scorretta specificazione con riferimento
al modello dinamico; particolare attenzione è rivolta ai test di autocorrelazione
dei residui (Durbin-Watson e Ljung-Box).
Il modello dinamico è esteso, includendo i ritardi non soltanto della
variabile dipendente, ma anche di altre variabili esplicative.
PROVE DI ECONOMETRIA DI BASE APPLICATA
TESTO BANCA DATI es.n.1 es.n.2 es.n.3
NOTA: l'esercizio n. 1 e l'esercizio n. 2 COSTITUISCONO LA PRIMA PROVA D'ESAME
VANNO, PERTANTO, PREPARATI E CONSEGNATI ENTRO E NON OLTRE IL
7 MAGGIO 2009
Inviate le prove via email a Francesco Nicolli (nclfnc@unife.it)
L'esercizio n. 3 va consegnato il giorno dell'esame (consultate le due date di appello sul sito unife).