Questo materiale serve per la preparazione di
Econometria di Base, nei suoi aspetti sia teorici sia applicati.
Il materiale da me preparato, in collaborazione con Roberto Golinelli, Docente di Econometria all'Università di Bologna, fà parte di un più ampio progetto in corso di realizzazione.
Pertanto, non mancheranno errori, inesattezze e quant'altro, di cui mi scuso in anticipo. Il vostro contributo nel fornirmi indicazioni e suggerimenti è fondamentale.

Il materiale si articola in:
- file di tipo "pdf" contenenti la traccia di ogni lezione;
- file di tipo "dta" o "xls" o "raw" o "prn" o "dct" che hanno a che vedere con i dati e le loro descrizioni;
- file di tipo "do" o "ado" che vi ho messo a disposizione per implementare la versione originariamente installata del software statistico-econometrico STATA.

Vorrei sottolineare che una frequenza attiva al corso vi richiede un congruo numero di ore dedicate al lavoro individuale (o di gruppo), in cui cercare di riprodurre i risultati presentati a lezione, capendo la teoria econometrica implicita nell'applicazione. Solo questo può garantire il graduale apprendimento dei concetti e delle tecniche esposte a lezione, nonchè la possibilità di seguire con profitto le lezioni successive.
Un altro consiglio è quello di cercare, per quanto possibile, di sostenere l'esame in modalità "applicata" (da frequentanti) alle sessioni parziali oppure, al massimo, entro la sessione di Gennaio-Febbraio. Solo in questo modo potrete imparare ad applicare l'econometria (l'applicazione è proprio la parte più divertente!), acquisendo un'esperienza utile per la tesi di laurea, per un'eventuale continuazione degli studi, per il lavoro. Rimandate equivarrebbe a perdere un'opportunità; frequentare senza applicarvi equivarrebbe ad acquistare del vino squisito senza occuparsi di imbottigliarlo a dovere... in poco tempo si trasformerebbe in qualcosa di poco piacevole.
Questo materiale dovrebbe essere d'ausilio anche per coloro che, per vari motivi, non riescono a frequentare le lezioni: con poco impegno in più è comunque possibile affrontare e superare l'esame di econometria in modalità "applicata", invece che in modalità "teorica".

A] Tipi di dati (cross-section, time-series, panel). Introduzione a Stata e lettura dei dati in Stata.
In questa parte viene presentato il software statistico-econometrico STATA, utilizzato durante le lezioni per fornirvi il risvolto applicato di quanto via via imparato a livello teorico.
Per ciò che riguarda i contenuti, i punti essenziali sono: differenza tra dati di serie storiche e dati cross-section ed importanza della variabile identificativa di ogni osservazione; come creare e gestire una banca dati di tipo stata a partire da un foglio elettronico.
Dal libro di Wooldridge, vi consiglio la lettura di:
sviluppare un'analisi econometrica: Cap. 19 pp. 646-665.
riepilogare i concetti di base matematici-statistici: App. A pp. 675-693; App. B pp. 696-727; App. C pp. 731-740, 748-754, 756-768.
Il file .pdf è una sorta di "micro-manuale" di alcuni comandi di Stata, meditato per fornirvi le basi di partenza..
I files di supporto sono: wage1.dta, occ_1987_1.dta, occ_1987_2.dta, occ_1987.dta, occ_1988.dta, occupati_Italia.xls, dsett_label.do, auto.prn, auto.raw, auto_c.raw, auto_c1.dct, auto_c2.dct, auto_cc.raw, auto_cc.dct, occ_1987_1988.dta, USquarter.dta, NYTdailysales.dta, covaun.ado, covamu.ado, covamu1.ado, reg_matrix.ado.

NOTA TECNICA: I file .ado (ed il corrispondente file di aiuto, .hlp, quando disponibile) costituiscono programmi integrativi di STATA che possono essere stati scritti da altri oppure da voi stessi. In questo sito vi metto a disposizione una serie di file ado, alcuni che ho scaricato tramite lo stata.com website, altri che ho creato io per scopi didattici o per facilitare alcune analisi.
Affinchè siano visibili all'interno del software STATA, potete procedere in due modi alternativi:
1) scelta consigliata: create una specifica directory c:\ado\personal ed inseriteli lì; in questo modo saranno visibili da STATA indipendentemente dalla directory in cui state lavorando;
2) collocateli in qualsiasi altra directory c:\pippo; dovete, però, ricordarvi di dare il comando STATA cd c:\pippo prima di utilizzarli.


B] Analisi preliminare univariata di dati cross-section: distribuzione, centro, variabilità, outlier.
Questa parte è dedicata alla presentazione di uno schema molto importante, che costituisce la metodologia econometrica di riferimento per tutto il corso. I punti chiave sono: specificazione del modello empirico a partire dalla teoria e dai dati (teoria-DGP, modello teorico-campione, modello stimabile-modello empirico); analisi preliminare dei dati (normalità, ricerca degli outlier); stima del modello empirico (MQO o, in inglese, OLS); test di scorretta specificazione sui residui (normalità, eteroschedasticità-autocorrelazione, linearità); test di significatività sui parametri (tests t e F).
Dal libro di Wooldridge vi consiglio: Cap. 1 pp. 1-18 (introduzione all'analisi econometrica); Cap. 2 pp. 21-60 (OLS bivariato); Cap. 3 pp. 68-104 (OLS multivariato); Cap. 4 pp. 116-156 (inferenza).
Alcune indicazioni schematiche sono qui.
L'applicazione in STATA illustra: alcune tecniche di analisi preliminare univariata (della sola variabile dipendente); l'importanza delle misure di centro (media e mediana) e dispersione (varianza o deviazione standard e pseudo-deviazione standard) della funzione di distribuzione di probabilità.
testo.pdf e dati.dta. Vi servono anche due files ado1 e ado2 con i corrispondenti help1 e help2.
Questa parte è dedicata ad un rapido richiamo dei concetti, noti dalla statistica, di stimatore e stima. I punti chiave sono media e varianza a livello di popolazione e gli stimatori campionari di media e varianza. Anche gli stimatori sono variabili casuali con una propria funzione di distribuzione di probabilità o distribuzione campionaria. Degli stimatori si possono valutare le proprietà di correttezza ed efficienza. L'applicazione precedente in Stata illustra come le stime di media e varianza cambiano al variare del campione (con o senza "Dallas"). Le misure di centro e dispersione robuste al problema dei dati anomali (outliers) cambiano meno. Altri concetti importanti sono quelli di percentile, quartile, IQR, outlier, nonchè il test di normalità di Jarque-Bera.


PROVA PER ISCRIVERSI ALLA LISTA DEI FREQUENTANTI



Dal sito UCLA ho selezionato alcune applicazioni che ti aiutano a ricordare alcuni concetti base.
La legge dei grandi numeri: testo e ado con help.

L'aspetto dell'istogramma e l'effetto dell'aumento del numero di osservazioni campionarie: testo e ado con help.
Il teorema del limite centrale: testo (relativo alla versione 7 di STATA) e ado con help (per la versione 8 di STATA).
La distribuzione normale standardizzata: testo e ado con help.
La distribuzione t di Student: testo e ado con help.
La distribuzione F: testo e ado con help.
La distribuzione chi-squared: testo e ado con help.


C] Analisi preliminare multivariata e scatter. OLS bivariato. Risultati di regressione in Stata: stima, standard error della regressione, test t, R2.
Questa parte offre un breve richiamo del tema "prova delle ipotesi", i cui principi sono validi, a livello generale, sia per i test di scorretta specificazione, sia per i test di significatività. I concetti fondamentali riguardano: definizione dell'ipotesi nulla e alternativa; costruzione della statistica test; probabilità di commettere un errore di I specie (rifiutare l'ipotesi nulla vera) o di II specie (accettare l'ipotesi nulla falsa); valutazione dell'esito del test sulla base del confronto tra valore della statistica test e valore critico della distribuzione teorica di riferimento, oppure tra valore di probabilità associato alla statistica test e livello di significatività o size. Con questi ulteriori concetti in mente, dovrebbe risultare agevole la lettura ed interpretazione dell'output di una regressione bivariata (una variabile dipendente ed una variabile esplicativa).
Applicazione in STATA: testo; i dati sono gli stessi di cui al punto B].



D] OLS multivariato: effetti parziali, test F.
Scopo di questa parte è schematizzare le ipotesi alla base del CLRM (modello classico di regressione lineare) e del metodo di stima dei minimi quadrati ordinari (MQO oppure OLS): linearità (con violazioni: variabili esplicative errate, non linearità, non costanza dei parametri); errori a media nulla e incorrelati con le variabili esplicative, se queste ultime sono stocastiche (con violazioni: errori di misura delle variabili, autoregressione, simultaneità); errori sferici (con violazioni: eteroschedasticità e (auto)correlazione); sufficienti gradi di libertà (la multicollinearità causa elevata varianza degli stimatori e problemi nei test t e F); errori distribuiti normalmente. Il contesto multivariato (una variabile dipendente e più variabili esplicative) permette di derivare lo stimatore OLS per la costante (residui a media nulla; retta di regressione che passa per i punti medi) e per le pendenze (residui incorrelati con le esplicative; coefficienti di regressione parziale che stimano l'effetto della singola esplicativa, a parità di effetto delle altre esplicative).
Gli aspetti importanti di questa parte sono i seguenti.
Le differenze, nelle formule dello stimatore e della varianza dello stimatore, tra regressione bivariata e regressione multivariata; si evidenziano i canali attraverso i quali passano il problema dell'omissione di variabili esplicative rilevanti (formula dello stimatore e distorsione) ed il problema dell'inclusione di variabili esplicative irrilevanti (formula della varianza dello stimatore e inefficienza).
Le formule permettono anche di evidenziare l'importanza della covarianza tra esplicative ed il problema della multicollinearità. Le soluzioni prospettate prevedono: l'aumento dell'informazione campionaria (aggiunta di osservazioni); l'aggiunta di vincoli teorici al modello; la riparametrizzazione del modello e conseguente trasformazione di una o più esplicative in modo da ridurre la multicollinearità. Le principali conseguenze della multicollinearità vertono sulla imprecisione delle stime (elevata varianza degli stimatori) e sulla difficoltà a separare il contributo esplicativo delle singole variabili. La discrepanza tra risposte dei singoli test t e del test congiunto F è stata illustrata con l'ausilio del grafico degli intervalli e dell'area di confidenza.
L'importanza dei test di scorretta specificazione sui residui dei stima del modello: normalità, eteroschedasticità, linearità, outliers e leverage. Soluzioni (stimatori robusti).
L'applicazione guida all'utilizzo di variabili di natura qualitativa (dummy). Inoltre, evidenzia che: l'omissione di esplicative rilevanti comporta problemi di correlazione spuria e distorsione della stima del parametro; l'inclusione di esplicative irrilevanti comporta problemi di efficienza degli stimatori. L'analisi empirica, inoltre, offre un'applicazione del teorema della regressione partizionata. Viene commentato l'output di regressione (RSS, ESS, TSS, R2, adj-R2) e viene illustrata la costruzione del test F. Infine, ci si occupa dei test di scorretta specificazione. Come mostra l'applicazione, dopo il comando reg, è possibile ottenere i residui ed il valore fitted della Y, effettuare il summarize dei residui ed il grafico dei residui contro il fitted. Queste statistiche descrittive e ispezioni grafiche offrono una prima idea dell'andamento più o meno casuale dei residui del modello stimato. Il primo test di scorretta specificazione è quello di normalità dei residui (ipotesi nulla: residui distribuiti normalmente). Il secondo test è quello di eteroschedasticità (ipotesi nulla: residui omoschedastici), nelle 2 opzioni varianza dei residui spiegata dal fitted o dalle esplicative; il rifiuto dell'ipotesi nulla comporta che l'inferenza debba essere effettuata sulla base di residui corretti per l'eteroschedasticità (correzione di White, opzione , robust). Il terzo test di scorretta specificazione è quello di linearità/variabili omesse; il rifiuto dell'ipotesi nulla di corretta forma funzionale/assenza di variabili omesse comporta o la rispecificazione del modello o una più attenta analisi dell'effetto delle osservazioni influenti. Il comando predict D, cooks permette di ottenere una misura dell'effetto di leva esercitato da ciascuna osservazione campionaria, ossia la capacità di attrarre a sè la retta di regressione. La regressione robusta al problema degli outliers (rreg) permette di valutare la robustezza delle stime dei parametri e dei loro SE, offrendo maggiori indicazioni sulle possibili cause del rifiuto dell'ipotesi nulla di corretta forma funzionale/assenza di variabili omesse. A volte le problematiche nei residui possono non essere rilevanti per la verifica di vincoli a zero, ma essere rilevanti per la verifica di vincoli ad altri valori (comando test)
Il testo è qui; i dati sono ancora quelli di cui al punto B], nonchè qui.

Se vi occorre approfondire la teoria, dal libro di Wooldridge vi consiglio: Cap. 7 pp. 218-240 (variabili dummy e test di Chow; per quest'ultimo, pazientate ancora un pò); Cap. 8 pp. 257-262, 268 (eteroschedasticità, su cui torniamo a breve); Cap. 9 pp. 289-294, 302-308, 312-317 (forma funzionale, errori di misura, outliers; anche sulla forma funzionale, ancora un attimo di pazienza).


Esercizi ed esempi interattivi (notate che gli applet Java spesso possono avere problemi):
Guarda i diagrammi di dispersione ed indovina la correlazione [Istruzioni. Fai partire l'applet Java cliccando sul testo evidenziato qui a sinistra. Poi clicca su "New Plots": compariranno 4 scatter di nome "plot A", "plot B", "plot C" e "plot D"; sotto i grafici compaiono 4 righe in cui si riportano 4 stime di coefficienti di correlzione ("r = numero"). Indovina, cliccando una sola lettera per ogni riga, a quale dei 4 scatter (plot) sopra corrisponde il coefficiente "r" riportato in quella riga. Dopo che hai scelto, clicca su "Answers" per verificare se hai dato le risposte giuste. Quando gli errori sono particolarmente gravi, il programma ti chiede il nome (evita, chiudi la finestra senza scriverci nulla ...). L'esercizio può essere ripetuto più volte, cliccando ancora su "New Plots".]
Interpolazione dei punti col metodo dei minimi quadrati ordinari [Istruzioni. Fai partire l'applet Java cliccando sul testo evidenziato. Si aprirà una nuova pagina che riporta uno scatter e una retta di regressione. In quel grafico si possono modificare costante ("constant") e pendenza ("slope") della retta riportata agendo sui corrispondenti pallini in rosso. Nota che se sposti la retta, date le osservazioni, modifichi sia le singole aree di errore (errori al quadrato), sia la somma dei quadrati. Allo stesso modo, si può lasciare ferma la retta e spostare le osservazioni. Per informazioni più dettagliate, clicca su ? nell'angolo in basso a destra del grafico.]




E] Un approfondimento dell'analisi dei residui di stima e dei test di scorretta specificazione: il problema dell'eteroschedasticità e lo stimatore GLS (generalised least squares).
Questa parte è dedicata ad ulteriori approfondimenti del tema dell'eteroschedasticità. Si confrontano: le stime OLS con gli standard errors degli stimatori calcolati assumendo omoschedasticità; le stime OLS con gli standard errors degli stimatori corretti per l'eteroschedasticità à la White; le stime GLS feasible in cui, "conoscendo" la causa dell'eteroschedasticità, è possibile pesare adeguatamente ogni osservazione campionaria delle variabili del modello.
Applicazione: testo e dati. Ora è il momento di utilizzare questi files ado ado1 ed i relativi help help1.
Dal Wooldridge: Cap. 8 pp. 262-268, 270-283 (eteroschedasticità, minimi quadrati ponderati e GLS).



F] Trasformazioni delle variabili. Test di costanza dei parametri.
In questa parte si analizzano alcune trasformazioni dei dati, da utilizzarsi quando ciò permette di approssimare meglio una relazione e/o di ridurre fenomeni di asimmetria. In particolare, si introduce la trasformazione logaritmica delle variabili: nell'esempio analizzato, tale trasformazione si rivela utile in quanto l'effetto della variabile esplicativa sulla variabile dipendente assume rilevanza diversa a seconda dei valori di partenza della variabile esplicativa. La lezione si conclude illustrando due diversi metodi per effettuare il test di Chow di costanza dei parametri (utilizzo delle variabili dummy oppure calcolo della statistica test F).
Applicazione: testo e dati.

Dal libro di Wooldridge, oltre a quanto citato prima, vi consiglio il Cap. 6 pp. 187-198, 207-210 (trasformazioni di variabili).




G] Analisi econometrica applicata ai dati di serie storiche.
Dal libro di Wooldridge, vi consiglio: Cap. 10 pp. 324-337, 344-350 (dati time-series); Cap. 11 pp. 360-364, 372-380 (stazionarietà e non stazionarietà); Cap. 12 pp. 395-399 (autocorrelazione); Cap. 18 pp. 607-615 (test di radici unitarie).
Una validissima alternativa è: J. H. Stock & M. W. Watson (2003), Introduction to Econometrics, Addison Wesley. Se volete, ne è disponibile la versione in italiano: J.H. Stock and M.W. Watson (2005), Introduzione all'econometria, Pearson-Prentice Hall.
Applicazioni: testo, dati in excel, dati1, dati2.
Vi serve ancora qualcosa? qui e qua.
I punti di cui ci occuperemo sono i seguenti.
Analisi univariata delle serie storiche: plot, stazionarietà, correlogramma, scatter.

Con l'ausilio del foglio elettronico e del software Stata si illustrano: l'importanza dell'ordine nelle serie storiche; la frequenza dei dati e il periodo temporale; l'utilizzo di variabili ritardate come variabili esplicative nel modello di regressione; l'operatore ritardo (l.) e l'operatore differenza prima (d.); l'utilizzo di differenze prime di trasformazioni logaritmiche di variabili come approssimazioni di tassi di crescita delle variabili; i concetti di inflazione annua tendenziale e inflazione annualizzata.
Test di radici unitarie e autocorrelazione.
I concetti di stazionarietà o non stazionarietà in media (presenza di un trend nel grafico della serie storica); i concetti di stazionarietà o non stazionarietà in covarianza (trend spezzati e persistenza); trasformazioni dei dati di base ed interpretazione economica delle trasformazioni (livello dei prezzi, tasso d'inflazione, accelerazione/decelerazione dell'inflazione); i concetti di autocovarianza e autocorrelazione. Dal grafico dell'andamento del processo stocastico si ricavano indicazioni per l'effettuazione del test di radici unitarie (test di Dickey-Fuller, DF, e test augmented Dickey-Fuller, ADF) che verte sulla stima di un modello autoregressivo riparametrizzato.
Modelli dinamici univariati (AR).
Analisi grafica del correlogramma e l'utilizzo delle autocorrelazioni come stima della memoria di un processo stocastico (memoria finita se il processo è stazionario, memoria persistente se il processo è non stazionario). E' illustrata la differenza tra un modello autoregressivo e un random walk; è poi presentata la stima dei parametri del modello autoregressivo.
Suggerimento: provate ad analizzare il correlogramma dei dati, in livelli ed in differenze prime, relativi alle quotazioni mensili del New York Stock Exchange e traetene le conclusioni in termini di autoregressione e random walk (pp. 22-26 della lezione "serie-storiche"). I dati sono qui.
Modelli dinamici multivariati (ARDL).
Questa lezione è dedicata ai test di scorretta specificazione con riferimento al modello dinamico; particolare attenzione è rivolta ai test di autocorrelazione dei residui (Durbin-Watson e Ljung-Box).
Il modello dinamico è esteso, includendo i ritardi non soltanto della variabile dipendente, ma anche di altre variabili esplicative.




PROVE DI ECONOMETRIA DI BASE APPLICATA
TESTO BANCA DATI es.n.1 es.n.2 es.n.3

NOTA: l'esercizio n. 1 e l'esercizio n. 2 COSTITUISCONO LA PRIMA PROVA D'ESAME
VANNO, PERTANTO, PREPARATI E CONSEGNATI ENTRO E NON OLTRE IL
7 MAGGIO 2009

Inviate le prove via email a Francesco Nicolli (nclfnc@unife.it)

L'esercizio n. 3 va consegnato il giorno dell'esame (consultate le due date di appello sul sito unife).