Serie storiche e dati sezionali
Le serie storiche o temporali sono i dati ordinati secondo il tempo, tipicamente presentati in ordine cronologico. Questa tipologia di dati è rilevata più frequentemente e con diverse frequenze, ad esempio PIL, salari, tasso di interesse, ecc. (annuale, mensile, settimanale, giornaliera). Invece, i dati sezionali o cross section sono quelli in cui l'ordine dei dati non è rilevante, a differenza dei dati in serie storica. La maggior parte dei dati economici si presenta nella forma di serie storiche o cross section.
Variabili di comodo e correlazione
Le variabili di comodo o variabili dummy sono quelle variabili che possono assumere solamente valori pari a 0 o 1, solitamente utilizzate per trasformare variabili qualitative in variabili quantitative.
Y = dati oggetto di interesse disponibili. Y = osservazione sulla variabile Y al tempo t.
Y = osservazione della variabile Y relativa all’individuo i-esimo. iY = osservazione della variabile Y relativa all’unità i al tempo t i t.
Il cambiamento percentuale nel PIL reale o tasso di crescita del PIL tra il periodo t e t + 1, viene calcolato secondo la formula: cambiamento % = correlazione. La correlazione è un modo di misurare il legame tra due variabili; misura numerica della loro associazione. In altri termini, la correlazione è una misura numerica del grado con cui gli andamenti in X e Y corrispondono, quindi essa è una proprietà che lega insieme due variabili. Ad esempio, rappresenta XY, concetto affine è la che rappresenta un'estensione al caso di tre o più variabili.
Proprietà della correlazione
La correlazione tra le variabili X e Y: REGRESSIONE
- 1 r 1 ("r è compreso tra 1 e 1").
- Valori positivi elevati di r indicano una forte correlazione positiva. Valori negativi elevati di r indicano una forte correlazione negativa.
- r = 1 indica perfetta correlazione positiva. r = -1 indica perfetta correlazione negativa. r = 0 indica che X e Y sono incorrelati.
- r = XY YX r = 1 ("correlazione tra una variabile qualsiasi e la variabile stessa è pari a 1").
La correlazione tra due variabili NON implica necessariamente che una causi l'altra, in quanto è possibile che ne sia responsabile una terza variabile. Implica tendenza, NON necessariamente causalità; una tendenza può essere responsabile di una correlazione. In un grafico a dispersione, una correlazione positiva è associata a una disposizione di punti inclinata verso l’alto, mentre una correlazione negativa è associata a una disposizione di punti inclinata verso il basso. La correlazione indica quanto bene una retta interpola i punti sul grafico; variabili fortemente correlate si collocano lungo o vicino a una retta, mentre variabili debolmente correlate sono più disperse sul grafico. Il segno della correlazione si riferisce alla pendenza della retta che meglio interpola la nuvola dei punti sul grafico, il valore della correlazione si riferisce a quanto siano dispersi i punti attorno alla retta interpolante.
Regressione semplice
La regressione semplice esprime la relazione lineare tra due variabili Y e X: Y = RETTA DI REGRESSIONE, è l’intercetta della retta e è il coefficiente angolare, e misurano la relazione tra Y e X. Tuttavia, non è possibile conoscere esattamente tali valori. Quindi, è la pendenza della retta di regressione che meglio interpola i dati osservati; è l’effetto marginale di X su Y, in altri termini, è una misura dell'effetto su Y di un incremento di X pari a una unità. La retta di regressione è quella che meglio si adatta al complesso dei punti del grafico a dispersione, non passante precisamente per i singoli punti del grafico (errore).
Il modello di regressione lineare è sempre soltanto un’approssimazione della vera relazione e l’omissione di talune variabili significa che il modello commette un errore, quindi:
Y = Y, X, viene definita variabile dipendente, variabile esplicativa e coefficienti o parametri del modello di regressione. Il primo problema dell'analisi di regressione, considerando l’errore e non conoscendo i valori di e, è stimare e come e. Le stime quindi si trovano tracciando la retta che si adatta meglio ai punti.
Distinzione tra errori e residui
È opportuno fare una distinzione tra errori e residui:
- Errore = distanza tra un punto del grafico, che rappresenta un’osservazione, e la vera retta di regressione – ERRORE PER LA I-ESIMA OSSERVAZIONE (l’a sta a indicare che ci stiamo riferendo ad una specifica osservazione) aggiunta del pedice.
- Residui (u) = scarti dalla vera retta di regressione stimata e si ottengono sostituendo ad e le loro stime e. Geometricamente, i residui sono le differenze verticali tra un punto e la retta. Ovviamente, una retta che ben si adatta al complesso dei dati avrà residui piccoli.
Stime OLS e che minimizzano la SSR (Ordinary Least Squares = stime dei minimi quadrati o stime dei minimi quadrati ordinari) (Sum of Squared Residuals = somma dei quadrati dei residui). SSR = ∑ MISURA DELLA BONTA’ DEL MODELLO DI REGRESSIONE.
Indice di affidabilità R²
R² è un indice di affidabilità e del grado di approssimazione della retta di regressione. Perciò, quanto maggiore è il valore di R² tanto maggiore è la fiducia che si può avere nella retta di regressione. Più precisamente, si ha attraverso un esame dei valori effettivi (e dei valori teorici (cd esame dei residui:), i residui come differenza tra i valori effettivi ed i valori teorici) valore effettivo nei termini della formula del modello di regressione trascurando l’errore (valore teorico o previsto di ottenuto sostituendo ad e le loro stime OLS e.
Tale valore R² fornisce il legame statistico tra regressione e correlazione, entrambe interessate a quantificare numericamente il grado di associazione tra le due variabili. Infatti, il valore di R² ottenuto dalla regressione di Y su X è uguale alla correlazione elevata al quadrato tra Y ed X; la regressione è in effetti un’estensione del concetto della correlazione. R² misura la proporzione di varianza totale di Y che può essere spiegata da X, o equivalentemente è una misura del grado di adattamento/variabilità della retta di regressione ai dati osservati.
La formula della varianza di Y è: (misura della dispersione o variabilità dei dati) (Total Sum of Squares).
-
Riassunto esame Statistica economica, prof. Nicolardi, libro consigliato Contabilità nazionale e statistica economi…
-
Riassunto esame Statistica economica, Prof. Bernardini Papalia Rosa, libro consigliato Statistica economica, Santeu…
-
Riassunto esame di Statistica sociale, prof. Parroco, libro consigliato Statistica. L'arte e la scienza di imparare…
-
Riassunto esame Statistica economica, Prof. Maltagliati Mauro, libro consigliato Statistica per le decisioni aziend…