Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Standardizzazione di una variabile casuale
Il valore del parametro ipotizzato in una variabile casuale, indicato con F, viene standardizzato togliendo la media e dividendo per la deviazione standard. In questo modo si ottiene una nuova variabile casuale con media zero e varianza unitaria.
Se l'ipotesi nulla è vera, la variabile casuale si distribuirà come una variabile casuale normale standardizzata. Essendo la media zero, l'asse di simmetria sarà in zero. Avendo varianza unitaria, la distanza dell'asse di simmetria dal flesso sarà pari a 1.
Quindi, se la variabile si distribuisce in questo modo, ci si deve attendere di osservare valori che vanno da -k/2 a k/2. Se si osservano valori al di fuori di tale intervallo, vuol dire che il campione non proveniva dalla distribuzione F.
Se il
valore di cade tra < e > allora si accetta , se no si rifiuta.
popolazione con – k/2 k/2L’area tra < e > viene detta “regione mentredi accettazione”, quella esterna (area più marcata), viene detta “regione di rifiuto”.
T=1 kLa regione di accettazione viene definita andando a fissare quantodovranno essere ampie le aree esterne, la cui somma corrisponde ad− k/2 0 k/2 (probabilità di commettere l’errore di I° tipo). opqqIl p-value o livello di significatività, corrisponde alla somma delle due aree ottenute dal attraverso ilcampione.
“Grafico A” “Grafico B”0 0o k/2− o − k/2 k/2 − o o− k/2pqqpqq pqq pqqk jFk j ).Se p-value < (grafico A), il valore osservato si trova nella zona di rifiuto (rifiuto F Se p-value > (grafico B), il valore osservato si trova nella zona di accettazione (accetto ). 14opqqjIl p-value è la probabilità di osservare un valore
“più estremo” di quello osservato calcolato assumendoF vera. Varia tra 0 e 1 e può essere interpretato come un indice di coerenza tra dati e ipotesi nulla. Si trattajdi una misura della plausibilità dell’ipotesi nulla. Quanto più il p-value va verso 1, tanto più è plausibileFjl’ipotesi nulla (accetto ). Quanto più il p-value è vicino a 0, tanto meno è plausibile l’ipotesi nulla (rifiutoF ).
SEGUE – LE METODOLOGIE DELL’INFERENZA:Ulteriore strumento di inferenza statistica sono gli La stima puntuale è un valore cheintervalli di confidenza.ha intrinsecamente un errore perché è basata su un campione, quindi su un osservazione parziale dellapopolazione. Per tale motivo, molto spesso, il dato non viene riportato in maniera puntuale ma per intervallo(si sta utilizzando un intervallo di confidenza)._,L’intervallo di confidenza è un tipo di stima che, ha
La differenza della stima puntuale non dà un valore, ma dà un intervallo di possibili valori, quindi si tratta di un'informazione meno precisa. All'intervallo di valori si può associare un certo grado di confidenza. La confidenza sta nel fatto che l'intervallo possa includere il vero valore del parametro (esempio: il reddito medio della popolazione sta tra 1100 euro e 1300 euro con livello di confidenza del 95%, cioè al 95% l'intervallo include il vero valore del reddito medio). L'obiettivo sarà diminuire l'ampiezza dell'intervallo e aumentare il livello di confidenza, tuttavia questo è costoso in termini di unità campionarie. Indicando con x l'intervallo di confidenza (intervallo che dovrebbe includere ci si chiede che sia verificata), la proprietà che la probabilità che l'intervallo di confidenza contenga sia maggiore a cioè il livello di confidenza.(probabilità che l’intervallo includa 2/_ ∈ x ≥y
Un intervallo di confidenza si dice ottimale se, a parità di è più piccolo di un altro, cioè è più preciso. Dic,asolito i livelli richiesti per sono 95%, 99% e 99,9%. La costruzione dell’intervallo di confidenza,c generalmente parte da uno stimatore opportuno .
INTERVALLI DI CONFIDENZA Z:
Partendo da una variabile normale standardizzata:
_r − _z= ~ t0,1
Dove:
_rb4_r b4_r _.= lo stimatore.
= la deviazione standard di{/ {/k).
Si sa che per esempio tra -1,96 (−o ) e +1,96 (+o ) ci sono delle code pari a 0,05 (k), e quindi l’areak ointerna ai due valori è pari a 0,95 (1 - A seconda del livello di confidenza che si sceglie, corrisponderà un{/ .certo e corrispondentemente si avranno dei valori 151 − k = 0,95 = n, n−o + o{/ {/0-1,96 +1,96 −o +o{/ {/k:
Se Z è una variabile casuale normale standardizzata, la
probabilità che Z si trovi tra e sarà pariall'area 1 - /z > o 2 = k/2 => /-o < z < +o 2 = 1 - k{/ {/ {/Sostituendo: _r - _ } } } }/-o < < +o 2 = 1 - k => P/| - ~ | < _ < | + ~ |2 = - b4_r{/ {/ /X /X_r b4_r. "_r b4_r" "_r b4_r"+ o _.- oSono variabili casuali e Quindi sia a sinistra che a destra della disuguaglianza ci sono due termini{/ {/e e no a Inche sono due variabili casuali. La probabilità si riferisce aquesto modo si può costruire un intervallo aleatorio:>_r b4_r, _r b4_r]x = - o + oy {/ {/kChe, con la probabilità 1 - copre il vero valore del parametro._r[se(_r k,Si parte quindi da uno stimatore , al quale si aggiunge o si sottrae una quantità che dipende dalla variabilitàdello stimatore )] per poi moltiplicarlo per una quantità che dipende da cioè il complemento del{livello di
confidenza (“, dove è il valore della variabile casuale). Nel caso di variabile casuale normale standardizzata, si avrà: _r b4_r _r b4_r± “ => ± o{ {/o k _,{/ [se(_rDove dipende dal livello di confidenza 1 – che si stabilisce. Quindi l’andare a destra e sinistra di_dipende dalle caratteristiche dello stimatore, cioè la sua variabilità )] e da quanto si vuole chel’intervallo contenga o meno il parametro (livello di confidenza). 16”MODELLI STATISTICI”MODELLI STATISTICI:I modelli sono strutture formali che hanno l’obiettivo di descrivere, spiegare e comprendere fenomenicomplessi. Si parla di quando si riesce, attraverso una formulazione matematica, a modelli matematicidescrivere il legame che ce tra una variabile e un’altra [esempio: y = f(x), dove y rappresenta la variabile dipendente o risposta, mentre la x rappresenta la variabile indipendente o esplicativa, cioè dalla sua conoscenza si riesce
A spiegare perché si presenta un certo valore della y. I modelli statistici sono una particolare categoria di modelli matematici (modelli matematico-statistici).
Quello che si introduce rispetto al modello matematico è la componente di incertezza, quindi, data una x si possono presentare più valori della y, la quale non è più una variabile deterministica (dato un valore della x, si può prevedere il valore della y), ma una variabile casuale perché può assumere più valori con una certa probabilità. Si tratta di aggiungere w, definita come componente casuale: y = f(x) + w.
La componente casuale esprime tutte quelle variabili che non si è osservato (quindi tutte tranne la x) che influiscono sulla y (esprime la differenza tra i dati osservati y e quelli della funzione f(x), cioè w = y - f(x)). Si tratta di una variabile casuale che determina l'incertezza, che può assumere diversi valori con una certa probabilità.
certaprobabilità [data una x, si ha una certa f(x) più qualcosa che varia] questo fa diventare la y una variabilecasuale.
Il processo di formulazione di un modello può essere scomposto nei seguenti passaggi logici:
- Scelta delle variabili, tutto ciò che non si osserva sarà contenuto in w.
- Rilevazione dei dati, si va a fare un campione.
- Scelta del tipo di modello, stabilire la f, cioè che legame ce tra le variabili.
[esempio: y = f(x) + w => y = a + bx + w, la f scelta in questo caso è una funzione lineare]. - Stima dei parametri incogniti.
- Analisi della bontà del modello, cioè come si adatterà il modello ai dati della popolazione, tanto piùsi adatterà, tanto più il modello sarà giusto.
- Si utilizza il modello per fini pratici: per analizzare un fenomeno per fare previsioni creare degli scenari 17
MODELLI LINEARI E NON LINEARI:
I modelli possono essere e La linearità
può essere riferita alle variabili esplicative, cioè illineari non lineari. Il legame tra la variabile esplicativa e la y, quindi la f, in genere per linearità di un elemento si intende la sua presenza espressa solo come termine di primo grado e in linea: non al denominatore, non esponenziale, non come argomento di logaritmi o altre forme particolari. Alcuni modelli sono linearizzabili, ad esempio se il modello è del tipo: y = a + bx, si tratta di un modello non lineare ma linearizzabile perché se si considera il logaritmo naturale di y avremo: ln(y) = ln(a) + bx. CLASSIFICAZIONE DEI MODELLI: Si possono avere modelli per tipo di rilevazione del campione, il quale può essere rilevato in più modi: le variabili y e x sono rilevate su unità distinte, in un certo istante temporale. Oppure le variabili y e x sono rilevate in T diversi istanti temporali, ma riferite sempre alle medesime grandezze (esempio: i consumi e i redditi delle persone).famiglie da un anno all'altro). le variabili y e x sono rilevate in T diversi istanti temporali sulle stesse unità. Ci sono quindi modelli: - Sezionali (cross section) per o (campione su cui si rilevano due o più variabili). - Serie storiche (time series) per o (non si osserva come si modifica il fenomeno nel tempo, ma osservazioni ripetute). - Panel data (dati panel) si riesce a capire qual è la transazione da uno stato all'altro. Questo permette di costruire la matrice di transazione). IL MODELLO DI