Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ANALISI DELLE DISTRIBUZIONI BIVARIATE: REGRESSIONE LINEARE
Rappresentazione semplificata della realtà con lo scopo di descrivere e interpretare un fenomeno, prevedere le osservazioni future.
yi = f(xi) + ei i=1,2,...,n
Come scegliere la retta "migliore"? metodo dei minimi quadrati
Probabilità
Linguaggio matematico per quantificare l'INCERTEZZA o il GRADO DI RISCHIO
Quando si parla di probabilità si ha a che fare con un Esperimento casuale ovvero una prova il cui esito non può essere previsto con certezza
Informalmente: la probabilità rappresenta una misura del grado di fiducia dell'accadimento di un evento sulla scala [0, 1], 0 = impossibile e 1 = certo.
L'algebra degli eventi: operazioni tra eventi
Unione
A ∪ B si legge o o unione
L'unione tra A e B è un nuovo evento che si verifica al verificarsi di A o B
Intersezione
A ∩ B si legge e o intersezione
L'intersezione tra A e B
è un nuovo evento che si verifica se si A Bverificano sia che A BIMPORTANTE : Due eventi, e sono incompatibili se la loroA Bintersezione è l’insieme vuoto ossia se ∩ = ∅NegazioneA si legge “Negazione di A” o “non si verifica A”ALa negazione di è un nuovo evento che si verifica quando l’eventoA non si verificaΩ = ∅ (insieme vuoto, evento impossibile)Assiomi della probabilità25P Eè una misura di probabilità che assegna a ciascuno evento unEnumero reale, chiamato probabilità di se soddisfa i seguentiassiomi (enunciati non dimostrabili ma utili e coerenti)1. Gli eventi formano un’algebra di Boole ossia sono chiusirispetto alle operazioni di unione, intersezione e negazioneP(A) ∀E2. La probabilità è un numero non negativo ossia ≥ 0P(Ω)=13. A B4. Se e sono eventi incompatibili allora la probabilitàP(A B) P(A) P(B)dell’evento unione è data da ∪ = +Dagli assiomi si ricava che:laLa probabilità è un numero che varia da 0 (probabilità evento impossibile) a 1 (probabilità evento certo).
P(A) = 1 - P(A')
Se A e B sono compatibili allora:
P(A ∩ B) = P(A) * P(B)
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Esempio:
Probabilità condizionata: estrazione da un mazzo di carte senza reinserimento
26
Variabili casuali discrete
Variabile casuale: descrizione numerica di un esperimento casuale. Ad ogni evento elementare ω ∈ Ω la variabile casuale associa un numero reale.
Variabile casuale di Bernoulli
Si applica a tutti gli esperimenti bernoulliani ovvero esperimenti casuali che hanno solo due esiti possibili: il successo ( = 1) e l'insuccesso ( = 0).
Più in generale, diventa bernoulliana la prova dove si ha interesse a verificare se un certo evento (una caratteristica) si verifica (è presente) o no.
Variabile casuale binomiale
V.c. Bernoulli
E(X) = Π
Var(X) = (1-Π)Π
V.c. Binomiale
E(X) = nΠ
Var(X) = nΠ (1-Π)
Variabili casuali continue
In assenza di
quest’ultima il fenomeno non avrebbe rilevanza statistica, essendo privo di variabilità, ed è quindi a causa dellaseconda componente che emerge la necessità di studiarlo conmetodi statistici.
In molteplici situazioni, tale componente accidentale può interpretarsi come la somma di effetti che fra loro si compensano, di32 un gran numero di cause indipendenti in buona parte nonidentificabili e non quantificabili.
E(Z)= 0Var(Z)= 1
L’unità di misura della Z è la deviazione standard
pnorm(x) su Rstudio per la probbilità
qnorm(x) su Rstudio per il quantile
Inferenza
La Statistica può essere definita come l’insieme di tecnichefinalizzate alla raccolta e all’analisi dei dati con l’obiettivo distudiare in termini quantitativi un fenomeno collettivo.
La Statistica descrittiva si occupa di descrivere e sintetizzare i dati(tabelle, grafici e indici di sintesi)
La Statistica inferenziale si occupa di formulare previsioni econsente di
Trasformare le informazioni in conoscenza. Per spiegarci meglio allora è utile introdurre alcuni concetti e termini di base, come quello di popolazione, di campione, di parametro e di statistica. La statistica inferenziale viene impiegata per ottenere previsioni su una popolazione sulla base di informazioni raccolte su un campione selezionato da essa. Le tecniche statistiche inferenziali sono in grado di prevedere valori caratteristici di grandi popolazioni attraverso analisi condotte su campioni di dimensioni relativamente ridotte (dal particolare all'universale).
Campione non probabilistico - scelta volontaria del soggetto.
Casualizzazione del campione - tutti i soggetti della popolazione hanno e devono avere la stessa probabilità di entrare nel campione.
Più in generale, una collezione di v.c. ..., forma un campione casuale semplice se:
- le v.c. ..., sono indipendenti
- ogni v.c. , = 1, 2, ..., possiede la stessa distribuzione
la distribuzione di alcune statistiche (per esempio la media campionaria) diventa nota, anche se NON SAPPIAMO NULLA A PROPOSITO DELLA FORMA DELLA DISTRIBUZIONE DELLA POPOLAZIONE da cui i campioni sono estratti. La regola euristica è che un campione con ≥ 30 sia sufficientemente grande da giustificare l'applicazione del TLC, anche se per molte popolazioni non normali un campione più piccolo può essere sufficiente.
Stimatori
L'inferenza statistica riguarda l'insieme di metodologie che affrontano il problema di come trarre conclusioni su di un'intera popolazione sulla base di quanto osservato su un campione X. Sia la v.c. che rappresenta il fenomeno osservato sulla popolazione di interesse. Immaginiamo di essere interessati al valore di un parametro incognito θ, quindi è una sintesi numerica della popolazione. La teoria dell'inferenza statistica può essere suddivisa in:
- STIMA PUNTUALE: θ è stimato attraverso un singolo valore numerico
che viene chiamato stima puntuale .stime plausibili2. STIMA PER INTERVALLO : un intervallo di (unintervallo numerico) costruito attorno a θ al quale è associato unfissato livello di affidabilità.Un intervallo di valori costruito intorno alla stima puntuale che ciaspettiamo contenga, con un certo livello di fiducia, il valore delparametro incognito.
3. VERIFICA D’IPOTESI : si parte da una ipotesi sul valore di θ,chiamata ipotesi nulla, e ci si chiede se i dati fornisconoun’evidenza tale da rifiutare l’ipotesi di partenza.
X1, X2, XnSia . . . , un campione casuale semplice di dimensionen Xpari a estratto dalla popolazione
Lo stimatore è una opportuna funzione delle osservazionicampionarie che ha come obiettivo quello di pervenire ad una stimadi θSi noti quindi che lo stimatore non è altro che una statisticacampionaria (funzione delle osservazioni campionarie) che ha43l’obiettivo di stimare θ .Lo indichiamo con:T t(X1,X2,...,Xn)=T è
Una v.c. perché il suo valore dipende dal campione casuale estratto. Lo stimatore ha una sua distribuzione di probabilità: la distribuzione campionaria. La conoscenza della distribuzione campionaria ci permette di capire se lo stimatore scelto produrrà con elevata probabilità stime vicine a θ. Dobbiamo definire delle proprietà desiderabili che uno stimatore deve possedere per essere preferito agli altri. L'errore nella stima è opportuno assicurarsi che non presenti sistematicità e sia piccolo in ordine di grandezza. Le proprietà vengono distinte in esatte e asintotiche:
- Esatte: Correttezza e Efficienza. Studiano le proprietà dello stimatore tenendo fissa la dimensione del campione.
- Asintotiche: Consistenza. Studiano le proprietà al crescere della dimensione campionaria.
Correttezza: 44. Efficienza: Dati due stimatori e del parametro θ, è più efficiente di se e solo se:
MSE(T1) < MSE(T2) per tutti i valori di θ.
Dimostra che l'MSE può essere decomposto in due componenti, ovvero si ha che:
θ2 B(T)2 MSE(T) = E[T Var(T)] = − = +, cioè l'errore quadratico medio è pari alla varianza dello stimatore più la sua distorsione al quadrato. B(T)2 MSE(T)
Inoltre, se lo stimatore è corretto allora = 0 e quindi = Var(T) T1 T2, T1 T2
Dati due stimatori corretti, e è più efficiente di se e solo se Var(T1) Var(T2) <
Consistenza:
Uno stimatore è consistente in media quadratica se e solo se Var(Tn) B(Tn) limn→∞ = 0 e limn→∞ = 0.
Quindi, uno stimatore corretto è consistente in media quadratica se e solo se 46 Var(Tn) limn→∞ = 04748
Al fine di una informazione corretta e completa sappiamo che un indice di sintesi deve essere sempre accompagnato da una misura di variabilità.
Allo stesso modo la stima puntuale deve essere sempre accompagnata da una misura della sua precisione, un intervallo di valori plausibili.
La stima per intervallo fornisce per il parametro incognito
θ° L'intervallo di valori è costruito intorno alla