Appunti Statistica di Base

Appunti Statistica di Base basati su appunti personali del publisher presi alle lezioni del prof. Gattone, dell’università degli Studi Gabriele D'Annunzio - Unich, della …

Esame Statistica base

Facoltà Economia

Dal corso del Prof. Gattone Stefano

Università Università degli studi Gabriele D'Annunzio di Chieti e Pescara

Publisher nickragaz1999

A.A. 2020-2021

59 pagine

1 download

Appunto

Vota 3,0 / 5 (1)

Scarica

Estratto del documento

ANALISI DELLE DISTRIBUZIONI BIVARIATE: REGRESSIONE LINEARE

Rappresentazione semplificata della realtà con lo scopo di descrivere e interpretare un fenomeno, prevedere le osservazioni future.

yi = f(xi) + ei i=1,2,...,n

Come scegliere la retta "migliore"? metodo dei minimi quadrati

Probabilità

Linguaggio matematico per quantificare l'INCERTEZZA o il GRADO DI RISCHIO

Quando si parla di probabilità si ha a che fare con un Esperimento casuale ovvero una prova il cui esito non può essere previsto con certezza

Informalmente: la probabilità rappresenta una misura del grado di fiducia dell'accadimento di un evento sulla scala [0, 1], 0 = impossibile e 1 = certo.

L'algebra degli eventi: operazioni tra eventi

Unione

A ∪ B si legge o o unione

L'unione tra A e B è un nuovo evento che si verifica al verificarsi di A o B

Intersezione

A ∩ B si legge e o intersezione

L'intersezione tra A e B

è un nuovo evento che si verifica se si A Bverificano sia che A BIMPORTANTE : Due eventi, e sono incompatibili se la loroA Bintersezione è l’insieme vuoto ossia se ∩ = ∅NegazioneA si legge “Negazione di A” o “non si verifica A”ALa negazione di è un nuovo evento che si verifica quando l’eventoA non si verificaΩ = ∅ (insieme vuoto, evento impossibile)Assiomi della probabilità25P Eè una misura di probabilità che assegna a ciascuno evento unEnumero reale, chiamato probabilità di se soddisfa i seguentiassiomi (enunciati non dimostrabili ma utili e coerenti)1. Gli eventi formano un’algebra di Boole ossia sono chiusirispetto alle operazioni di unione, intersezione e negazioneP(A) ∀E2. La probabilità è un numero non negativo ossia ≥ 0P(Ω)=13. A B4. Se e sono eventi incompatibili allora la probabilitàP(A B) P(A) P(B)dell’evento unione è data da ∪ = +Dagli assiomi si ricava che:la

La probabilità è un numero che varia da 0 (probabilità evento impossibile) a 1 (probabilità evento certo).

P(A) = 1 - P(A')

Se A e B sono compatibili allora:

P(A ∩ B) = P(A) * P(B)

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Esempio:

Probabilità condizionata: estrazione da un mazzo di carte senza reinserimento

Variabili casuali discrete

Variabile casuale: descrizione numerica di un esperimento casuale. Ad ogni evento elementare ω ∈ Ω la variabile casuale associa un numero reale.

Variabile casuale di Bernoulli

Si applica a tutti gli esperimenti bernoulliani ovvero esperimenti casuali che hanno solo due esiti possibili: il successo ( = 1) e l'insuccesso ( = 0).

Più in generale, diventa bernoulliana la prova dove si ha interesse a verificare se un certo evento (una caratteristica) si verifica (è presente) o no.

Variabile casuale binomiale

V.c. Bernoulli

E(X) = Π

Var(X) = (1-Π)Π

V.c. Binomiale

E(X) = nΠ

Var(X) = nΠ (1-Π)

Variabili casuali continue

In assenza di

quest’ultima il fenomeno non avrebbe rilevanza statistica, essendo privo di variabilità, ed è quindi a causa dellaseconda componente che emerge la necessità di studiarlo conmetodi statistici.

In molteplici situazioni, tale componente accidentale può interpretarsi come la somma di effetti che fra loro si compensano, di32 un gran numero di cause indipendenti in buona parte nonidentificabili e non quantificabili.

E(Z)= 0Var(Z)= 1

 L’unità di misura della Z è la deviazione standard

pnorm(x) su Rstudio per la probbilità

qnorm(x) su Rstudio per il quantile

Inferenza

La Statistica può essere definita come l’insieme di tecnichefinalizzate alla raccolta e all’analisi dei dati con l’obiettivo distudiare in termini quantitativi un fenomeno collettivo.

La Statistica descrittiva si occupa di descrivere e sintetizzare i dati(tabelle, grafici e indici di sintesi)

La Statistica inferenziale si occupa di formulare previsioni econsente di

Trasformare le informazioni in conoscenza. Per spiegarci meglio allora è utile introdurre alcuni concetti e termini di base, come quello di popolazione, di campione, di parametro e di statistica. La statistica inferenziale viene impiegata per ottenere previsioni su una popolazione sulla base di informazioni raccolte su un campione selezionato da essa. Le tecniche statistiche inferenziali sono in grado di prevedere valori caratteristici di grandi popolazioni attraverso analisi condotte su campioni di dimensioni relativamente ridotte (dal particolare all'universale).

Campione non probabilistico - scelta volontaria del soggetto.

Casualizzazione del campione - tutti i soggetti della popolazione hanno e devono avere la stessa probabilità di entrare nel campione.

Più in generale, una collezione di v.c. ..., forma un campione casuale semplice se:

le v.c. ..., sono indipendenti
ogni v.c. , = 1, 2, ..., possiede la stessa distribuzione

diXprobabilità della popolazione³⁸ X₁, X₂, X_nSi dice che . . . , sono variabili casuali indipendenti ei.i.d.identicamente distribuite ,Una statistica campionaria è una funzione a valori reali delleX₁, X₂, X_nosservazioni campionarie . . . ,t(X₁, X₂, ..., X_n)La indichiamo con: t(X₁, X₂, X_n)E’ fondamentale comprendere che . . . , è una variabilecasuale il cui valore varia da campione a campione.La sua distribuzione di probabilità è nota come distribuzionecampionaria .ⁿAl crescere di n assume una forma campanulare ovvero assomigliaad una curva Normale.³⁹Teorema del limite centrale - TLCUno dei risultati più importanti e più utili della Teoria dellaprobabilità e dell’inferenza statistica.⁴⁰Versione informale : la media (o la somma) di un gran numero div.c. i.i.d. (purchè di varianza finita) è approssimativamenteNormaleIl teorema del limite centrale afferma che la somma (o la media) digran numeroun di v.c. i.i.d. è approssimativamente normaleQuesto significa che

la distribuzione di alcune statistiche (per esempio la media campionaria) diventa nota, anche se NON SAPPIAMO NULLA A PROPOSITO DELLA FORMA DELLA DISTRIBUZIONE DELLA POPOLAZIONE da cui i campioni sono estratti. La regola euristica è che un campione con ≥ 30 sia sufficientemente grande da giustificare l'applicazione del TLC, anche se per molte popolazioni non normali un campione più piccolo può essere sufficiente.

Stimatori

L'inferenza statistica riguarda l'insieme di metodologie che affrontano il problema di come trarre conclusioni su di un'intera popolazione sulla base di quanto osservato su un campione X. Sia la v.c. che rappresenta il fenomeno osservato sulla popolazione di interesse. Immaginiamo di essere interessati al valore di un parametro incognito θ, quindi è una sintesi numerica della popolazione. La teoria dell'inferenza statistica può essere suddivisa in:

STIMA PUNTUALE: θ è stimato attraverso un singolo valore numerico

che viene chiamato stima puntuale .stime plausibili2. STIMA PER INTERVALLO : un intervallo di (unintervallo numerico) costruito attorno a θ al quale è associato unfissato livello di affidabilità.Un intervallo di valori costruito intorno alla stima puntuale che ciaspettiamo contenga, con un certo livello di fiducia, il valore delparametro incognito.

3. VERIFICA D’IPOTESI : si parte da una ipotesi sul valore di θ,chiamata ipotesi nulla, e ci si chiede se i dati fornisconoun’evidenza tale da rifiutare l’ipotesi di partenza.

X1, X2, XnSia . . . , un campione casuale semplice di dimensionen Xpari a estratto dalla popolazione

Lo stimatore è una opportuna funzione delle osservazionicampionarie che ha come obiettivo quello di pervenire ad una stimadi θSi noti quindi che lo stimatore non è altro che una statisticacampionaria (funzione delle osservazioni campionarie) che ha43l’obiettivo di stimare θ .Lo indichiamo con:T t(X1,X2,...,Xn)=T è

Una v.c. perché il suo valore dipende dal campione casuale estratto. Lo stimatore ha una sua distribuzione di probabilità: la distribuzione campionaria. La conoscenza della distribuzione campionaria ci permette di capire se lo stimatore scelto produrrà con elevata probabilità stime vicine a θ. Dobbiamo definire delle proprietà desiderabili che uno stimatore deve possedere per essere preferito agli altri. L'errore nella stima è opportuno assicurarsi che non presenti sistematicità e sia piccolo in ordine di grandezza. Le proprietà vengono distinte in esatte e asintotiche:

Esatte: Correttezza e Efficienza. Studiano le proprietà dello stimatore tenendo fissa la dimensione del campione.
Asintotiche: Consistenza. Studiano le proprietà al crescere della dimensione campionaria.

Correttezza: 44. Efficienza: Dati due stimatori e del parametro θ, è più efficiente di se e solo se:

MSE(T1) < MSE(T2) per tutti i valori di θ.

Dimostra che l'MSE può essere decomposto in due componenti, ovvero si ha che:

θ² B(T)² MSE(T) = E[T Var(T)] = − = +, cioè l'errore quadratico medio è pari alla varianza dello stimatore più la sua distorsione al quadrato. B(T)² MSE(T)

Inoltre, se lo stimatore è corretto allora = 0 e quindi = Var(T) T1 T2, T1 T2

Dati due stimatori corretti, e è più efficiente di se e solo se Var(T1) Var(T2) <

Consistenza:

Uno stimatore è consistente in media quadratica se e solo se Var(Tn) B(Tn) limn→∞ = 0 e limn→∞ = 0.

Quindi, uno stimatore corretto è consistente in media quadratica se e solo se 46 Var(Tn) limn→∞ = 04748

Al fine di una informazione corretta e completa sappiamo che un indice di sintesi deve essere sempre accompagnato da una misura di variabilità.

Allo stesso modo la stima puntuale deve essere sempre accompagnata da una misura della sua precisione, un intervallo di valori plausibili.

La stima per intervallo fornisce per il parametro incognito

θ° L'intervallo di valori è costruito intorno alla

Anteprima

Vedrai una selezione di 13 pagine su 59