Che materia stai cercando?

Sintesi Corso di Statistica

Riassunto di tutto il corso di Statistica tenuto dalla professoressa Giulia Roli.
Particolare attenzione é posta sugli indici. Appunti basati su appunti personali del publisher presi alle lezioni della prof. Roli dell’università degli Studi di Bologna - Unibo. Scarica il file in formato PDF!

Esame di Statistica docente Prof. G. Roli

Anteprima

ESTRATTO DOCUMENTO

Nelle successioni: x1=x2=x3=x4=...=μ

2. Se R=1 vi e il caso limite di MASSIMA CONCENTRAZIONE ovvero l’ammontare totale di carattere X osservato è

posseduto da una sola unità statistica

Questo caso coincide con la MASSIM VARIABILITA ma NON con la MASSIMA ETEROGENEITA

Nelle distribuzioni di frequenza: Aeroporti Regioni

0 19

40 1

Totale=40 Totale=20

Nelle successioni: Xu=0 per ogni Xu diverso da Xu* e Xu*=Nμ (ammontare totale di

carattere)

STATISTICA BIVARIATA

Indici di Associazione

(Hanno l’obiettivo di considerare due caratteri X e Y simultaneamente con lo scopo se esiste, e di che tipo, una relazione tra i due caratteri)

Indice di Connessione

Indice Chi-Quadrato di Pearson (X^2):

Indice di connessione che misura la forza della relazione tra X e Y in termini di allontanamento/avvicinamento alla condizione di

INDIPENDENZA STATISTICA

L’indice Chi-Quadrato varia da 0 <= X^2 <= Nmin(K-1,H-1):

1. Se X^2=0 vi è INDIPENDENZA STATISTICA, quindi il carattere X non ha influenzato il carattere Y, e viceversa, in nessun

modo

E una condizione BIUNIVOCA

2. Se X^2=Nmin(K-1,H-1) vi è la CONDIZIONE DI PERFETTA DIPENDENZA, ovvero se conosco una variabile so già quanto

sarà l’altra variabile

Questa condizione NON è BIUNIVOCA, infatti:

1. Y dipende da X perfettamente SOLO se K>h

2. X dipende da Y perfettamente SOLO se K<h

Ex 2. X,Y y1 y2 y3 y4

x1 n11 n1.

0 0 0

x2 n23 n24 n2.

0 0

x3 0 0 0

n32 n3.

n.1 n.2 n.3 n.4 N

Se si hanno tabelle QUADRATE (K=h) la dipendenza è BILATERALE, ovvero X dipende perfettamente da Y e Y dipende

perfettamente da X

Indici di Concordanza

(Misura la tendenza delle unità statistiche ad associare una modalità di alta di un carattere a modalita basse dell’altro carattere e viceversa:

Ci sono due CASI LIMITE:

1. MASSIMA CONCORDANZA ovvero a valori alti di x corrispondono valori alti di Y e a valori bassi di X corrispondono valori

bassi di Y e viceversa X Alto Medio Basso

Alto X 0 0 E la diagonale principale del rettangolo

Medio 0 0

X

Bass0 0 0 X

2. MASSIMA DISCORDANZA ovvero a modalità alte di X corrispondono modalità basse di Y e a modalita basse di X

corrispondono modalità basse di Y e viceversa X Alto Medio Basso E la diagonale secondaria del rettangolo

Alto 0 0 X

Medio X

0 0

0 0

Bass0 X

Indici di Cogradazione

(Misurano l’avvicinamento/allontanamento da situazioni estreme, sono cosi chiamati gli indici di concordanza per i caratteri quantitativi)

Codevianza (Codev):

E la somma dei prodotti degli scarti di ogni osservazione dalla propria media

E NEGATIVA quando i contributi delle unità statistiche alla DISCORDANZA prevalgono, mentre è POSITIVA se i contributi

dell’unità statistiche alla CONCORDANZA prevalgono

Se Codev > 0 allora vi è CONCORDANZA

Se Codev < 0 allora vi è DISCORDANZA

Se Codev = 0 allora vi è equilibrio perfetto tra le situazioni di concordanza e discordanza delle unità statistiche (quindi non si

può dire nulla sulla concordanza)

Covarianza (σxy):

E la media dei prodotti degli scarti di ogni osservazione della propria media

Il suo segno varia in base a quello della codevianza e segue gli stessi criteri ( se < 0 vi è DISCORDANZA, se > 0 vi è

CONCORDANZA, se = 0 vi è EQUILIBRIO)

La covarianza varia da: -σxσy <= σxy <= σxσy (ovvero varia dal Prodotto negativo degli scarti quadratici medi d X e Y al

prodotto positivo degli scarti quadratici medi di X e Y)

Coefficiente di Correlazione Lineare (rxy):

E un indice Relativo ed è la relativizzazione della covarianza dividendo per il valore massimo che questa può assumere

Il Coefficente di Correlazione lineare varia da: -1 <= r <= 1 (i due valori limiti sono assunti nelle particolari situazioni in cui tutti i

punti, che rappresentano tutte le coppie di osservazione su un diagramma di dispersione, risultano allineati su una retta con

pendenza negativa (r=-1) o positiva (r=1), di conseguenza si avranno valori piu o meno vicini ai due valori limite a seconda

della forza lineare che lega i due caratteri)

Se r=0 non vi è ne concordanza ne discordanza

Se r=-1 vi è MASSIMA DISCORDANZA

Se r=1 vi è MASSIMA CONCORDANZA

Regressione lineare semplice (R^2):

Introduce la direzione della relazione tra i 2 caratteri:

Y è la variabile dipendente (o risposta/Outcome)

X è la variabile indipendente (o covariata/regressione)

X e Y sono rappresentati su un grafico a dispersione:

E la loro relazione non è di tipo deterministico ma contiene

un termine di errore (εu)

Quindi i valori teorici ci Yu sono i valori ipotetici che

starebbero tutti sulla medesima retta:

^

Yu= β0 + β1Xu (non vi è termine di errore così le misurazioni si pongono sulla stessa retta)

1.La retta passa per il punto di coordinate (μx; μy)

2.β0 è il valore di Y previsto dal modello quando X=0

3.β1 indica quanto varia Y (secondo il modello) aumentando X di una unità:

Se β1>0 si ha concordanza e relazione lineare diretta o positiva di Y da X

Se β1<0 si ha discordanza e relazione lineare inversa o negativa di Y da X

Se β1=0 non vi è ne concordanza ne discordanza, e vi è indipendenza lineare da Y da X (la retta è

parallela all’asse delle ascisse X)

Confrontando le varie indipendenze:

Ind. Statistica —> Ind. in media —> Ind. lineare

Ci si interroga sulla Bontà del test eseguito (in quanto non si sa di che entità sia εu):

1. Vi è una parte di Yu spiegata dal modello

2. Vi è una parte di Yu non spiegata dal modello (εu= Yu-Yu(Teorico))

Indice di Determinazione Lineare (R^2)

Misura della Bontà di adattamento della retta ai dati come quota di variabilita di Y spiegata dal modello sul totale

Varia tra 0 e 1:

Se R^2=0 è nulla la devianza di regressione, ovvero il coefficiente angolare della retta è 0 e quindi l’unica retta

possibile è parallela ad X e interseca Y in μy, ovvero il carattere X non ha nessun ruolo nello spiegare il dipendente e

quindi il modello ha un pessimo adattamento ai dati, vi è quindi INDIPENDENZA LINEARE

Se R^2=1 è 0 la devianza residua, ovvero tutti gli errori εu sono nulli, quindi tutti i punti sono allineati sulla retta e vi è

un perfetto adattamento ai dati, sia che la retta abbia pendenza negativa o positiva, quindi vi è la perfetta dipendenza

Lineare

Inferenza Statistica

Il campione rappresenta l’intera popolazione, con l’obiettivo di capire se la statistica campionaria è in buona relazione con le statistiche totali

per essere generalizzate

Vi sono errori non campionari (o sistematici, connessi alla modalità di raccolta di informazioni) e errori campionari (dovuti al meccanismo di

selezione)

Per passare da popolazione a campione vi sono svariati metodi, ma il principale è il CAMPIONAMENTO CASUALE SEMPLICE CON

RIPETIZIONE, in cui ci si chiede quali possano essere i possibili esiti.

La probabilità rende gestibile il campione (probabilità che una singola unità entri a far parte del campione; probabilità di osservare una verità

statistica campionaria, probabilità che un certo campione diventi quello realmente osservato)

Probabilità:

Sempre compresa tra 0 e 1, se p=0 evento Nullo, se p=1 evento Certo (o spazio degli eventi possibili)

Eventi semplici: possibili esiti di un esperimento aleatorio, un’unione di eventi semplici forma un evento complesso

Sono rappresentati con il diagramma di Venn

Lo spazio degli eventi possibili è composto dall’evento A e dallo spazio dell’evento complementare Non A

Eventi Incompatibili o Disgiunti: eventi che non hanno punti in comune

Eventi Compatibili o congiunti o intersezione: eventi che si possono verificare insieme e generano un nuovo evento complesso

Eventi Unione: sia per eventi congiunti che disgiunti, è un insieme costituto da tutti i punti che appartengo ad A e a B o a entrambi.

Gli eventi Complementari sono anche incompatibili (non si toccano e coprono tutto lo spazio degli eventi)

Legge della somma: P(AuB)= P(A)+P(B)-P(AnB) (se A e B sono complementari allora P(AuB)=1, se A e B incompatibili allora P(AuB)=P(A)

+P(B))

Legge del Prodotto: P(AnB)= P(A|B)P(B)=P(B|A)P(A) con P(A|B)= P(AnB)/P(B) e P(B|A)= P(AnB)/P(A)

Eventi Indipendenti: il verificarsi di uno non influenza il verificarsi dell’altro, quindi la probabilità del verificarsi di A è uguale alla probabilità di

verificarsi di A condizionato da B (P(A|B) è così anche per B (P(AnB)/P(B)=P(A)), quindi la condizione di inpendenza è la seguente

P(AnB)=P(A)P(B)

L’indipendenza statistica coincide con gli eventi indipendenti

Con gli eventi indipendenti la legge della somma diviene: P(AuB)= P(B)+P(A)-P(A)P(B)

Due eventi incompatibili sono assolutamente diipendenti, quindi gli eventi indipendenti non sono incompatibili

Distribuzioni di Probabilità:

Tabella che ha righe che sono degli eventi, quindi associa a ciascun evento dello spazio degli eventi (Ω) alla propria probabilità di

accadimento.

Distribuzione campionarie: tabella che associa a ciascuna statistica campionaria osservabile nei possibili campioni estraibili la

corrispondente probabilità di accadimento, da cui si può ricavare la proprietà della statistica campionari rispetto al parametro corrispondente

di popolazione(incognito)

Distribuzione della media campionaria: associa a ciascuna media campionaria osservabile nei possibili campioni la sua probabilità (i

campioni che generano una media che non si discosta troppo dalla media generale hanno una distribuzione di proprietà maggiore)

La media delle medie campionarie è uguale alla media di popolazione

La varianza delle medie campionarie è uguale alla varianza della popolazione divisa per la numerosità campionaria(σ^2μ=σ^2/n) (cresce se

aumenta la varianza della popolazione e diminuisce se aumenta la numerosità campionaria).

Nel caso di n e N molto elevati, l’individuazione della media campionaria avviene nel modo seguente:

(La media campionaria Si distribuisce secondo

la funzione D con media pari alla media di

popolazione e varianza pari alla varianza di

popolazione divisa per la numerosità cam-

-pionaria) NORMALE o GAUSSIANA

La maggior parte dei caratteri si distribuisce secondo una legge di DISTRIBUZIONE detta , la quale ha

caratteristiche standard: Si distribuisce come una normale con media e varianza (o scarto) pari al loro rispettivo valore,

Da cui ricavo una frequenza relativa o distribuzione di probabilità

La curva ha una distribuzione campanulare Simmetrica, e il valore più alto è il calore più alto di probabilità (quindi che si presenterà più volte),

ed il valore più probabile coincide con tutti gli indici di tipicità

Non tocca mai l’asse delle ascisse e la sua area sottostante è pari all’evento certo, perchè identifica la probabilità di tutti gli eventi possibili,

con l’asse di simmetria della curva (μ) divide l’area in due aree pari a 0,5, quindi vi è la stessa probabilità di trovare valori più alti e più bassi

della media: Area[μ-σ; μ+σ]= 68%

Area[μ-2σ; μ+2σ]=95%

Variando la media la curva si sposta sull’asse delle ascisse (Dx se media aumenta, Sx se

media diminuisce)

Aumentando la varianza si alzano le code e si abbassa il punto massimo, diminuendola la

curva tende ad essere più campanulare

La NORMALE STANDARDIZZATA (Z) è una normale con media 0 e varianza 1 —>la probabilità di un singolo punto è sempre 0 (in quanto

l’area è nulla)

Standardizzare è una trasformazione Lineare, che annulla la media della mia variabile e porta la sua varianza uguale a 1

La media campionaria è distribuita secondo una Normale con media pari alla media di popolazione e varianza pari alla varianza di

popolazione/n

Le curve diventanti normali nel caso in cui io abbia tante osservazioni, ovvero n>=30, quindi spesso si eseguono delle osservazioni ampie.

Il ragionamento è estendibile a tutti gli indici della statistica Descrittiva.

Il problema si riscontra con i caratteri di tipo QUALITATIVO:

Si ragione singolarmente su ogni modalità, e la nuova variabile diventa la frequenza di tale modalità, così tratto una variabile

qualitativa in probabilità, con la frequenza relativa che è detta Proporzione di Popolazione (n*/N)

PROPORZIONE CAMPIONARIA

La statistica campionaria corrispondete è la (ovvero numero di unità statistiche nel

campione che presentano la modalità di interesse)

Lo scopo è associare a ciascuna proporzione campionaria la propria probabilità (la probabilità di una proprizione Nulla non è quasi

mai 0)

Il coefficiente binomiale prende in esame due quantità e calcola il numero di combinazioni dei due numeri

La distribuzione campionaria Si distribuisce come una binomiale, con il valore di medio di p^ che coincide con il parametro di

popolazione (ovvero alla proporzione di popolazione che cerco), e con la varianza pari alla moltiplicazione tra l’evento favorevole è

quello non favorevole diviso per la numerosità:

Quando i valori si elevano (n>=30), si sfrutta il fatto che quando i numeri sono elevati tutte le distribuzioni tendono alla normale:

Le fasi dell’inferenza statistica:

Stima puntale:

Individua la statistica campionaria s più adeguata per stimare il parametro di popolazione θ, con le possibili caratteristiche

campionarie che divengono lo stimatore T. Se osservata su un campione la statistica campionaria diviene una stima (valore puntuale

che è una realizzazione dello stimatore)

Stima Intervallare:

Individua un intervallo in cui mi aspetto con una certa fiducia vi sia un θ a partire dalla stima (ovvero dai dati campionari) e sfruttando

le proprietà dello stimatore T

Verifica di ipotesi:

Valuta la plausibilità di una certa ipotesi su θ a partire dalla stima e sfruttando le proprietà dello stimatore T

STIMA PUNTUALE

La forma della distribuzione campionaria non è presa in gioco

Definisce le proprietà di cui un buon stimatore T dovrebbe godere per essere un buon stimatore e per poterlo generalizzare sulla popolazione in

modo puntuale:

1. PROPRIETÀ DI CORRETTEZZA O NON DISTORSIONE: la media dello stimatore, ovvero la media di tutte le stime generate dai possibili

campioni di numerosità n, coincide con il parametro di popolazione di interesse θ (μT=θ).

Secondo questo primo criterio la varianza è parametro distorto, quindi la trasformo nella VARIANZA CORRETTA CAMPIONARIA, la

cui media coincide con la varianza di popolazione, che fa variare i valori ma la probabilità rimane uguale

2. PROPRIETÀ DI CONSISTENZA: all’aumentare della dimensione campionaria n lo stimatore T tende a coincidere con θ, se lo stimatore è

anche corretto, all’aumentare della dimensione campionaria la sua varianza si annulla (in quanto σ^2T= σ^2/n se n tende a infinito allora il

risultato sarà 0 (media, proporzione e varianza corretta sono sia corretti che consistenti)

3. PROPRIETÀ DI EFFICIENZA: uno stimatore T1 è più efficiente di uno stimatore T2 se la varianza di T1 è inferiore di quella di T2 (in quanto

causa una variabilità più bassa)

STIMA INTERVALLARE:

Definisce come individuare un certo intervallo in cui mi aspetto, con una certa fiducia, vi sia θ a partire dalla stima e sfruttando le proprietà dello

stimatore T, quindi associo una probabilità a uno stimatore, trovo un intervallo e cerco la possibilità che il mio parametro sia in quell’intervallo.

La probabilità la associo alla statistica campionaria e non al campione, ovvero la associo allo stimatore ragionando su tutti i possibili campioni

estraibili con la possibilità derivante dall’errore campionario

Il livello di confidenza viene indicato con 1-α ed è il grado di fiducia nel trovare il parametro θ all’interno dell’intervallo individuato.

Se il campione estratto è nell’ 1-α prescelto dei campioni che contengono la media μ allora si è tranquilli perchè all’interno vi è la media di

popolazione della modalità X.

Stima intervallare per la media:

Va inoltre ricordato che per trovare la numerosità del campione, la formula è la seguente:

Denominatore alla ^2

Nel caso in cui la distribuzione di riferimento sia normale ma non è nota la varianza, la Si stima con s ma si utilizza la t di STUDENT (ha le code più

“rialzate” rispetto alla normale, ha media nulla e dipende dal parametro GRADI DI LIBERTÀ (g=n-1), e per valori elevati di g (>=30) diviene una

normale.

Stima intervallare per la proporzione:

Più n è elevato più l’intervallo è affidabile, quindi solitamente n va cercato elevato in modo che 1-α sia affidabile in modo preventivo, e ciò si fa per

mezzo della formula:


PAGINE

18

PESO

7.16 MB

AUTORE

El-diez

PUBBLICATO

4 mesi fa


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in scienze politiche, sociali e internazionali
SSD:
Docente: Roli Giulia
Università: Bologna - Unibo
A.A.: 2018-2019

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher El-diez di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Bologna - Unibo o del prof Roli Giulia.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in scienze politiche, sociali e internazionali

Legge Biagi n.133
Dispensa