Sintesi Corso di Statistica

Esame Statistica

Facoltà Scienze politiche

Dal corso del Prof. Roli Giulia

Università Università degli Studi di Bologna

Appunto

4,0 / 5 (1)

Scarica

Riassunto di tutto il corso di Statistica tenuto dalla professoressa Giulia Roli.
Particolare attenzione é posta sugli indici. Appunti basati su appunti personali del publisher presi alle lezioni della prof. Roli dell’università degli Studi di Bologna - Unibo. Scarica il file in formato PDF!

…continua

Anteprima

Vedrai una selezione di 5 pagine su 18

Anteprima di 5 pagg. su 18.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 5 pagg. su 18.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 5 pagg. su 18.
Scarica il documento per vederlo tutto.

Scarica

Disdici quando
vuoi

Acquista con carta
o PayPal

Scarica i documenti
tutte le volte che vuoi

Estratto del documento

X

Bass0 0 0 X

2. MASSIMA DISCORDANZA ovvero a modalità alte di X corrispondono modalità basse di Y e a modalita basse di X

corrispondono modalità basse di Y e viceversa X Alto Medio Basso E la diagonale secondaria del rettangolo

Alto 0 0 X

Medio X

0 0

Bass0 X

Indici di Cogradazione

(Misurano l’avvicinamento/allontanamento da situazioni estreme, sono cosi chiamati gli indici di concordanza per i caratteri quantitativi)

Codevianza (Codev):

E la somma dei prodotti degli scarti di ogni osservazione dalla propria media

E NEGATIVA quando i contributi delle unità statistiche alla DISCORDANZA prevalgono, mentre è POSITIVA se i contributi

dell’unità statistiche alla CONCORDANZA prevalgono

Se Codev > 0 allora vi è CONCORDANZA

Se Codev < 0 allora vi è DISCORDANZA

Se Codev = 0 allora vi è equilibrio perfetto tra le situazioni di concordanza e discordanza delle unità statistiche (quindi non si

può dire nulla sulla concordanza)

Covarianza (σxy):

E la media dei prodotti degli scarti di ogni osservazione della propria media

Il suo segno varia in base a quello della codevianza e segue gli stessi criteri ( se < 0 vi è DISCORDANZA, se > 0 vi è

CONCORDANZA, se = 0 vi è EQUILIBRIO)

La covarianza varia da: -σxσy <= σxy <= σxσy (ovvero varia dal Prodotto negativo degli scarti quadratici medi d X e Y al

prodotto positivo degli scarti quadratici medi di X e Y)

Coeﬃciente di Correlazione Lineare (rxy):

E un indice Relativo ed è la relativizzazione della covarianza dividendo per il valore massimo che questa può assumere

Il Coeﬃcente di Correlazione lineare varia da: -1 <= r <= 1 (i due valori limiti sono assunti nelle particolari situazioni in cui tutti i

punti, che rappresentano tutte le coppie di osservazione su un diagramma di dispersione, risultano allineati su una retta con

pendenza negativa (r=-1) o positiva (r=1), di conseguenza si avranno valori piu o meno vicini ai due valori limite a seconda

della forza lineare che lega i due caratteri)

Se r=0 non vi è ne concordanza ne discordanza

Se r=-1 vi è MASSIMA DISCORDANZA

Se r=1 vi è MASSIMA CONCORDANZA

Regressione lineare semplice (R^2):

Introduce la direzione della relazione tra i 2 caratteri:

Y è la variabile dipendente (o risposta/Outcome)

X è la variabile indipendente (o covariata/regressione)

X e Y sono rappresentati su un grafico a dispersione:

E la loro relazione non è di tipo deterministico ma contiene

un termine di errore (εu)

Quindi i valori teorici ci Yu sono i valori ipotetici che

starebbero tutti sulla medesima retta:

Yu= β0 + β1Xu (non vi è termine di errore così le misurazioni si pongono sulla stessa retta)

1.La retta passa per il punto di coordinate (μx; μy)

2.β0 è il valore di Y previsto dal modello quando X=0

3.β1 indica quanto varia Y (secondo il modello) aumentando X di una unità:

Se β1>0 si ha concordanza e relazione lineare diretta o positiva di Y da X

Se β1<0 si ha discordanza e relazione lineare inversa o negativa di Y da X

Se β1=0 non vi è ne concordanza ne discordanza, e vi è indipendenza lineare da Y da X (la retta è

parallela all’asse delle ascisse X)

Confrontando le varie indipendenze:

Ind. Statistica —> Ind. in media —> Ind. lineare

Ci si interroga sulla Bontà del test eseguito (in quanto non si sa di che entità sia εu):

1. Vi è una parte di Yu spiegata dal modello

2. Vi è una parte di Yu non spiegata dal modello (εu= Yu-Yu(Teorico))

Indice di Determinazione Lineare (R^2)

Misura della Bontà di adattamento della retta ai dati come quota di variabilita di Y spiegata dal modello sul totale

Varia tra 0 e 1:

Se R^2=0 è nulla la devianza di regressione, ovvero il coeﬃciente angolare della retta è 0 e quindi l’unica retta

possibile è parallela ad X e interseca Y in μy, ovvero il carattere X non ha nessun ruolo nello spiegare il dipendente e

quindi il modello ha un pessimo adattamento ai dati, vi è quindi INDIPENDENZA LINEARE

Se R^2=1 è 0 la devianza residua, ovvero tutti gli errori εu sono nulli, quindi tutti i punti sono allineati sulla retta e vi è

un perfetto adattamento ai dati, sia che la retta abbia pendenza negativa o positiva, quindi vi è la perfetta dipendenza

Lineare

Inferenza Statistica

Il campione rappresenta l’intera popolazione, con l’obiettivo di capire se la statistica campionaria è in buona relazione con le statistiche totali

per essere generalizzate

Vi sono errori non campionari (o sistematici, connessi alla modalità di raccolta di informazioni) e errori campionari (dovuti al meccanismo di

selezione)

Per passare da popolazione a campione vi sono svariati metodi, ma il principale è il CAMPIONAMENTO CASUALE SEMPLICE CON

RIPETIZIONE, in cui ci si chiede quali possano essere i possibili esiti.

La probabilità rende gestibile il campione (probabilità che una singola unità entri a far parte del campione; probabilità di osservare una verità

statistica campionaria, probabilità che un certo campione diventi quello realmente osservato)

Probabilità:

Sempre compresa tra 0 e 1, se p=0 evento Nullo, se p=1 evento Certo (o spazio degli eventi possibili)

Eventi semplici: possibili esiti di un esperimento aleatorio, un’unione di eventi semplici forma un evento complesso

Sono rappresentati con il diagramma di Venn

Lo spazio degli eventi possibili è composto dall’evento A e dallo spazio dell’evento complementare Non A

Eventi Incompatibili o Disgiunti: eventi che non hanno punti in comune

Eventi Compatibili o congiunti o intersezione: eventi che si possono verificare insieme e generano un nuovo evento complesso

Eventi Unione: sia per eventi congiunti che disgiunti, è un insieme costituto da tutti i punti che appartengo ad A e a B o a entrambi.

Gli eventi Complementari sono anche incompatibili (non si toccano e coprono tutto lo spazio degli eventi)

Legge della somma: P(AuB)= P(A)+P(B)-P(AnB) (se A e B sono complementari allora P(AuB)=1, se A e B incompatibili allora P(AuB)=P(A)

+P(B))

Legge del Prodotto: P(AnB)= P(A|B)P(B)=P(B|A)P(A) con P(A|B)= P(AnB)/P(B) e P(B|A)= P(AnB)/P(A)

Eventi Indipendenti: il verificarsi di uno non influenza il verificarsi dell’altro, quindi la probabilità del verificarsi di A è uguale alla probabilità di

verificarsi di A condizionato da B (P(A|B) è così anche per B (P(AnB)/P(B)=P(A)), quindi la condizione di inpendenza è la seguente

P(AnB)=P(A)P(B)

L’indipendenza statistica coincide con gli eventi indipendenti

Con gli eventi indipendenti la legge della somma diviene: P(AuB)= P(B)+P(A)-P(A)P(B)

Due eventi incompatibili sono assolutamente diipendenti, quindi gli eventi indipendenti non sono incompatibili

Distribuzioni di Probabilità:

Tabella che ha righe che sono degli eventi, quindi associa a ciascun evento dello spazio degli eventi (Ω) alla propria probabilità di

accadimento.

Distribuzione campionarie: tabella che associa a ciascuna statistica campionaria osservabile nei possibili campioni estraibili la

corrispondente probabilità di accadimento, da cui si può ricavare la proprietà della statistica campionari rispetto al parametro corrispondente

di popolazione(incognito)

Distribuzione della media campionaria: associa a ciascuna media campionaria osservabile nei possibili campioni la sua probabilità (i

campioni che generano una media che non si discosta troppo dalla media generale hanno una distribuzione di proprietà maggiore)

La media delle medie campionarie è uguale alla media di popolazione

La varianza delle medie campionarie è uguale alla varianza della popolazione divisa per la numerosità campionaria(σ^2μ=σ^2/n) (cresce se

aumenta la varianza della popolazione e diminuisce se aumenta la numerosità campionaria).

Nel caso di n e N molto elevati, l’individuazione della media campionaria avviene nel modo seguente:

(La media campionaria Si distribuisce secondo

la funzione D con media pari alla media di

popolazione e varianza pari alla varianza di

popolazione divisa per la numerosità cam-

-pionaria) NORMALE o GAUSSIANA

La maggior parte dei caratteri si distribuisce secondo una legge di DISTRIBUZIONE detta , la quale ha

caratteristiche standard: Si distribuisce come una normale con media e varianza (o scarto) pari al loro rispettivo valore,

Da cui ricavo una frequenza relativa o distribuzione di probabilità

La curva ha una distribuzione campanulare Simmetrica, e il valore più alto è il calore più alto di probabilità (quindi che si presenterà più volte),

ed il valore più probabile coincide con tutti gli indici di tipicità

Non tocca mai l’asse delle ascisse e la sua area sottostante è pari all’evento certo, perchè identifica la probabilità di tutti gli eventi possibili,

con l’asse di simmetria della curva (μ) divide l’area in due aree pari a 0,5, quindi vi è la stessa probabilità di trovare valori più alti e più bassi

della media: Area[μ-σ; μ+σ]= 68%

Area[μ-2σ; μ+2σ]=95%

Variando la media la curva si sposta sull’asse delle ascisse (Dx se media aumenta, Sx se

media diminuisce)

Aumentando la varianza si alzano le code e si abbassa il punto massimo, diminuendola la

curva tende ad essere più campanulare

La NORMALE STANDARDIZZATA (Z) è una normale con media 0 e varianza 1 —>la probabilità di un singolo punto è sempre 0 (in quanto

l’area è nulla)

Standardizzare è una trasformazione Lineare, che annulla la media della mia variabile e porta la sua varianza uguale a 1

La media campionaria è distribuita secondo una Normale con media pari alla media di popolazione e varianza pari alla varianza di

popolazione/n

Le curve diventanti normali nel caso in cui io abbia tante osservazioni, ovvero n>=30, quindi spesso si eseguono delle osservazioni ampie.

Il ragionamento è estendibile a tutti gli indici della statistica Descrittiva.

Il problema si riscontra con i caratteri di tipo QUALITATIVO:

Si ragione singolarmente su ogni modalità, e la nuova variabile diventa la frequenza di tale modalità, così tratto una variabile

qualitativa in probabilità, con la frequenza relativa che è detta Proporzione di Popolazione (n*/N)

PROPORZIONE CAMPIONARIA

La statistica campionaria corrispondete è la (ovvero numero di unità statistiche nel

campione che presentano la modalità di interesse)

Lo scopo è associare a ciascuna proporzione campionaria la propria probabilit&agra

Dettagli

Publisher

El-diez

A.A. 2017-2018

18 pagine

2 download

SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher El-diez di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bologna o del prof Roli Giulia.