Statistica 1

Appunti del corso completo per l'esame di statistica (analisi dei dati e probabilità) basati su appunti personali del publisher presi alle lezioni della prof. Deldossi, …

Esame Analisi e probabilità

Facoltà Economia

Dal corso del Prof. Deldossi Laura

Università Università Cattolica del "Sacro Cuore"

Publisher Nappunti00

A.A. 2020-2021

27 pagine

1 download

Appunto

Vota 4,5 / 5 (2)

Scarica

Estratto del documento

MEDIE POTENZIATE

Solo per caratteri quantitativi

r=1 MEDIA ARITMETICA

r=-1 MEDIA ARMONICA -xi=0 toglie il significato

Valori positivi e negativi potrebbero condurre al denominatore nullo

r=2 MEDIA QUADRATICA. Richiede la positività di xi

r che tende a 0= MEDIA GEOMETRICA

Per r=0 la media non è definita

Questa formula contiene una proditoria invece che una sommatoria, la radice non è quadrata, ma è n-esima (n=numero di dati)

Le frequenze sono alla potenza e non moltiplicate alle modalità

I calcoli sono troppo grandi, così conviene passare ai logaritmi

1° PASSO: calcolare il logaritmo della media geometrica come media aritmetica dei logaritmi

2° PASSO: ricavare la media geometrica dal precedente passo, calcolando la funzione inversa del logaritmo

Teorema fondamentale delle medie potenziate - monotona non decrescente: r<=s allora la media di r è minore uguale della media di s

Ogni media potenziata è una media in senso

Armonica <=

geometrica <= aritmetica <= quadratica Se sono tutte uguali la variabile è degenere= tutti valori uguali Proprietà media aritmetica Proprietà media aritmetica, I proprietà, II proprietà (o proprietà di minimo), proprietà associativa Proprietà media aritmetica Associa ad ogni X la sua media aritmetica-M(c)=M(costante)=c-M(cX)=c M(X)-M(X+-Y)=M(X)+-M(Y)operatore lineare-M(X) è un cioè se Y=aX+b allora M(Y)=aM(X)+b I proprietà La media aritmetica rende nulla la somma (media) degli scarti di ogni valore da un indice di posizione II proprietà: proprietà di minimo La media aritmetica minimizza la somma (media) dei quadrati degli scarti di ogni valore da un indice di posizione Proprietà associativa della media aritmetica Media totale=media delle medie parziali Variabilità e indici di forma Per rendere completi gli indici di posizione bisogna affiancargli degli indicatori di variabilitàvariabilità è l'attitudine di un carattere ad assumere modalità di diversa mutabilità o eterogeneità: per i caratteri qualitativi di variabilità o dispersione, per i caratteri quantitativi. Proprietà generali degli indici di variabilità e mutabilità: - NON NEGATIVITÀ: V(X) >= 0. Un indice di variabilità è sempre maggiore o uguale a 0. È nulla se tutte le modalità della distribuzione sono uguali, come nel caso della distribuzione degenere. - MONOTONICITÀ: Un indice assume valori tanto più grandi quanto è maggiore la diversità tra le modalità della distribuzione. - INVARIANZA PER TRASLAZIONE: V(X+b) = V(X). Un indice di variabilità non cambia se a ciascun termine della distribuzione si aggiunge una quantità costante, positiva o negativa. - Indice di eterogeneità di Gini: Per i caratteri qualitativi, indice normalizzato per confrontare tra.di loro questi indici è necessario avere a disposizione gli In=I/Imax Situazioni estreme
Minima mutabilità: esiste una sola modalità a cui corrisponde tutta la frequenza, tutte le altre hanno frequenza nulla E=0
Massima mutabilità: tutte le modalità hanno la stessa frequenza f=1/k E=1-1/k
Indice di Gini normalizzato 0<=En<=1
La varianza e le sue proprietà
Per i caratteri quantitativi utilizziamo la varianza
Abbiamo diverse figure di varianza
Range: (xmax-xmin), che è la differenza tra il valore massimo e il valore minimo
Differenza interquartile: differenza tra il terzo e il primo quartile
È possibile ottenere indici più elaborati
Indicatori globali: distanze di ogni modalità da tutte le altre
Indicatori di dispersione: distanze di ogni modalità da una particolare o rappresentativa di X
Utilizzeremo la varianza che è un indice di dispersione
Varianza
Il quadrato dello scarto quadratico medio definisce la

La varianza di X è sempre maggiore o uguale a 0.

La minima varianza è 0, ed è caratterizzata da una distribuzione degnare (costante), tutti gli indici hanno lo stesso valore.

Per confrontare la variabilità di due variabili si utilizza un indice di variabilità relativo: il coeﬃciente di variazione.

Il coeﬃciente di variazione è un indice di variabilità relativo quindi è un numero puro che non dipende dall’unità di misura della modalità ma non è normalizzato (quindi non è compreso tra 0 e 1).

CV = sqm/media, dove lo scarto quadratico medio è la radice quadrata della varianza.

Il CV deve essere sempre maggiore o uguale a 0.

Proprietà della varianza:

Operatore varianza e teorema di scomposizione della varianza

Operatore varianza: var(a) = 0, var(aX) = a² x var(X), var(aX+b) = a² x var(X), var(X+b) = var(X)

Teorema della scomposizione della varianza: La varianza totale è ottenibile come la somma della varianza

‘dentro i gruppo:within, e della varianza tra i gruppi: between

La varianza within è la media delle varianze dei gruppi

La varianza between è la varianza delle medie di gruppo

Grafici box-plot

Per ogni variabile vengono rappresentate:

mediana
I e III quartile
diﬀerenza interquartile H=Q3-Q1
minimo e massimo

Il box è delimitato da Q1 e Q3 mentre la linea nera al suo interno indica la mediana Q2.

Indici di forma: la simmetria indici di forma

Per descrivere un carattere statistico devono essere studiati anche gli e sono definiti tramite i cosiddetti momenti di una variabile statistica

I due aspetti che sono comunemente studiati sono:

la simmetria
la curtosi

Proprietà di una variabile statistica simmetrica

media=mediana=c

I momenti della media di ordine dispari sono nulli, quindi le medi di potenze dispari sono nulle

Se la distribuzione è simmetrica unimodale, allora anche la moda=media=mediana=c

Indici di simmetria o assimetria

Indice di fisher o di skewness

=0 è solo sintomo di simmetria

Analisi statistica bivariata, la connessione

Variabili statistiche doppie

Studio di 2 caratteri osservati congiuntamente le cui frequenze si possono rappresentare nelle

tabelle a doppia entrata, così dette

La frequenza congiunta definisce il numero di unità statistiche che possiedono

contemporaneamente la modalità i del carattere x e alla modalità j del carattere y.

Frequenza marginale

La definisce il numero di unità statistiche che possiedono la modalità i del

carattere x o la modalità j del carattere y

Rappresentazione grafica dei valori di una tabella doppia

A volte è necessario rappresentare graficamente la distribuzione doppia in un grafico

Scatter plot

È un grafico in coordinate cartesiane ortogonali

Asse ascisse: modalità variabile indipendente (X)

Asse ordinate: modalità variabile dipendete (Y)

Indipendenza tra caratteri

Lo scopo di una tabella a doppia entrata è quello di

studiare le eventuali relazione tra due caratteri

In statistica si studiano vari tipi di 'indipendenza' - indipendenza stocastica, indipendenza in media, incorrelazione

Indipendenza stocastica

X e Y sono stocasticamente indipendenti se tutte le frequenze condizionate relative sono uguali tra loro e uguali alla frequenza marginale.

Definizione di frequenze teoriche

Chiamiamo frequenze teorie assolute le frequenze ottenute come:

E frequenze teoriche relative

Vanno a formare un'altra tabella: la tabella delle frequenze teoriche

In caso di indipendenza stocastica le frequenza osservate coincidono con le frequenze teoriche.

Teorema di fattorizzazione indipendenti stocasticamente

Condizione necessaria e sufficiente affinché x e y siano è che le frequenze osservate coincidano con le frequenze teoriche

Osservazioni

- condizione simmetrica: X indipendente da Y e Y indipendente da X

- le frequenze teoriche assolute non sono sempre valori interni

- presenza di zeri

base alla distribuzione congiunta delle variabili X e Y. Alcuni degli indici più comuni sono: - Coefficiente di correlazione: misura la relazione lineare tra le variabili X e Y. Varia tra -1 e 1, dove 1 indica una correlazione positiva perfetta, -1 indica una correlazione negativa perfetta e 0 indica assenza di correlazione. - Coefficiente di determinazione: rappresenta la proporzione della varianza di Y spiegata dalla varianza di X. Varia tra 0 e 1, dove 1 indica che tutta la varianza di Y è spiegata da X. - Coefficiente di contingenza: misura la dipendenza tra due variabili qualitative. Varia tra 0 e 1, dove 1 indica una dipendenza perfetta tra le variabili. - Coefficiente di concordanza: misura la concordanza tra due variabili ordinali. Varia tra -1 e 1, dove 1 indica una concordanza perfetta, -1 indica una discordanza perfetta e 0 indica assenza di concordanza. Questi indici possono essere utilizzati per valutare il grado di connessione tra le variabili X e Y e per comprendere la natura della loro relazione.

due modi distinti:

misura della variabilità fra distribuzioni
misura della distanza dalla indipendenza

Contingenze

Contingenze assolute = distanze elementari C = n - n(teoriche)

Sono tante quante le frequenze osservate quindi possono essere raccolte in una tabella che prende il nome di tabella delle contingenze

Proprietà

Nella tabella delle contingenze è nulla la somma di colonna, di riga e totale

Le contingenze sono tutte nulle se X e Y sono indipendenti stocasticamente

Indici di connessione

Indice chi-quadrato di Pearson (assoluto e normalizzato) è basato sui valore delle contingenze e delle frequenze teoriche

Casi limite:

Minima connessione: indipendenza stocastica

Indice chi-quadrato = 0

Massima connessione: dipendenza funzionale

Indice normalizzato L'indice chi-quadrato normalizzato è compreso tra 0 (indipendenza stocastica) e 1 (massima dipendenza funzionale)

Inoltre l'indice è simmetrico, cioè l'indice di X dato y è uguale

all'indice di Y dato x Interpolazione statistica Studio della dipendenza tra caratteri quantitativi. Data una variable doppia (X,Y) si cerca di descrivere al meglio l'andamento di Y al variare di X. Consideriamo Y come variabile dipendente e X come indipendente. Cerchiamo dei modelli che approssimano al meglio la funzione delle osservazioni. Y = g(x) + e dove e è l'errore di misura. Per identificare g(x) possiamo utilizzare: - Interpolazione matematica: curva analitica che passa esattamente per i punti dati. - Interpolazione statistica: curva che passa TRA i punti dati. L'interpolazione matematica

Anteprima

Vedrai una selezione di 7 pagine su 27