Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
MEDIE POTENZIATE
Solo per caratteri quantitativi
r=1 MEDIA ARITMETICA
r=-1 MEDIA ARMONICA -xi=0 toglie il significato
Valori positivi e negativi potrebbero condurre al denominatore nullo
r=2 MEDIA QUADRATICA. Richiede la positività di xi
r che tende a 0= MEDIA GEOMETRICA
Per r=0 la media non è definita
Questa formula contiene una proditoria invece che una sommatoria, la radice non è quadrata, ma è n-esima (n=numero di dati)
Le frequenze sono alla potenza e non moltiplicate alle modalità
I calcoli sono troppo grandi, così conviene passare ai logaritmi
1° PASSO: calcolare il logaritmo della media geometrica come media aritmetica dei logaritmi
2° PASSO: ricavare la media geometrica dal precedente passo, calcolando la funzione inversa del logaritmo
Teorema fondamentale delle medie potenziate - monotona non decrescente: r<=s allora la media di r è minore uguale della media di s
Ogni media potenziata è una media in senso
Armonica <=
geometrica <= aritmetica <= quadratica Se sono tutte uguali la variabile è degenere= tutti valori uguali Proprietà media aritmetica Proprietà media aritmetica, I proprietà, II proprietà (o proprietà di minimo), proprietà associativa Proprietà media aritmetica Associa ad ogni X la sua media aritmetica-M(c)=M(costante)=c-M(cX)=c M(X)-M(X+-Y)=M(X)+-M(Y)operatore lineare-M(X) è un cioè se Y=aX+b allora M(Y)=aM(X)+b I proprietà La media aritmetica rende nulla la somma (media) degli scarti di ogni valore da un indice di posizione II proprietà: proprietà di minimo La media aritmetica minimizza la somma (media) dei quadrati degli scarti di ogni valore da un indice di posizione Proprietà associativa della media aritmetica Media totale=media delle medie parziali Variabilità e indici di forma Per rendere completi gli indici di posizione bisogna affiancargli degli indicatori di variabilitàvariabilità è l'attitudine di un carattere ad assumere modalità di diversa mutabilità o eterogeneità: per i caratteri qualitativi di variabilità o dispersione, per i caratteri quantitativi. Proprietà generali degli indici di variabilità e mutabilità: - NON NEGATIVITÀ: V(X) >= 0. Un indice di variabilità è sempre maggiore o uguale a 0. È nulla se tutte le modalità della distribuzione sono uguali, come nel caso della distribuzione degenere. - MONOTONICITÀ: Un indice assume valori tanto più grandi quanto è maggiore la diversità tra le modalità della distribuzione. - INVARIANZA PER TRASLAZIONE: V(X+b) = V(X). Un indice di variabilità non cambia se a ciascun termine della distribuzione si aggiunge una quantità costante, positiva o negativa. - Indice di eterogeneità di Gini: Per i caratteri qualitativi, indice normalizzato per confrontare tra.di loro questi indici è necessario avere a disposizione gli In=I/Imax Situazioni estremeMinima mutabilità: esiste una sola modalità a cui corrisponde tutta la frequenza, tutte le altre hanno frequenza nulla E=0
Massima mutabilità: tutte le modalità hanno la stessa frequenza f=1/k E=1-1/k
Indice di Gini normalizzato 0<=En<=1
La varianza e le sue proprietà
Per i caratteri quantitativi utilizziamo la varianza
Abbiamo diverse figure di varianza
Range: (xmax-xmin), che è la differenza tra il valore massimo e il valore minimo
Differenza interquartile: differenza tra il terzo e il primo quartile
È possibile ottenere indici più elaborati
Indicatori globali: distanze di ogni modalità da tutte le altre
Indicatori di dispersione: distanze di ogni modalità da una particolare o rappresentativa di X
Utilizzeremo la varianza che è un indice di dispersione
Varianza
Il quadrato dello scarto quadratico medio definisce la
La varianza di X è sempre maggiore o uguale a 0.
La minima varianza è 0, ed è caratterizzata da una distribuzione degnare (costante), tutti gli indici hanno lo stesso valore.
Per confrontare la variabilità di due variabili si utilizza un indice di variabilità relativo: il coefficiente di variazione.
Il coefficiente di variazione è un indice di variabilità relativo quindi è un numero puro che non dipende dall’unità di misura della modalità ma non è normalizzato (quindi non è compreso tra 0 e 1).
CV = sqm/media, dove lo scarto quadratico medio è la radice quadrata della varianza.
Il CV deve essere sempre maggiore o uguale a 0.
Proprietà della varianza:
Operatore varianza e teorema di scomposizione della varianza
Operatore varianza: var(a) = 0, var(aX) = a² x var(X), var(aX+b) = a² x var(X), var(X+b) = var(X)
Teorema della scomposizione della varianza: La varianza totale è ottenibile come la somma della varianza
‘dentro i gruppo:within, e della varianza tra i gruppi: between
La varianza within è la media delle varianze dei gruppi
La varianza between è la varianza delle medie di gruppo
Grafici box-plot
Per ogni variabile vengono rappresentate:
- mediana
- I e III quartile
- differenza interquartile H=Q3-Q1
- minimo e massimo
Il box è delimitato da Q1 e Q3 mentre la linea nera al suo interno indica la mediana Q2.
Indici di forma: la simmetria indici di forma
Per descrivere un carattere statistico devono essere studiati anche gli e sono definiti tramite i cosiddetti momenti di una variabile statistica
I due aspetti che sono comunemente studiati sono:
- la simmetria
- la curtosi
Proprietà di una variabile statistica simmetrica
media=mediana=c
I momenti della media di ordine dispari sono nulli, quindi le medi di potenze dispari sono nulle
Se la distribuzione è simmetrica unimodale, allora anche la moda=media=mediana=c
Indici di simmetria o assimetria
Indice di fisher o di skewness
=0 è solo sintomo di simmetria
Analisi statistica bivariata, la connessione
Variabili statistiche doppie
Studio di 2 caratteri osservati congiuntamente le cui frequenze si possono rappresentare nelle
tabelle a doppia entrata, così dette
La frequenza congiunta definisce il numero di unità statistiche che possiedono
contemporaneamente la modalità i del carattere x e alla modalità j del carattere y.
Frequenza marginale
La definisce il numero di unità statistiche che possiedono la modalità i del
carattere x o la modalità j del carattere y
Rappresentazione grafica dei valori di una tabella doppia
A volte è necessario rappresentare graficamente la distribuzione doppia in un grafico
Scatter plot
È un grafico in coordinate cartesiane ortogonali
Asse ascisse: modalità variabile indipendente (X)
Asse ordinate: modalità variabile dipendete (Y)
Indipendenza tra caratteri
Lo scopo di una tabella a doppia entrata è quello di
studiare le eventuali relazione tra due caratteri
In statistica si studiano vari tipi di 'indipendenza' - indipendenza stocastica, indipendenza in media, incorrelazione
Indipendenza stocastica
X e Y sono stocasticamente indipendenti se tutte le frequenze condizionate relative sono uguali tra loro e uguali alla frequenza marginale.
Definizione di frequenze teoriche
Chiamiamo frequenze teorie assolute le frequenze ottenute come:
E frequenze teoriche relative
Vanno a formare un'altra tabella: la tabella delle frequenze teoriche
In caso di indipendenza stocastica le frequenza osservate coincidono con le frequenze teoriche.
Teorema di fattorizzazione indipendenti stocasticamente
Condizione necessaria e sufficiente affinché x e y siano è che le frequenze osservate coincidano con le frequenze teoriche
Osservazioni
- condizione simmetrica: X indipendente da Y e Y indipendente da X
- le frequenze teoriche assolute non sono sempre valori interni
- presenza di zeri
base alla distribuzione congiunta delle variabili X e Y. Alcuni degli indici più comuni sono: - Coefficiente di correlazione: misura la relazione lineare tra le variabili X e Y. Varia tra -1 e 1, dove 1 indica una correlazione positiva perfetta, -1 indica una correlazione negativa perfetta e 0 indica assenza di correlazione. - Coefficiente di determinazione: rappresenta la proporzione della varianza di Y spiegata dalla varianza di X. Varia tra 0 e 1, dove 1 indica che tutta la varianza di Y è spiegata da X. - Coefficiente di contingenza: misura la dipendenza tra due variabili qualitative. Varia tra 0 e 1, dove 1 indica una dipendenza perfetta tra le variabili. - Coefficiente di concordanza: misura la concordanza tra due variabili ordinali. Varia tra -1 e 1, dove 1 indica una concordanza perfetta, -1 indica una discordanza perfetta e 0 indica assenza di concordanza. Questi indici possono essere utilizzati per valutare il grado di connessione tra le variabili X e Y e per comprendere la natura della loro relazione.due modi distinti:
- misura della variabilità fra distribuzioni
- misura della distanza dalla indipendenza
Contingenze
Contingenze assolute = distanze elementari C = n - n(teoriche)
Sono tante quante le frequenze osservate quindi possono essere raccolte in una tabella che prende il nome di tabella delle contingenze
Proprietà
Nella tabella delle contingenze è nulla la somma di colonna, di riga e totale
Le contingenze sono tutte nulle se X e Y sono indipendenti stocasticamente
Indici di connessione
Indice chi-quadrato di Pearson (assoluto e normalizzato) è basato sui valore delle contingenze e delle frequenze teoriche
Casi limite:
Minima connessione: indipendenza stocastica
Indice chi-quadrato = 0
Massima connessione: dipendenza funzionale
Indice normalizzato L'indice chi-quadrato normalizzato è compreso tra 0 (indipendenza stocastica) e 1 (massima dipendenza funzionale)
Inoltre l'indice è simmetrico, cioè l'indice di X dato y è uguale
all'indice di Y dato x Interpolazione statistica Studio della dipendenza tra caratteri quantitativi. Data una variable doppia (X,Y) si cerca di descrivere al meglio l'andamento di Y al variare di X. Consideriamo Y come variabile dipendente e X come indipendente. Cerchiamo dei modelli che approssimano al meglio la funzione delle osservazioni. Y = g(x) + e dove e è l'errore di misura. Per identificare g(x) possiamo utilizzare: - Interpolazione matematica: curva analitica che passa esattamente per i punti dati. - Interpolazione statistica: curva che passa TRA i punti dati. L'interpolazione matematica