Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Misurare la concentrazione di un fenomeno
Oltre a poter misurare la variabilità di un fenomeno, possiamo misurare anche la sua concentrazione, ovvero definiamo concentrazione di n quantità x1, x2, ..., xn il modo con cui l'intensità totale T si distribuisce fra le unità stesse.
Consideriamo:
- Concentrazione nulla = equidistribuzione;
- Concentrazione nulla = variabilità nulla;
- Concentrazione massima = variabilità massima.
Per la concentrazione utilizziamo tre diversi indici: indice di Gini, indice di Amato e metodo dei trapezi.
L'indice di Gini, utilizzato soprattutto nelle distribuzioni semplici, ci indica il rapporto di concentrazione R che è pari a: 2∑(pi - qi) R = 1 - ∑qi R = oppure alla formula alternativa .n-1∑pi
Il valore R sarà compreso tra 0 e 1, se sarà uguale a 0 ci sarà equidistribuzione, se invece sarà uguale a 1 ci sarà massima concentrazione.
L'indice di Amato, poniamo sul grafico cartesiano le qi
e le pi formando così una curva. La lunghezza di tale curva sarà pari a L. L'indice quindi sarà pari a: √(l - 2L) = √2 - 2.
Metodo dei trapezi, ci serve a calcolare l'area di concentrazione R che sarà pari a: (RA = 1 - ∑(pi - pi-1)(qi + qi-1)).
Che relazione c'è tra questi indici? Indice di Amato ≤ metodo dei trapezi ≥ indice di Gini.
Indice di eterogeneità di Gini: viene utilizzato per misurare la mutabilità, ovvero l'attitudine di un carattere qualitativo ad assumere differenti modalità. Esso è pari a: 2. Se IE è uguale a 0, allora ci sarà omogeneità; se IE è uguale a 1, allora la fici sarà massima eterogeneità.
Si può anche normalizzare l'indice IE, ed esso sarà uguale a: IEk = IEmax k-1.
CAPITOLO SESTO: Indici di forma
Il primo modo per studiare la forma di un
fenomeno è confrontare media, mediana e moda. Parliamo di simmetria se: media=mediana=moda; di asimmetria positiva se: moda < mediana < media; di asimmetria negativa se: media < mediana < moda. Possiamo però utilizzare anche degli indici: - ModaM=γ indice del Pearson: - σ μ 3 3∑(xi-x) β=indice di Fisher-Pearson: - ma per la serie di dati - μ 3=3σ n¿ ¿3 3∑( xi-x) ∑( xi-x)n n per la distribuzione semplice; per la μ 3=¿ μ 3=¿distribuzione in classi. Importante è anche la curtosi: è un allontanamento dalla normalità distributiva, rispetto alla quale si verifica un maggiore appiattimento (distribuzione platicurtica) o un maggiore allungamento (distribuzione leptocurtica). Leptocurtosi Mesocurtosi Platicurtosi CAPITOLO SETTIMO: Interpolazione statistica Analizzando i dati di un carattere quantitativo, è possibile utilizzare delle tecniche.Per descrivere e semplificare attraverso funzioni matematiche l'informazione contenuta nei dati statistici. Per colmare alcune lacune presenti nei dati ottenuti si possono inserire uno o più dati tra gli altri già noti: tale procedura si chiama interpolazione. Si vuole sostituire alla successione dei valori osservati una successione più completa di dati, in parte o del tutto teorici, in grado di fornire informazioni sull'andamento dei fenomeni che si vuole studiare. Molto importante è fare una distinzione tra interpolazione e regressione (entrambi i modelli servono a cercare di studiare la relazione che intercorre tra due variabili): interpolazione (in rosso), cerca di individuare la funzione matematica che meglio descrive il fenomeno, fotografa matematicamente il problema esattamente come è nella realtà, ma è difficile trovare tale funzione; regressione (in giallo), si basa sulla funzione della retta e cerca di individuare
La retta che taglia al meglio possibile la nube di punti, è sempre possibile individuare tale retta ma potrebbe non essere ben rappresentata dalla teoria (lasca nel fotografare la realtà).
Esempio:
X: 3,5,2,6,1
Y: 1,4,3,6,2
Modello di regressione lineare semplice: serve a studiare l'eventuale relazione di dipendenza lineare (legame gerarchico, una influenza l'altra e viceversa) di una variabile Y detta dipendente rispetto a una variabile X detta indipendente.
Nello studio della retta di regressione è importante utilizzare il metodo dei minimi quadrati: esso assicura che la somma di tutti i residui sia positivi che negativi sia minima, perciò la retta taglia al meglio possibile la nube di punti. Altra proprietà della retta di regressione è che la somma degli scarti semplici è sempre zero.
L'equazione della retta è:
^yi=a+ bxi
Diamo un nome alle nostre incognite:
^ valore teorico della variabile dipendente y;
yi=?
intercetta;a=¿ coefficiente angolare della retta.b=¿Vediamo ora come calcolare i valori a e b:;a=¿ y−b x ( ) )CODEV X , Y ∑( xi−x)( yi− yσxy= =b= . ( ) 2 2DEV X σ x ∑( xi−x)La CODEV(X,Y) (codevianza di x e y) è la variabilità di due fenomeni. Può assumeresegno positivo (quindi c’è concordanza e i due fenomeni variano nella stessadirezione), negativo (quindi c’è discordanza) o uguale a zero (i due fenomeni sonoindipendenti o il legame c’è ma non è di tipo lineare).CAPITOLO OTTAVO: Modelli teorici per le distribuzioni univariateSi definisce modello teorico una funzione matematica che adatta meglio i datiosservati. Possiamo distinguere:distribuzione uniforme discreta > è la più semplice distribuzione di interessegenerale è quella in cui si assegna lo stesso grado di fiducia a tutte le possibilirealizzazioni di X. Prendiamo
per semplicità una variabile casuale che può assumere con uguale probabilità i primi n interi positivi. Otteniamo la funzione; in principio simile alla distribuzione continua normale (o di Gauss) ma doppia per quanto riguarda la simmetria rispetto al valore centrale e l'estensione a grandissimi scarti, ma che meglio si presta a descrivere moltissimi casi di interesse è quella in cui i gradi di fiducia vanno come . Tale distribuzione può anche essere standardizzata (parliamo di normale standardizzata): 2 - zX - μ 1=Z poniamo (variabile standardizzata) e otteniamo così ( )= 2f z eσ √ 2 π. CAPITOLO NONO: Relazioni statistiche Parliamo di connessione tra due fenomeni associati quando al variare delle modalità del carattere statistico X le modalità del carattere Y variano. Si dice dunque che esiste indipendenza in media della variabile Y dalla variabile X se le medie parziali sono tutte uguali traloro al variare delleyimodalità xi della X, ossia se:.y 1= y 2=…= yr
Se vi è indipendenza statistica allora vi è anche indipendenza in media; ma sec’è indipendenza in media non è detto che ci sia indipendenza statistica.
Scomposizione della devianza di regressione:
&
più grandi quanto più lefrequenze osservate si discostano da quelle teoriche e assume valore massimo,2 ( ) ( )ovvero: .=n [min −1 ]χ r ; c−1 2La formula per il calcolo del sarà:χ2nij2 e per normalizzare tale indice utilizziamo la formula=n [∑ ]χ ∑ ¿ .n. j2χ2 =φ .2χ maxCoefficiente di cograduazione di Sperman: si utilizza nelle graduatorie,serve per vedere se c’è concordanza o meno tra i giudizi espressi. Esso è datoda: 26 ∑ dirs=1− .2 −1)n( nQuesto indice è compreso tra -1 (massima discordanza tra le due graduatorie)e 1 (c’è indipendenza o mancanza assoluta di cograduazione).^ ^ ^( )(yi− yi yi− yi)( yi− yi)STATISTICAINFERENZIALECAPITOLO PRIMO: Elementi di calcolo delle probabilitàAbbiamo quattro diverse definizioni di probabilità:la prima definizione, classica, definisce la probabilità di un evento A è data dal
Il rapporto tra il numero dei casi favorevoli al verificarsi di quel risultato e il numero totale dei risultati, ovvero: numero di casi favorevoli = P(A); numero di casi ugualmente possibili.
La seconda definizione, frequentista, prende le mosse dal fatto che la frequenza relativa di ciascun risultato tende a stabilizzarsi intorno ad un valore costante al crescere del numero delle prove (postulato empirico del caso); da qui trae origine la definizione frequentista proposta da Mises (1934), secondo la quale la probabilità è uguale al "limite" cui tende il rapporto tra il numero k delle volte che un risultato si è presentato ed il numero n delle prove indipendenti effettuate nelle stesse condizioni, quando n tende ad infinito, ovvero: k/n = lim P(A) dove si assume l'esistenza del limite; n → ∞.
La terza definizione, assiomatica, dovuta a Kolmogorov (1933) è basata sulla teoria delle funzioni matematiche e teoria degli insiemi e si impernia su...
Un insieme di principi formali chiamati assiomi;
L'ultima definizione proposta, quella soggettivista, fa coincidere la probabilità del fenomeno con le aspettative che ha il soggetto circa il verificarsi dell'evento.
Proprietà delle probabilità:
( )P E &