vuoi
o PayPal
tutte le volte che vuoi
Media aritmetica (distribuzione di frequenze)
La somma arriva a k perché sommo le modalità.
Media aritmetica (dati raggruppati): quando le modalità sono raggruppate in classi, se non disponiamo della distribuzione aggregata il calcolo della media sarà approssimato. Sia μ1 la media del carattere n1 e lo stesso per il 2, 3 e così via. Queste quantità consentono di calcolare senza errore la media della distribuzione. Ciò perché μi*ni fornisce il totale del carattere posseduto dalle unità della classe (ci-1, ci) e quindi la somma: μ1n1 + μ2n2 + k∑ + μknk = è il totale del carattere dell'intera distribuzione. Se μ non si conosce allora si sa che μi = ci-1 + ci/2 = xi perciò viene: con la frequenza 1/N non si usa. Si arriva alla stessa forma se dico che la somma dei primi n1 termini tutti uguali axi è data da x1n1 e lo stesso per n2 ed nk perciò: μ = 1/N * x1n1 + x2n2 (con...
La frequenza non ho la N) e arrivo allo stesso risultato.
Media ponderata: vi sono situazioni in cui è necessario assegnare a ogni osservazione xi un peso cioè una misura di importanza collegata alla natura dei dati. Siano x1, x2, xk le osservazioni e w1, w2, wk i rispettivi pesi. Allora la media aritmetica ponderata è data dal rapporto tra la somma delle osservazioni moltiplicate per i rispettivi pesi e la somma dei pesi stessi. Il peso può essere la frequenza oppure può indicare l'importanza del valore, inoltre la somma degli scarti della media moltiplicati per i rispettivi pesi è nulla.
La media aritmetica risulta poco utile:
- Distribuzione bimodale: due bambini pesano 10 e 15 kg e due adulti pesano 60 e 75 kg;
- Distribuzione con picco su una modalità: c'è un valore molto alto e gli altri molto bassi.
Moda: la moda di una distribuzione di frequenze è la modalità che presenta la frequenza più alta.
Attenzione, nei dati raggruppati la moda è la classe cui corrisponde la densità più alta e non la frequenza come accade di solito. La moda è il dato mentre la frequenza è il numero. In una distribuzione in classi la moda è la classe con la densità maggiore, se le ampiezze sono uguali la classe con densità maggiore coincide con la classe con la frequenza più alta se no potrebbero esserci diverse. Nel caso la distribuzione sia asimmetrica o ci siano massimi locali la moda è poco rappresentativa. Mai da sola!
Mediana: data una variabile X quantitativa o qualitativa ordinale, indichiamo con x1, x2, …, xn la distribuzione statistica disaggregata e con x(1) ≤ x(2) ≤ x(N) la corrispondente successione in ordine non decrescente dei numeri o categorie osservati. Se N è dispari m = x((N+1)/2) se N è pari m è compreso tra x(N/2) e x(N/2+1). La mediana è la modalità di mezzo: 50% delle osservazioni
stanno sotto e il resto sopra. La mediana è applicabile sia a variabili quantitative (media aritmetica) che a variabili qualitative ordinale.
Nell'esempio sottostante abbiamo un grafico con 49 osservazioni. Sapendo che N è dispari dovrò fare 49+1/2=25 perciò la posizione mediana è 25 e la mediana è mediasuperiore. Se il valore fosse stato pari tra due rettangoli sarebbe stato indeterminato.
Proprietà:
a) Internalità;
b) Linearità;
c) La mediana è il valore che minimizza la somma dei valori assoluti degli scarti (centro di ordine 1): non è alla seconda.
d) La mediana resta invariata se si sostituiscono i termini x<m oppure x>m.
Mediana e media aritmetica come centri: la distanza di ordine r tra un insieme di punti e un punto c è. Il centro di ordine r di un insieme di punti è il valore che rende minima la distanza di ordine r secondo la relazione.
Per calcolare la mediana tramite la funzione di
ripartizione guardo in quale punto la frequenza supera 0,5 perciò il punto dopo 0,5 è la mediana. Se F(xi)=0,5 la mediana è compresa tra xi e xi-1. Calcolo della mediana: dati raggruppati con ipotesi dell'istogramma. All'inizio bisogna trovare la classe della mediana, cioè quella che supera 0,5 con estremi (ci-1;ci) e dopo si sfrutta la seguente espressione: F(ci*-1) è l'estremo inferiore della classe mediana. La media e la mediana sono entrambi indici di posizione ma la prima indica il punto di bilanciamento, punto di equilibrio dell'istogramma, mentre il secondo divide la distribuzione in due parti uguali. Esse sono uguali se l'istogramma è simmetrico, se invece l'asimmetria è negativa la media è minore, nel caso opposto è maggiore. La mediana usa solamente una parte dei valori, quindi dati diversi possono dare mediane diverse ma non è influenzato da valori estremi (outliers). La medianaè poco informativa se il carattere è discreto con pochi valori distinti, in tal caso la mediana può assumere valori identici per distribuzioni piuttosto diverse, la media non è efficace quando i dati sono più dispersi oppure se la distribuzione è bimodale. Spesso per rimediare a questo problema si usa la media troncata: è la media aritmetica calcolata escludendo il t% più estremo delle osservazioni, metà sulla coda sinistra e metà sulla coda destra.
Quantili: serve a linearizzare la mediana. Date n osservazioni relative alla variabile quantitativa X si definisce quantile di ordine p (con 0 < p < 1), e si indica con xp, quel particolare valore della variabile per cui la proporzione di osservazioni inferiori o uguali a xp è almeno p (e quindi la proporzione di osservazioni maggiori o uguali a xp è almeno 1-p). Sapendo la funzione di densità basta sapere Qp (asse x) e trovo l’area P, mentre se ho
La funzione di ripartizione parte da y e trova il corrispondente Qp. Esempi pag 120-1. Nell'esempio se voglio trovare i quartili devo vedere i valori tale che F(xi)>p ed in questo caso sono Q=3 (4 e 5). Se esiste x1 per cui F(xi)=p allora il corrispondente quantile è tra xi e xi+1 (se quantitativo faccio la semisomma). A seconda del valore di p ci saranno diversi tipi di quantili:
- P=0,5 mediana;
- P=0,25; 0,50 (coincide con mediana); 0,75 quartili;
- 0,1; 0,2; 0,8; 0,9 decili (ci sono anche i percentili).
Data una variabile X quantitativa o qualitativa ordinale, indichiamo con x1, x2, xn la distribuzione statistica disaggregata e con x(1)<=x(2)<=x(n) la corrispondente successione in ordine non decrescente di numeri o categorie osservate basso, 3,4,5,7,7,8 basso, medio, alto, alto, alto. Il quantile di ordine p si calcola così: posto h=Np viene come in figura. X(h) è l'osservazione precedente! Nel caso dell'istogramma devo prima trovare
laclasse in cui F supera p e calcola Qp badando bene al fatto dimettere P e non 0,5 (mediana). Medie di potenze: la media di potenza di ordine s è espressa dalla figura. S=1 allora M1=M media aritmetica; S=2 allora M2=Mq media quadratica; S=-1 allora M(-1)=Ma media armonica; S tende a 0 allora M0=Mg media geometrica. Calcolare la media di potenze di ordine s corrisponde alla figura di destra: si trasformano i valori x con la funzione di elevazione a potenza s, si fa la media aritmetica e la trasformazione inversa. Le medie assumono un valore compreso tra il min e max. Se ho una successione di valori strettamente positivi si possono calcolare tutte le medie di potenze, i valori devono essere positivi se no non potrei fare la radice e se ho l'indice dispari il valore finale rimane negativo. Si può dimostrare che esiste un ordinamento tra le medie di potenze: media armonica <= geometrica <= aritmetica <= quadratica; le medie sono tutte uguali se e solo se.distribuzione è degenere (stessi valori). Media quadratica: la media quadratica di una distribuzione statistica disaggregata è la radice della media quadrata dell media aritmetica dei quadrati dei termini della distribuzione. Per M2 si intende il valore che sostituito agli N elementi della successione ne lascia invariata la somma dei quadrati. Se voglio sostituire una superficie fatta con 3 mattonelle da 10, 15, 20 cm di lato con tre mattonelle della stessa dimensione.
Media armonica: la media armonica di una distribuzione statistica disaggregata i cui termini son tutti diversi da 0 è data dal rapporto tra N e la somma dei reciproci dei termini e anch'essa gode dell'associativa(105). La media armonica si usa quando il reciproco di x ha un significato e l'obiettivo è lasciar invariata la somma dei reciproci.
Media geometrica: la media geometrica fa parte delle medie di potenze, la sua particolarità risiede nel fatto che non si ottiene ponendo s
uguale ad un valore ma facendolotendere a 0. Inoltre la media geometrica si ottieneapplicando la trasformazione logaritmicaf(x)=log(x) la cui inversa è l'exp. Tale media siottiene trasformando i valori con il log naturale,calcolando la media aritmetica ed effettuando latrasformazione inversa con l'esponenziale. Ha lestesse proprietà degli altri tipi (107). Un capitale investito per 3 anni ha dati i seguentirendimenti: 2; 18; 10 % quanto è il tasso medio.In una distribuzione statistica possono esserci osservazioni eccezionalmente elevate obasse, poiché nel calcolo delle medie analitiche vengono considerati tutti i valoriqueste possono essere influenzate dagli outliers. Per ottenere medie analitiche forti sipuò usare la media troncata o troncata con sostituzione. Per quelle lasche il valorecentrale è influenzato dai valori estremi, mentre mediana e quantili sono robusti vistoche non considerano gli outliers. Quale media usare?Media
aritmetica: la più importante e utilizzata, dati omogenei, no valori estremi; Media armonica: se ha significato la media aritmetica dei reciproci dei termini; Media geometrica: appropriato se si studiano i tassi di variazione, se ci sono dati anormali e quando il log(x) dei dati, con il successivo raggruppamento in classi, danno luogo ad un istogramma a campana; Media quadratica: importante per la deviazione standard; Media ponderata: quando abbiamo vari dati con "pesi" differenti; Mediana: quando abbiamo valori anormali (è robusta); Quantili: utili per capire distribuzione reddito, quindi per riassumere e specificare elementi importanti dell'indagine; Valore centrale: dis