vuoi
o PayPal
tutte le volte che vuoi
MEDIANA
La mediana è il valore dell'osservazione centrale di una distribuzione ordinata di dati.
La mediana è quindi una misura del valore centrale di un insieme di dati ordinati dal più piccolo al più grande. L'esatta posizione al centro varia a seconda che il numero di osservazioni del campione sia pari o dispari:
- Se n è dispari, la mediana è il valore nella posizione (n+1)/2
- Se n è pari, la mediana è la media dei valori nelle posizioni n/2 e n/2+1
Nella pratica, per individuarla, è necessario andare a stabilire le posizioni con i valori di ordinata riordinati in modo crescente.
Se ad esempio, ho delle votazioni pari a 8,10,12,12,6,10,6,15,8,7,13,9,6,12,14 li riordino nel seguente modo:
Posizione | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Valore | 6 | 6 | 6 | 7 | 8 | 8 | 9 | 10 | 10 | 12 | 12 | 12 | 13 | 14 | 15 |
Successivamente, mi accorgo che sono dispari quindi, come valore di mediana considero la posizione 8 (e non la frequenza 10).
Considero ora...
Posizione | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
Variabile | 27 | 28 | 29 | 29 | 29 | 30 | 30 | 31 | 31 | 32 |
Poiché n è pari, considero i valori di posizione 5 e 6. La mediana in questo caso è (29+30)/2=29,5
MEDIA ARITMETICA
La media si calcola solo per variabili quantitative (discrete o continue) e si trova sommando tutti i valori tra loro e dividendo poi per il numero delle osservazioni (dimensione campione). Può essere semplice, quando a denominatore si sommano tutti i valori, o ponderata, quando al numeratore si raggruppa. Questi due valori potrebbero risultare diversi.
ESERCIZIO RIEPILOGATIVO - media: (18x7+…+30x5)/(7+…+5)=23.525 -> voto medio degli studenti
mediana: n è dispari: 24; il 50% degli studenti ha preso al massimo 24 e l'altro 50% ha preso almeno 24.
Moda (voto con frequenza maggiore): 22 -> la maggioranza ha preso
LEZIONE 4: MISURE DI DISPERSIONE O DI VARIABILITÀ
Oltre a conoscere il valore medio del campione, è importante sapere
quanto diversi sono i valori del campione. Dobbiamo cioè sapere quanto i valori del campione sono distribuiti o dispersi attorno alla media. Le misure di dispersione o di variabilità si usano per variabili quantitative discrete e continue (no qualitative) e misurano l'attitudine della variabile ad assumere diversi valori (cioè quanto i dati sono dispersi attorno a un qualche indice di posizione). È ragionevole che queste misure assumano valori positivi o al limite valore 0 (fenomeno con variabilità nulla, nessuna variazione). CAMPO DI VARIAZIONE (o RANGE) R=Max-Min Differenza tra l'osservazione maggiore e quella minore del campione: Aumentando la dimensione del campione, aumenta l'influenza dei valori estremi e di conseguenza R diventa distorto, inaffidabile. A tale proposito, per dimensioni di campione maggiore, bisogna considerare un'altra misura di dispersione o di variabilità che comprenda possibilmente tutti i dati del campione.campione.
VARIANZA
Media dei quadrati degli scarti tra ciascun valore e la media campionaria.
I VALORI STANDARDIZZATI
Il valore standardizzato misura di quanti scarti quadratici medi un valore dista dalla media.
z= X - µ : σ
Un valore positivo indica che il valore è sopra la media, mentre un valore negativo indica che il valore è sotto la media. È possibile utilizzare i punteggi z per identificare valori anomali (outlier).
Un valore anomalo è un valore che ha probabilità molto bassa di verificarsi.
Varianza e scarto medio quadratico sono indici assoluti, cioè dipendenti dall’unità di misura e dell’ordine di grandezza di cioè che analizziamo. Non consentono confronti di variabilità.
Uso quindi una misura che mi permette di tenere conto del valore della media, il coefficiente di variazione che è una misura relativa che non risente dell’unita di misura.
CV= S (deviazione standard) : Xm (media)
campionaria in valore assoluto)Le misure di pozione o di tendenza centrale e di dispersione sono importanti ma non sono leuniche misure numeriche numeriche dalle quali ottenere informazioni su un insieme di dati. Altremisure, chiamate misure di tendenza relativa, forniscono informazioni sulla posizione diun’osservazione del campione. Una tra queste è la mediana, ma ce ne sono altre.
I PERCENTILI
Il p-esimo percentile di un insieme di dati è il valore per cui una percentuale pari a p delleosservazioni è inferiore o uguale a esso. I dati devono essere ordinati.
- il 25esimo percentile si definisce PRIMO QUARTILE (Q1)
- Il 50esimo percentile si definisce SECONDO QUARTILE (Q2) o MEDIANA
- Il 75esimo percentile si definise TERZO QUARTILE (Q3) DispariPari
LEZIONE 5: PRIMA ESERCITAZIONE
L’indagine statistica può essere effettuata su intera popolazione, prende il nome di censimento, osu un campione della popolazione, prende il nome di indagine
campionaria. Quando l'indagine è sull'intera popolazione, si usa una statistica descrittiva (descrive il fenomeno sull'intera popolazione). Quando invece l'indagine è su un campione, si usa sia una statistica descrittiva (descrive il fenomeno sul campione), sia un'inferenza statistica (trarre indicazioni dal campione che siano valide per la popolazione).
Alla fine bisogna trarre conclusioni su di una popolazione basandosi su un campione osservato e sulla teoria della probabilità (la probabilità si occupa di determinare un campione rappresentativo della popolazione (va quindi da popolazione a campione) e risulta essere l'opposto dell'inferenza statistica che si occupa di estendere all'intera popolazione i risultati).
ANALISI DI DATI QUALITATIVI BIVARIATI
Quando si osservano due variabili, i dati si possono organizzare attraverso una tabella a doppia entrata o tabella di contingenza. Questa tabella avrà nelle righe
i valori della prima variabile, enelle colonne i valori della seconda variabile. I numeri interi all'interno della tabella sono il numerodi volte in cui compare la corrispondente coppia di valori o categorie (frequenze congiunteassolute). Queste categorie sono esclusive (l'una esclude l'altra).Il totale 80 rappresenta la frequenza assoluta(quante volte il numero si ripete nel campione)con cui si presenta la categoria 1 per la variabilex.Questa frequenza si chiama frequenza marginaleassoluta. Dividendo poi per la taglia delcampione, ottengo quelle relative (45:479).DISTRIBUZIONI CONDIZIONATE
Mi esprime come è andata la popolazione rispetto all'oggetto di studio.Ad esempio, se io ho un campione di 28 studenti misti tra liceo, itis e commerciale e voglio saperequale categoria prepara meglio per l'università, devo inanzitutto ridurre il campione alla singolacategoria e prendere il nuovo totale non più 28 ma il numero si studenti per isingoli indirizzi. Se le distribuzioni condizionate di una variabile data una modalità dell'altra sono uguali (valore per valore) tra loro, allora si dice che le due variabili sono indipendenti, ovvero che non c'è connessione tra loro. Le due variabili non sono indipendenti perché il 21.1% è diverso da 66.7%. Basta una diversa per concludere che non sono dipendenti. DATI QUANTITATIVI: ANALISI BIVARIATA Se X e Y sono entrambe quantitative si può utilizzare il grafico di dispersione in cui le variabili sono rappresentati come puntini nello spazio. LA COVARIANZA Quando si osservano due variabili diverse, A e B, riferiti a una medesima popolazione, si può fare riferimento a indici statistici che possono descrivere come i due insieme di dati variano tra loro. La covarianza di due variabili è un numero che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza. Quando la covarianza è negativa (2 e 4 quadrante) indica che i
dati hanno comportamento discorde mentre pari a zero indica che i dati non sono in relazione diretta tra loro.
LEZIONE 6: LA PROBABILITÀ
Un esempio casuale è qualsiasi azione che ha come risultato un insieme di dati registrabili. Di un esperimento casuale è solo possibile elencare a priori l'insieme dei possibili esiti.
Lo spazio campionario S, è l'insieme di tutti gli esiti elementari possibili di un esperimento. Un esempio è il lancio del dado o della moneta.
Un evento è un esito o un insieme di esiti dell'esperimento che sono di interesse per il ricercatore, e più formalmente, è un qualsiasi sottoinsieme dello spazio campionario S (probabilità che si verifichi evento A o B).
Qualora si considerano due eventi contemporaneamente, bisogna considerare gli eventi A E B (spazi comuni) oppure A O B (prendo entrambi gli insiemi). Due eventi A e B sono incompatibili se non hanno casi in comune. Guardo ciò che
èin comune…inquesto caso niente Quale è la probabilità che uno studentesospeso non provenga da Varese?Probabilità di non venire da Varese= 1-probabilità che lo studente derivi da Varese= 1- 258/6492 = 0.960Probabilità di A: 220/500= 44%Pubblicità e acquisto non sono indipendenti,dato che la probabilità di A è diversa da quellasopra, la pubblicità influenza l’acquistoLEZIONE 7: VARIABILI CASUALI E DISTRIBUZIONI DI PROBABILITA’SLo spazio degli esiti è l’insieme di tutti i possibili esiti di un esperimento.AUn evento è un sottoinsieme degli spazi degli esiti S.A’ è l’evento complementare di A (tutti gli esiti di S che non stanno in A).A∩B è l’evento di intersezione tra gli eventi A e B (esiti sia in A che in B).A∪B è l’evento unione tra gli eventi A e B (o in A, o in B o in entrambi),incompatibiliDue eventi sono se non hannoelementi in comune. La probabilità di un evento A, sottoinsieme di S, è un numero associato a tale evento che ne quantifica a priori la possibilità di realizzazione. È un numero positivo minore di 1.
variabile casuale X. Una (o aleatoria) è una variabile quantitativa i cui valori sono determinati dai risultati di un esempio casuale.
Esempio: lancio di due monete
Insieme di possibili esiti: S= {TT,TC,CT,CC}
Associo ora il numero di teste che posso associare ai due lanci: 2,1,1,0
X=2 → 1/4 (probabilità a priori)
Le variabili casuali possono essere:
- discerete: numeri interi, associati a conteggi (rappresentate da aste)
- Continue: numeri reali, associate a misurazioni (altezza, peso, temperatura)
range o supporto: l'insieme di tutti i valori che X può assumere prende il nome di (nel