Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
MODA
La moda pu essere calcolata per qualsiasi tipo do variabile ed è la categoria, o valore, con la
frequenza maggiore (in un istogramma il rettangolo più alto).
La moda non sempre fornisce informazioni utili e per alcuni campioni potrebbe essere assente
(frequenze con valori tutti uguali a 1).
Per esempio, per dati continuiate possono assumere molti valori diversi, non si parla di moda ma
di casse modale: la classe modale è l’intervallo di classe che presenta la densità (frequenza/
ampiezza) di frequenza più alta.
È possibile poi che alcune serie di dati presentino più di una moda, e questo succede spesso con i
campioni piccoli. Quando ci sono due mode si pala di un campione bimodale, quando sono molte
mode si ha un campione plurimodale. Sono dati
quantitativi continui
MEDIANA
La mediana è il valore dell’osservazione centrale di una distribuzione ordinata di dati.
La mediana è quindi una misura del valore centrale di un insieme di dati ordinati dal più piccolo al
più grande. L’esatta posizione al centro varia a seconda che il numero di osservazioni del
campione sia pari o dispari:
- Se n è dispari, la mediana è il valore nella posizione (n+1)/2
- Se n è pari, la mediana è la media dei valori nelle posizioni n/2 e n/2+1
Nella pratica, per individuarla, è necessario andare a stabilire le posizioni con i valori di ordinata
riordinati in modo crescente.
Se ad esempio, ho delle votazioni pari a 8,10,12,12,6,10,6,15,8,7,13,9,6,12,14 li riordino nel
seguente modo:
Posi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
zion
e
Valo 6 6 6 7 8 8 9 10 10 12 12 12 13 14 15
re x
Successivamente, mi accorgo che sono dispari quindi, come valore di mediana considero la
posizione 8 (e non la frequenza 10)
Considero ora questa tabella:
Posizio 1 2 3 4 5 6 7 8 9 10
ne
Variabil 27 28 29 29 29 30 30 31 31 32
e
Poiché n è pari, considero i valori di posizione 5 e 6. La mediana in questo caso è (29+30)/2=29,5
MEDIA ARITMETICA
La media si calcola solo per variabili quantitative
(discrete o continue) e si torva sommando tutti i
valori tra loro e dividendo poi per il numero delle
osservazione (dimensione campione).
Puo essere semplice, quando a denominatore si
sommano tutti i valori, o ponderata, quando a
numeratore si raggruppa. Questi due valori
potrebbero risultare diversi.
ESERCIZIO RIEPIGOLATIVO
- media: (18x7+…+30x5)/(7+… +5)=23.525 —> voto medio degli studenti
- mediana: n è dispari: 24; il 50% degli
studenti ha preso al massimo 24 e l’altro
50% ha preso almeno 24.
- Moda (voto con frequenza maggiore):
22—> la maggioranza ha preso
LEZIONE 4: MISURE DI DISPERSIONE O DI VARIABILITA’
Oltre a conoscere il valore medio del campione, è importante sapere quanto diversi sono i valori
del campione. Dobbiamo cioè sapere quanto i valori del campione sono distribuiti o dispersi
attorno alla media.
Le misure di dispersione o di variabilità si usano per variabili quantitative discrete e continue (no
qualitative) e misurano l’attitudine della variabile ad assumere diversi valori (cioè quanto i dati sono
dispersi attorno a un qualche indice di posizione). È ragionevole che queste misure assumano
valori positivi o al limite valore 0 (fenomeno con variabilità nulla, nessuna variazione).
CAMPO DI VARIAZIONE (o RANGE)
Differenza tra l’osservazione maggiore e quella minore del campione: R=Max-Min
Aumentando la dimensione del campione, aumenta l’influenza dei valori estremi e di conseguenza
R diventa distorto, inaffidabile.
A tale proposito, per dimensioni di campione maggiore, bisogna considerare un’altra misura di
dispersione o di variabilità che comprenda possibilmente tutti i dati del campione.
VARIANZA
Media dei quadrati degli scarti tra ciascun valore e la media campionaria.
I VALORI STANDARDIZZATI
Il valore standardizzato misura di quanti scarti quadratici medi un valore dista dalla media. z=
X - µ : σ
Un valore positivo indica che il valore è sopra la media, mentre un valore negativo indica che il
valore è sotto la media. È possibile utilizzare i punteggi z per identificare valori anomali (outlier).
Un valore anomalo è un valore che ha probabilità molto bassa di verificarsi.
! Varianza e scarto medio quadratico sono indici assoluti, cioè dipendenti dall’unità di misura e
dell’ordine di grandezza di cioè che analizziamo. Non consentono confronti di variabilità. Uso
quindi una misura che mi permette di tenere conto del valore della media, il coefficiente di
variazione che è una misura relativa che non risente dell’unita di misura.
CV= S (deviazione standard) : Xm (media campionaria in valore assoluto)
Le misure di pozione o di tendenza centrale e di dispersione sono importanti ma non sono le uniche
misure numeriche numeriche dalle quali ottenere informazioni su un insieme di dati. Altre misure,
chiamate misure di tendenza relativa, forniscono informazioni sulla posizione di un’osservazione del
campione. Una tra queste è la mediana, ma ce ne sono altre.
I PERCENTILI
Il p-esimo percentile di un insieme di dati è il valore per cui una percentuale pari a p delle
osservazioni è inferiore o uguale a esso. I dati devono essere ordinati.
- il 25esimo percentile si definisce PRIMO QUARTILE (Q1)
- Il 50esimo percentile si definisce SECONDO QUARTILE (Q2) o MEDIANA
- Il 75esimo percentile si definise TERZO QUARTILE (Q3) Dispari
Pari
LEZIONE 5: PRIMA ESERCITAZIONE
L’indagine statistica pu essere effettuata su intera popolazione, prende il nome di censimento, o
su un campione della popolazione, prende il nome di indagine campionaria.
Quando l’indagine è sull’intera popolazione, si usa una statistica descrittiva (descrive il fenomeno
sull’intera popolazione). Quando invece l’indagine è su un campione, si usa sia una statistica
descrittiva (descrive il fenomeno sul campione), sia un’inferenza statistica (trarre indicazioni dal
campione che siano valide per la popolazione).
Alla fine bisogna trarre conclusioni su di una popolazione basandosi su un campione osservato e
sulla teoria della probabilità (la probabilità si occupa di determinare un campione rappresentativo
della popolazione (va quindi da popolazione a campione) e risulta essere l’opposto dell’inferenza
statistica che si occupa di estendere all’intera popolazione i risultati).
ANALISI DI DATI QUALITATIVI BIVARIATI
Quando si osservano due variabili, i dati si possono organizzare attraverso una tabella a doppia
entrata o tabella di contingenza. Questa tabella avrà nelle righe i valori della prima variabile, e
nelle colonne i valori della seconda variabile. I numeri interi all’interno della tabella sono il numero
di volte in cui compare la corrispondente coppia di valori o categorie (frequenze congiunte
assolute). Queste categorie sono esclusive (l’una esclude l’altra).
Il totale 80 rappresenta la frequenza assoluta
(quante volte il numero si ripete nel campione)
con cui si presenta la categoria 1 per la
variabile x.
Questa frequenza si chiama frequenza
marginale assoluta. Dividendo poi per la taglia
del campione, ottengo quelle relative (45:479).
DISTRIBUZIONI CONDIZIONATE
Mi esprime come è andata la popolazione rispetto all’oggetto di studio.
Ad esempio, se io ho un campione di 28 studenti misti tra liceo, itis e commerciale e voglio sapere
quale categoria prepara meglio per l’università, devo inanzitutto ridurre il campione alla singola
categoria e prendere il nuovo totale non più 28 ma il numero si studenti per i singoli indirizzi. Se le
distribuzioni condizionate di una variabile data una modalità dell’altra sono uguali (valore per
valore) tra loro, allora si dice che le due variabili sono indipendenti, ovvero che non ce
connessione tra loro.
Le due variabili non sono indipendenti
perché il 21.1% è diverso da 66.7%. Basta
una diversa per concludere che non sono
dipendenti
DATI QUANTITATIVI: ANALISI BIVARIATA
Se X e Y sono entrambe quantitative si pu utilizzare il grafico di dispersione in cui le variabili sono
rappresentati come puntini nello spazio.
LA COVARIANZA
Quando si osservano due variabili diverse, A e B, riferiti a una medesima popolazione, si pu fare
riferimento a indici statistici che possono descrivere come i due insieme di dati variano tra loro. La
covarianza di due variabili è un numero che fornisce una misura di quanto le due varino assieme,
ovvero della loro dipendenza. Quando la covarianza è negativa (2 e 4 quadrante) indica che i dati
hanno comportamento discorde mentre pari a zero indica che i dati non sono in relazione diretta
tra loro.
LEZIONE 6: LA PROBABILITA’
Un esempio casuale è qualsiasi azione che ha come risultato un insieme di dati registrabili. Di un
esperimento casuale è solo possibile elencare a priori l’insieme dei possibili esiti.
Lo spazio campionario S, è l’insieme di tutti gli esiti elementari possibili di un esperimento. Un
esempio è il lancio del dado o della moneta.
Un evento è un esito o un insieme di esiti dell’esperimento che sono di interesse per il ricercatore,
e più formalmente, è un qualsiasi sottoinsieme dello spazio campionario S (probabilità che si
verifichi evento A o B).
Qualora si considerano die eventi contemporaneamente, bisogna considerare gli eventi A E B
(spazi comuni) oppure A O B (prendo entrambi gli insiemi). Due eventi A e B sono incompatibili se
non hanno casi in comune. Guardo ci che è
in comune…in
questo caso
niente Quale è la
probabilità
che uno
studente
sospeso
non
provenga
da Varese?
Probabilità
di n0on
venire da
Varese=
1probabilità che lo studente derivi da
Varese = 1-
258/6492 = 0.960
Probabilità di A: 220/500= 44%
Pubblicità e acquisto non sono indipendenti, dato
che la probabilità di A è diversa da quella sopra,
la pubblicità influenza l’acquisto
LEZIONE 7: VARIABILI CASUALI E DISTRIBUZIONI DI PROBABILITA’
Lo spazio degli esiti S è l’insieme di tutti i possibili esiti di un esperimento.
Un evento A è un sottoinsieme degli spazi degli esiti S.
A’ è l’evento complementare di A (tutti gli esiti di S che non stanno in A).
A B è l’evento di intersezione tra gli eventi A e B (esiti sia in A che in B).
∩
A B è l’evento unione tra gli eventi A e B (o in A, o in B o in entrambi),
∪
Due eventi sono incompatibili se non hanno elementi in