Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
FREQUENZA PERCENTUALE CUMULATA
LEZIONE DEL 11 MARZO
Classe modale è quella che solitamente ha il maggior numero di frequenze.
FUNZIONE DI RIPARTIZIONE EMPIRICA
La funzione di ripartizione empirica è una funzione statistica che descrive la distribuzione cumulativa dei dati
osservati in un insieme di dati empirici. In altre parole, essa mostra la frazione o la percentuale di osservazioni che
sono inferiori o uguali a un determinato valore.
Definizione: Una rappresentazione grafica di uso frequente per la distribuzione di frequenze in un campione è offerta
dalla funzione di ripartizione empirica.
Per calcolare l'ECDF, si ordina l'insieme di dati in ordine crescente e si assegna una probabilità cumulativa ad ogni
valore basata sulla sua frequenza relativa nella distribuzione. Questo può essere fatto utilizzando la seguente
formula: I valori di questa funzione sono essenzialmente le
frequenze relative cumulate. Il “messaggio”
fornito dai grafici è equivalente a quello fornito
dalle
tabelle.
Nel grafico si capisce che quella blu sta sempre sotto e riesce a produrre di
→
più il livello di produzione migliore è la curva blu quindi
In sintesi: la formula ci dice che dato x qual è la frequenza osservata fino a
quel punto, è una cosa più generale
SERIE STORICHE: Le serie storiche, in statistica, sono insiemi di dati che sono stati raccolti, registrati o misurati in
sequenza temporale regolare. Questi dati vengono solitamente raccolti in modo sequenziale in intervalli di tempo
costanti, come ore, giorni, settimane, mesi o anni.
Nelle serie storiche, il carattere corrisponde al tempo (anni, mesi, etc.), e per ciascun periodo/momento temporale
viene calcolata la corrispondente frequenza. Sono fondamentali per comprendere il comportamento dei fenomeni
nel tempo e sono uno strumento cruciale per prendere decisioni informate in molti campi.
Rappresentazioni grafiche
Grafici a barre o a nastri: In questi grafici ogni frequenza o intensità della distribuzione viene rappresentata o da una
barra o da un nastro così da ottenere una successione di rettangoli con base uguali e altezza proporzionale alla
frequenza. Il grafico a barre è preferibile utilizzarlo per per carattere qualitativi ordinati o quantitativi mentre i grafici
a nastri si utilizzano per caratteri qualitativi non ordinati. I grafici a barre sono particolarmente adatti per
rappresentare la distribuzione di caratteri quantitativi discreti come, per esempio, componenti del nucleo familiare
oppure voti di un esame e lo si fa attraverso il grafico a bastoncini, in quanto sono dati interi in cui solitamente si
→
evita di raggrupparli in classi (Vedi slide 32,33, 34 per esempi della lezione 2)
Istogrammi: I grafici finora esaminati possono essere utilizzati per rappresentare le distribuzioni semplici secondo un
carattere di qualsiasi tipo. Ma se la distribuzione riguarda caratteri quantitativi continuo, si ottiene una
rappresentazione più efficace con l’istogramma. L’ istogramma è un grafico costituito da barre non distanziate, dove
ogni barra possiede un’area proporzionale alla frequenza della classe. Dato un carattere quantitativo continuo, si può
suddividere il campo di variazioni in classi di stessa ampiezza, ad ogni classe si associa un rettangolo avente per base
→
l’intervallo di valori della classe e come altezza la frequenza corrispondente Questi sono gli istogrammi regolari, e
l’unica differenza che si ha con un grafico a barre e che queste non sono più distanziate.
Nel caso invece di distribuzioni con classi di ampiezza diversa, poiché l’area di ogni rettangolo deve essere
proporzionale alla frequenza, l’altezza (h) dovrà essere proporzionale al rapporto tra la frequenza da rappresentare e
l’ampiezza della base. In questo caso l’altezza (h) viene chiamata densità e si ottiene dal rapporto tra la frequenza(
→
che può essere assoluta, relativa o percentuale) e l’ampiezza della classe (hj = pj o nj o fj/aj). (guardo slide 40, 41
per esempi lezione2).
In sintesi, in un istogramma regolare l’altezza corrisponde alla frequenza, mentre in un istogramma con ampiezza
diversa la frequenza è rappresentata dall’area del rettangolo
Grafici a torta: Sono particolarmente utili quando si vuole rappresentare caratteri percentuali o qualitativi non
ordinati o ordinati ciclici.
Diagrammi cartesiani: per serie storiche. Il grafico è costituito da una successione di punti individuati su un piano
cartesiano, in cui l’asse delle ascisse è il tempo e l’asse delle ordinate è dato dal carattere osservato.
Grafico a bastoncini
Quando siamo in presenza di dati quantitativi si utilizza quasi sempre il grafico a bastoncini (conta molto l’altezza,
→
quanto ci allontaniamo Nell’esempio della tre diverse linee di produzione, avendo a che fare con dati che
assumono solo valori interi, una prima scelta potrebbe essere quella di evitare la formazione delle classi nella
rappresentazione grafica. Il grafico a bastoncini seguente (per la vecchia organizzazione) è costruito disegnando, in
corrispondenza di ogni valore osservato, un bastoncino verticale di lunghezza uguale alla frequenza assoluta con cui
quel valore `e stato osservato.
In tutte queste rappresentazioni grafiche l’altezza o la dimensione di ciò che si rappresenta deve essere
proporzionale all’intensità del fenomeno, che è rappresentata dalla frequenza assoluta o relativa.
Nel caso di fenomeni quantitativi di tipo continuo, si può usare un tipo di rilevazione che ripartisce l’intervallo
iniziale delle osservazioni in K sotto-intervalli, assegnando le unità statistiche al sotto-intervallo a cui appartengono.
Quindi Sotto-Intervalli = Modalità di X
→Esempio: X: Altezza (in cm.) (150 − 160) (160 − 170) (170 − 180) (180 − 190) Occorre però conoscere se gli estremi
delle classi sono compresi oppure no (N.B. utilizzando parentesi aperte come sopra, estremi esclusi!)
Guardo esercizi lezione 2 per ripasso
LEZIONE DEL 13 MARZO
Pe poter andare a vedere di quanto un certo carattere si differenzia da un altro; quindi, quanto è migliore una
posizione diversa dall’altra. Lo si fa sintetizzando le singole distribuzioni in un unico numero che, in un qualche senso,
indichi dove la distribuzione stessa è “posizionata”. Ovvero, calcolare per ogni distribuzione una misura (o parametro
o indice) di posizione, ed in particolare una misura di “centro”. Rispondere confrontando gli indici calcolati al punto
precedente. I parametri di posizione più importanti sono: la moda, la media aritmetica, la mediana, i quantili e
percentili. --> questi indici permettono di evidenziare le caratteristiche essenziali della distribuzione del carattere.
LA MEDIA ARITMETICA:
Nel caso in cui il carattere sia quantitativo, la media più frequentemente utilizzata è la media aritmetica che si indica
̅ ̅
con o anche più semplicemente con
La media aritmetica di un insieme di n valori osservati x1, x2, . . . , xn di un carattere quantitativo X è pari alla somma
dei valori osservati divisa per il loro numero.
Se il carattere X è quantitativo discreto e conosciamo la sua distribuzione di frequenze, possiamo calcolare più
velocemente la media aritmetica:
Se si ha la frequenza assoluta→ Se si ha la frequenza relativa→
Dove K è il numero di modalità assunte dal carattere, nj è la frequenza assoluta della j-esima modalità e fj è la
corrispondente frequenza relativa.
Queste ultime due formule non possono essere utilizzate nel caso di una distribuzione di frequenze se il carattere
quantitativo X è suddiviso in classi, in quanto non conosciamo con esattezza i valori osservati ma solo la classe di
appartenenza. Nel caso di una distribuzione di frequenze per un carattere quantitativo X suddiviso in classi, possiamo
approssimare la media come segue:
Dove K è il numero di classi, cj è il valore centrale che si sceglie tra le
classi e nj è la frequenza assoluta (Guardo slide 8 lezione 3 per esempio)
Media Aritmetica Ponderata (basta sapere che esiste)
In alcuni casi, nel calcolo della media aritmetica si vuole dare diversa importanza alle diverse osservazioni del
carattere attribuendo a ognuna di esse uno specifico peso, ossia un valore che ne esalti o ne diminuisca l’importanza.
Questa si chiama media aritmetica ponderata. La media aritmetica ponderata di un insieme di n valori osservati di un
carattere quantitativo X con pesi p1, p2, . . . , pn non negativi, è data da:
P.S.: Se i pesi sono tutti uguali, la media aritmetica ponderata coincide con la media aritmetica (non ponderata).
Esistono altri tipi di “medie”. Quella aritmetica `e senza ogni dubbio quella di utilizzo più comune. Per questo motivo,
viene comunemente indicata come “la media” senza nessuna ulteriore aggettivazione. Ricordiamoci che la media
aritmetica non è un indice robusto.
Proprietà della media aritmetica
1) La somma dei valori osservati è uguale al valore medio
moltiplicato per il numero di unità, ossia
2) La somma delle differenze tra i valori e la loro media
aritmetica, è pari a zero, ossia
3) La somma dei quadrati degli scarti delle modalità da una costante c
è minima quando c è uguale alla media aritmetica, ossia
4) Se un collettivo viene suddiviso in L sottoinsiemi disgiunti di numerosità n1, n2, . . . , nL, dove
allora la media aritmetica generale si può ottenere come media ponderata delle medie dei
sottoinsiemi, con pesi uguali alle loro numerosità, ossia
dove ¯xa(1), x¯a(2), . . . , x¯a(L) sono le medie dei sottoinsiemi.
Trasformazioni lineari di variabili
Se sulla variabile X si opera una trasformazione lineare detta anche di posizione e scala del tipo: Questo vuol dire che
se inseriamo una nuova operazione, basterà fare la stessa cosa con la media
= +
̅ ̅,
Una volta nota la media di X quindi , e la media aritmetica di Y, quindi si deriva dalla trasformazione lineare
→ ̅ = ̅ +
stessa Questo si ottiene perché la media è un operatore lineare.
Ricapitolando la media aritmetica si fa per sintetizzare i dati dunque trovare quello medio, ma solitamente accade che
questo non è una giusta sintesi in quanto magari un giorno si verifica un evento anomalo che capita poche volte
all’anno ma che comunque influenza tantissimo la media portando a non avere una sintetizzazione esatta. Per questo
esistono altri indici più robusti che non si fanno influenzare tanto quindi serve per avere una analisi più robusta.
La media si può calcolare solo per i numeri ma sappiamo che le variabili possono e