Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
GRAFICO OGIVA
Utilizzato quando le variabili sono fornite in intervalli o per approssimare la variabile a scalini con
molte modalità
= linea spezzata, si tratta di un grafico approssimato
Assunzione all’interno degli intervalli che i dati grezzi si distribuiscano uniformemente
individuo i punti e le relative fequenze
TIPOLOGIA DI TABELLE (TABLE) GRAFICI (PLOT)
VARIABILE
Variabile QUALITATIVA = distribuzione di frequenza Grafico a torta rappresentante le frequenze
NOMINALE relative = “pie”
• frequenza assoluta - “counts”
• frequenza relativa – “prop”
Variabile QUALITATIVA = distribuzione di frequenza Grafico a barre = “bars”
ORDINALE • ! se le variabili non sono ordinate, bisogna
frequenza assoluta (f ) -
k prima creare una nuova variabile specificando
“counts”
• l’ordine con la funzione factor()
frequenza relativa (p ) –
k
“prop”
• Grafico cumulativo = “cumulative”
frequenza cumulata (F ) –
k (freq = “prop”)
“cum” il salto rappresenta la percentuale = più un
= associa ad ogni numero reale x la gradino è alto più, per esempio, persone
frequenza con cui si osservano valori avranno dato quella risposta
inferiori o uguali a x (segmenti orizzontali non collegati)
Variabile = distribuzione di frequenza Grafico “spike”
QUANTITATIVA (la funzione completa il grafico con le modalità
•
DISCRETA mancanti essendo sull’asse delle x misurate
frequenza assoluta - “counts”
• delle variabili numeriche, a differenza del
frequenza relativa – “prop” grafico a barre che escluderebbe quel valore)
• bw = True: plot in grigio
• bw = False: plot a colori (per cambiare
colore posso utilizzare la funzione
color)
• Grafico cumulativo = “cumulative”
frequenza cumulata – “cum” (freq = “prop”)
il salto rappresenta la percentuale = più un
gradino è alto più, per esempio, persone
avranno dato quella risposta
se le variabili sono fornite in intervalli o hanno
molte modalità allora si utilizza il grafico Ogiva
= “cumulative” + breaks
si tratta di un grafico approssimato
(assunzione all’interno degli intervalli che i dati
grezzi si distribuiscano uniformemente)
Variabile = distribuzione di frequenza Istogramma = “hist”
QUANTITATIVA che misura le densità
•
CONTINUA o DISCRETA ! necessità di dividere le variabili in intervalli
frequenza assoluta - “counts”
•
CON TANTE MODALITÀ con la funzione breaks
frequenza relativa – “prop” • breaks = c(divisione intervalli)
• breaks = numero variabili
per sapere come dividere le variabili calcolo
l’ampiezza di ciascun intervallo (w)
se le variabili sono già ordinate in intervalli,
allora nella funzione bisogna richiamarli con
interval = T
! se ad essere rappresentata è la frequenza
relativa, allora la somma delle aree dei
rettangoli = 1
• Grafico cumulativo = “cumulative”
frequenza cumulata – “cum” (freq = “prop”)
il salto rappresenta la percentuale = più un
gradino è alto più, per esempio, persone
avranno dato quella risposta
se le variabili sono fornite in intervalli o hanno
molte modalità allora si utilizza il grafico Ogiva
= “cumulative” + breaks
si tratta di un grafico approssimato
(assunzione all’interno degli intervalli che i dati
grezzi si distribuiscano uniformemente)
similarmente al cumulative
TIPOLOGIA DI MISURA DI SINTESI TIPOLOGIA DI
→ distr.summary.x() VARIABILE
tutte le variabili tranne per
MODA = modalità più frequente osservata in variabili con un numero elevato
MISURA DI TENDENZA un insieme di dati (si basa sulle frequenze) – di modalità
CENTRALE mean()
= sintetizza tutti i dati → le variabili quantitative
osservati, in particolare ha lo La moda può essere: continue solitamente hanno
•
scopo di descrivere il centro una moda non esistente o
non unica = 2 o più mode
•
dei dati, il quale può essere debole, allora si raggruppano i
debole = poco rappresentativa
•
identificato come: dati in intervalli e si calcola la
non esistente = tutte le modalità classe modale = intervallo con
hanno medesima frequenza
→ stats = “central” la massima densità di
frequenza
Tutte le variabili tranne le
MEDIANA = valore che occupa la posizione qualitative nominali, essendo
centrale nella sequenza ordinata dei dati in basata sull’ordinamento
modo crescente – median()
divide in due gruppi le osservazioni (50% e → qualora la variabile fosse già
50%, uno con osservazioni minori ed uno con suddivisa in intervalli non è
osservazioni maggiori della mediana) possibile calcolare la mediana,
allora assumendo che la
→ se le osservazioni sono pari allora la frequenza sia distribuita
mediana è la media tra i 2 numeri centrali uniformemente si può
approssimare la classe
→ per calcolare la mediana da una mediana
distribuzione di frequenza considero il valore
in corrispondenza della prima frequenza → utilizzata per le variabili con
cumulata maggiore o uguale di 0.5 una forte asimmetria a destra
(media >> mediana)
→ la mediana è robusta rispetto a valori
estremi (= rimane invariata) rispetto alla
media (= meglio rappresentativa in caso di
asimmetrie) solo le variabili quantitative
MEDIA ARITMETICA = somma dei dati divisa
per il numero di casi → qualora la variabile fosse
suddivisa in classi di intervallo
ed assumendo che le frequenze
di distribuiscano
n: si tratta di dati grezzi di un campione uniformemente, per ogni
K: numero di modalità uniche intervallo calcolo il valore
medio (m ) e lo moltiplico per
k
la propria frequenza relativa ed
infine sommo e divido per il
→ se si ha una popolazione: totale dei dati
= punto medio*p
k
→ la somma delle deviazioni (= dato – media) (approssimazione)
negative coincide con la somma delle
deviazioni positive, la somma di tutte le
deviazioni è 0
= media come centro di gravità/baricentro dei
dati
→ media >> mediana: asimmetria a destra
→ media << mediana: asimmetria a sinistra
→ media ponderata = dato x frequenza
relativa
MISURE DI TENDENZA NON QUARTILI (Q) = valori della variabile che Variabili quantitative continue e
CENTRALI suddividono una sequenza ordianta di dati in 4 discrete non simmetriche e con
= utilizzata per descrivere una blocchi che includono lo stesso numero di casi tante modalità
distribuzione fortemente (25%) – “quartiles”
asimmetrica, che presenta → l’unico quartile calcolato per
lunghe code e/o per variabili → in caso di dati suddivisi in intervalli: le variabili qualitative ordinali è
discrete con molte modalità e Q /P25 = frequenza cumulata pari al 25% la mediana
1
non simmetriche Q /P50 = mediana
2
Q /P75 = frequenza cumulata pari al 75%
3
BOX-PLOT = grafico univoco e
schematico – “boxplot” PERCENTILI (P)= dividono la sequenza ordinata
• dei dati in 100 gruppi con lo stesso numero di
baffi = min e max delle casi (1%) – “percentiles”
osservazioni standard
• scatola = 50% delle
osservazioni centrali
(tra Q1 e Q3)
→ valori estremi/valori soglia
= tutte le osservazioni x tali
che: x < Q1 – 1.5(Q3 - Q1)
x > Q3 +1.5 (Q3 - Q1)
→ tutti i valori che stanno a
destra o sinistra di x sono detti
outliers (R nella
rappresentazione non include
gli outliers)
→ stats = “fivenumbers”:
genera min, max, q1, q3 e
mediana dei dati TIPOLOGIE DI MISURE DI DISPERSIONE
= quantificano e sintetizzano la variabilità e la dispersione dei dati osservati
→ molto utili per valutare le variabili con forti asimmetrie
→ distr.summary.x(…, stats = “dispersion”)
CAMPO DI VARIAZIONE O RANGE
= valutazione dell’ampiezza dell’intervallo che contiene tutti i dati osservati
= differenza tra massimo e minimo – “range”
→ non è una misura robusta (dipende dagli estremi)
→ range interquartile = range tra primo e terzo quartile, quindi variazione del 50% dei dati
(misura più robusta) – “IQrange” VARIANZA
= misura della dispersione dei dati intorno alla loro media (deviazione dalla media) – “var”
→ varianza = errore quadratico medio: descrive l’affidabilità della media come sintesi dei dati
→ l’unità di misura della varianza è quella dei dati ma elevata al quadrato!
→ la somma delle deviazioni dei dati dalla media è 0!
→ la varianza non è una misura robusta
→ formula: media delle deviazioni dalla media elevate al quadrato
Popolazione: Campione:
SCARTO QUADRATICO MEDIO o DEVIAZIONE STANDARD
= misura della distanza media dei dati dalla media – “sd”
→ = radice quadrata della varianza
→ sensibile all’unità di misura della variabile (utile per ottenere la misura della dispersione dei
dati intorno alla media senza ottenere l’unità di misura al quadrato)
COEFFICIENTE DI VARIAZIONE
= misura l’ammontare di dispersione nei dati dalla loro media – “cv”
→ indice a-dimensionale = non ha unità di misura
⇒ utile per confrontare la variabilità di variabili uguali
ma con unità di misura differente o diverse
→ sempre > 0!
TIPOLOGIE DI ANALISI BIVARIATA GRAFICO
= analisi di due variabili
VARIABILE → distr.table.xy()
ENTRAMBE DISTRIBUZIONE DI FREQUENZE CONGIUNTE DIAGRAMMI A BARRE
VARIABILI = descrive le coppie di modalità osservate → plot.type = “bars”
QUALITATIVE sulle due variabili, in particolare la loro •
O DISCRETE CON rilevanza, ovvero: A BARRE ACCOSTATE
•
POCHE MODALITA’ frequenze assolute congiunte = medesima ampiezza ma altezza pari alle
• frequenze congiunte
frequenze relative congiunte o le
percentuali
→ freq.type = “joint”, x|y o y|x
→ tabella distribuzione di frequenze
congiunte (assolute e relative) → bar.type = “biside”
→ mette in risalto le frequenze assolute
• A BARRE SOVRAPPOSTE
= per ogni modalità delle due variabili
vengono costru