Anteprima
Vedrai una selezione di 7 pagine su 30
Statistica - primo parziale  Pag. 1 Statistica - primo parziale  Pag. 2
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Statistica - primo parziale  Pag. 6
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Statistica - primo parziale  Pag. 11
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Statistica - primo parziale  Pag. 16
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Statistica - primo parziale  Pag. 21
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Statistica - primo parziale  Pag. 26
1 su 30
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

GRAFICO OGIVA

Utilizzato quando le variabili sono fornite in intervalli o per approssimare la variabile a scalini con

molte modalità

= linea spezzata, si tratta di un grafico approssimato

Assunzione all’interno degli intervalli che i dati grezzi si distribuiscano uniformemente

individuo i punti e le relative fequenze

TIPOLOGIA DI TABELLE (TABLE) GRAFICI (PLOT)

VARIABILE

Variabile QUALITATIVA = distribuzione di frequenza Grafico a torta rappresentante le frequenze

NOMINALE relative = “pie”

• frequenza assoluta - “counts”

• frequenza relativa – “prop”

Variabile QUALITATIVA = distribuzione di frequenza Grafico a barre = “bars”

ORDINALE • ! se le variabili non sono ordinate, bisogna

frequenza assoluta (f ) -

k prima creare una nuova variabile specificando

“counts”

• l’ordine con la funzione factor()

frequenza relativa (p ) –

k

“prop”

• Grafico cumulativo = “cumulative”

frequenza cumulata (F ) –

k (freq = “prop”)

“cum” il salto rappresenta la percentuale = più un

= associa ad ogni numero reale x la gradino è alto più, per esempio, persone

frequenza con cui si osservano valori avranno dato quella risposta

inferiori o uguali a x (segmenti orizzontali non collegati)

Variabile = distribuzione di frequenza Grafico “spike”

QUANTITATIVA (la funzione completa il grafico con le modalità

DISCRETA mancanti essendo sull’asse delle x misurate

frequenza assoluta - “counts”

• delle variabili numeriche, a differenza del

frequenza relativa – “prop” grafico a barre che escluderebbe quel valore)

• bw = True: plot in grigio

• bw = False: plot a colori (per cambiare

colore posso utilizzare la funzione

color)

• Grafico cumulativo = “cumulative”

frequenza cumulata – “cum” (freq = “prop”)

il salto rappresenta la percentuale = più un

gradino è alto più, per esempio, persone

avranno dato quella risposta

se le variabili sono fornite in intervalli o hanno

molte modalità allora si utilizza il grafico Ogiva

= “cumulative” + breaks

si tratta di un grafico approssimato

(assunzione all’interno degli intervalli che i dati

grezzi si distribuiscano uniformemente)

Variabile = distribuzione di frequenza Istogramma = “hist”

QUANTITATIVA che misura le densità

CONTINUA o DISCRETA ! necessità di dividere le variabili in intervalli

frequenza assoluta - “counts”

CON TANTE MODALITÀ con la funzione breaks

frequenza relativa – “prop” • breaks = c(divisione intervalli)

• breaks = numero variabili

per sapere come dividere le variabili calcolo

l’ampiezza di ciascun intervallo (w)

se le variabili sono già ordinate in intervalli,

allora nella funzione bisogna richiamarli con

interval = T

! se ad essere rappresentata è la frequenza

relativa, allora la somma delle aree dei

rettangoli = 1

• Grafico cumulativo = “cumulative”

frequenza cumulata – “cum” (freq = “prop”)

il salto rappresenta la percentuale = più un

gradino è alto più, per esempio, persone

avranno dato quella risposta

se le variabili sono fornite in intervalli o hanno

molte modalità allora si utilizza il grafico Ogiva

= “cumulative” + breaks

si tratta di un grafico approssimato

(assunzione all’interno degli intervalli che i dati

grezzi si distribuiscano uniformemente)

similarmente al cumulative

TIPOLOGIA DI MISURA DI SINTESI TIPOLOGIA DI

→ distr.summary.x() VARIABILE

tutte le variabili tranne per

MODA = modalità più frequente osservata in variabili con un numero elevato

MISURA DI TENDENZA un insieme di dati (si basa sulle frequenze) – di modalità

CENTRALE mean()

= sintetizza tutti i dati → le variabili quantitative

osservati, in particolare ha lo La moda può essere: continue solitamente hanno

scopo di descrivere il centro una moda non esistente o

non unica = 2 o più mode

dei dati, il quale può essere debole, allora si raggruppano i

debole = poco rappresentativa

identificato come: dati in intervalli e si calcola la

non esistente = tutte le modalità classe modale = intervallo con

hanno medesima frequenza

→ stats = “central” la massima densità di

frequenza

Tutte le variabili tranne le

MEDIANA = valore che occupa la posizione qualitative nominali, essendo

centrale nella sequenza ordinata dei dati in basata sull’ordinamento

modo crescente – median()

divide in due gruppi le osservazioni (50% e → qualora la variabile fosse già

50%, uno con osservazioni minori ed uno con suddivisa in intervalli non è

osservazioni maggiori della mediana) possibile calcolare la mediana,

allora assumendo che la

→ se le osservazioni sono pari allora la frequenza sia distribuita

mediana è la media tra i 2 numeri centrali uniformemente si può

approssimare la classe

→ per calcolare la mediana da una mediana

distribuzione di frequenza considero il valore

in corrispondenza della prima frequenza → utilizzata per le variabili con

cumulata maggiore o uguale di 0.5 una forte asimmetria a destra

(media >> mediana)

→ la mediana è robusta rispetto a valori

estremi (= rimane invariata) rispetto alla

media (= meglio rappresentativa in caso di

asimmetrie) solo le variabili quantitative

MEDIA ARITMETICA = somma dei dati divisa

per il numero di casi → qualora la variabile fosse

suddivisa in classi di intervallo

ed assumendo che le frequenze

di distribuiscano

n: si tratta di dati grezzi di un campione uniformemente, per ogni

K: numero di modalità uniche intervallo calcolo il valore

medio (m ) e lo moltiplico per

k

la propria frequenza relativa ed

infine sommo e divido per il

→ se si ha una popolazione: totale dei dati

= punto medio*p

k

→ la somma delle deviazioni (= dato – media) (approssimazione)

negative coincide con la somma delle

deviazioni positive, la somma di tutte le

deviazioni è 0

= media come centro di gravità/baricentro dei

dati

→ media >> mediana: asimmetria a destra

→ media << mediana: asimmetria a sinistra

→ media ponderata = dato x frequenza

relativa

MISURE DI TENDENZA NON QUARTILI (Q) = valori della variabile che Variabili quantitative continue e

CENTRALI suddividono una sequenza ordianta di dati in 4 discrete non simmetriche e con

= utilizzata per descrivere una blocchi che includono lo stesso numero di casi tante modalità

distribuzione fortemente (25%) – “quartiles”

asimmetrica, che presenta → l’unico quartile calcolato per

lunghe code e/o per variabili → in caso di dati suddivisi in intervalli: le variabili qualitative ordinali è

discrete con molte modalità e Q /P25 = frequenza cumulata pari al 25% la mediana

1

non simmetriche Q /P50 = mediana

2

Q /P75 = frequenza cumulata pari al 75%

3

BOX-PLOT = grafico univoco e

schematico – “boxplot” PERCENTILI (P)= dividono la sequenza ordinata

• dei dati in 100 gruppi con lo stesso numero di

baffi = min e max delle casi (1%) – “percentiles”

osservazioni standard

• scatola = 50% delle

osservazioni centrali

(tra Q1 e Q3)

→ valori estremi/valori soglia

= tutte le osservazioni x tali

che: x < Q1 – 1.5(Q3 - Q1)

x > Q3 +1.5 (Q3 - Q1)

→ tutti i valori che stanno a

destra o sinistra di x sono detti

outliers (R nella

rappresentazione non include

gli outliers)

→ stats = “fivenumbers”:

genera min, max, q1, q3 e

mediana dei dati TIPOLOGIE DI MISURE DI DISPERSIONE

= quantificano e sintetizzano la variabilità e la dispersione dei dati osservati

→ molto utili per valutare le variabili con forti asimmetrie

→ distr.summary.x(…, stats = “dispersion”)

CAMPO DI VARIAZIONE O RANGE

= valutazione dell’ampiezza dell’intervallo che contiene tutti i dati osservati

= differenza tra massimo e minimo – “range”

→ non è una misura robusta (dipende dagli estremi)

→ range interquartile = range tra primo e terzo quartile, quindi variazione del 50% dei dati

(misura più robusta) – “IQrange” VARIANZA

= misura della dispersione dei dati intorno alla loro media (deviazione dalla media) – “var”

→ varianza = errore quadratico medio: descrive l’affidabilità della media come sintesi dei dati

→ l’unità di misura della varianza è quella dei dati ma elevata al quadrato!

→ la somma delle deviazioni dei dati dalla media è 0!

→ la varianza non è una misura robusta

→ formula: media delle deviazioni dalla media elevate al quadrato

Popolazione: Campione:

SCARTO QUADRATICO MEDIO o DEVIAZIONE STANDARD

= misura della distanza media dei dati dalla media – “sd”

→ = radice quadrata della varianza

→ sensibile all’unità di misura della variabile (utile per ottenere la misura della dispersione dei

dati intorno alla media senza ottenere l’unità di misura al quadrato)

COEFFICIENTE DI VARIAZIONE

= misura l’ammontare di dispersione nei dati dalla loro media – “cv”

→ indice a-dimensionale = non ha unità di misura

⇒ utile per confrontare la variabilità di variabili uguali

ma con unità di misura differente o diverse

→ sempre > 0!

TIPOLOGIE DI ANALISI BIVARIATA GRAFICO

= analisi di due variabili

VARIABILE → distr.table.xy()

ENTRAMBE DISTRIBUZIONE DI FREQUENZE CONGIUNTE DIAGRAMMI A BARRE

VARIABILI = descrive le coppie di modalità osservate → plot.type = “bars”

QUALITATIVE sulle due variabili, in particolare la loro •

O DISCRETE CON rilevanza, ovvero: A BARRE ACCOSTATE

POCHE MODALITA’ frequenze assolute congiunte = medesima ampiezza ma altezza pari alle

• frequenze congiunte

frequenze relative congiunte o le

percentuali

→ freq.type = “joint”, x|y o y|x

→ tabella distribuzione di frequenze

congiunte (assolute e relative) → bar.type = “biside”

→ mette in risalto le frequenze assolute

• A BARRE SOVRAPPOSTE

= per ogni modalità delle due variabili

vengono costru

Dettagli
Publisher
A.A. 2023-2024
30 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher vvff18 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Commerciale Luigi Bocconi di Milano o del prof Trentini Filippo.