Statistica Sociale

Appunti di statistica sociale basati su appunti personali del publisher presi alle lezioni del prof. Petrucci dell’università degli Studi di Firenze - Unifi, facoltà di …

Esame Statistica sociale

Facoltà Lettere e filosofia

Dal corso del Prof. Petrucci Alessandra

Università Università degli Studi di Firenze

Publisher jemba98

A.A. 2018-2019

24 pagine

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

SLIDE

L = numero di gruppi nel collettivo

g = generico gruppo g

x =media del gruppo g

n = numerosità gruppo g

Ad esempio posso utilizzare questa proprietà per calcolare l’altezza media della classe (popolazione), composta da due gruppi:

e È

l’altezza delle donne e l’altezza degli uomini. Di questi due gruppi ho la media dell’altezza.

Moda

•

La moda di una variabile è la modalità (o valore) che si presenta con la frequenza più alta (assoluta,

SLIDE

relativa o percentuale). È un indice molto facile da trovare: basta trovare la distribuzione di

frequenza e si individua.

Per calcolare la moda di una distribuzione è necessario individuare quale modalità ha la frequenza

più elevata. In generale, le distribuzioni possono non avere la moda, avere una sola moda o più di

una moda. La moda non esiste quando tutte le modalità hanno la stessa frequenza. La moda è il

valore che si avvicina di più al valore totale.

SLIDES

La moda non dà molte informazioni, dice solo quale modalità è più frequente. La media aritmetica è

più informativa.

Mediana

•

È un indice di posizione che ci serve per decretare il valore centrale di una distribuzione ordinata in

senso crescente. La mediana ci dice il valore centrale che suddivide in due gruppi ugualmente

numerosi dove osserviamo dei valore più piccoli o uguali da una parte e più grandi o uguali

dall’altra.

Nelle numerosità dispari, la mediana si trova in corrispondenza del valore centrale (es. 5 valori, il 3 è

slides

la mediana —> 5+1 diviso 2). Nelle numerosità pari il valore si trova al centro dei due valori più

centrali (es. 6 valori, il valore in mezzo al 3 e al 4 è la mediana —> 6+1 diviso 2). Non bisogna

confondere la posizione (che è quella che ci interessa per la mediana) con i valori. È importante

ordinare i dati, vedere se sono pari o dispari, e individuare la posizione mediana.

N pari

N dispari Posizione/i centrale/i

Mediana

Esiste un altro modo più semplice ed immediato per lavorare con molte osservazioni, ovvero quello

di sintetizzare attraverso una distribuzione di frequenze per cui, nella tabella la prima colonna (x )

rappresenta i valori della variabile x osservati nel collettivo, mentre la seconda colonna (n )

rappresenta il numero di volte in cui queste modalità si presentano.

Es. calcolare la mediana della seguente distribuzione di frequenze riferita ad un collettivo di N=16 unità.

Unità da 1 a 2

Per prima cosa

calcolare la

distribuzione Unità da 3 a 6

cumulata Unità da 7 a 10

Unità da 11 a 16

Unità da 1 a 2 Posizione mediana 1 =

Dopo aver

calcolato la Unità da 3 a 6

distribuzione delle Posizione mediana 2 =

frequenze

assolute

cumulate, calcolo Unità da 7 a 10

la mediana • due perché 16 è pari

Unità da 11 a 16

Un ulteriore metodo alternativo può essere: Mediana

Step:

-ordinare i dati in senso crescente

-individuare la posizione in graduatoria dell’unità centrale

-se dispari ha una posizione centrale, se pari è fra i due valori centrali

Statistica robusta

È robusta quando non è influenzata dai valori estremi che la variabile x può assumere. Per esempio,

la mediana è una statistica robusta perché i valori estremi non la influenzano. La media aritmetica,

invece, non è robusta perché è influenzata dei valori estremi che la variabile può assumere; la

media viene “tirata su“ dai valori estremi che sono quelle distanti dalla massa dei valori.

Confronto tra media e mediana:

Forma della distribuzione Media e mediana

Asimmetria a sinistra Media più piccola della mediana

Simmetrica Media e mediana sostanzialmente uguali

Asimmetria a destra media più grande della mediana

~Quartili

Sono estremi della mediana e dividono una distribuzione ordinata in senso crescente in quattro

parti di uguale numerosità.

Primo quartile (Q1): divide una distribuzione ordinata di dati lasciando alla sua sinistra un quarto dei

termini (25%) e alla sua destra restanti tre quarti (75%).

Secondo quartile (Q2): divide una distribuzione ordinata lasciando alla sua sinistra la vita dei termini

(50%) e alla sua destra rimanente 50%. (=mediana)

Terzo quartile (Q3): divide una distribuzione ordinata di dati lasciando la sua sinistra tre quarti dei

termini (75%) e alla sua destra il restante quarto (25%)

Calcolo del quartile:

-ordinare i dati

-individuare la posizione mediana

-calcolare il valore associato alla posizione individuata

-ripetere il procedimento per la prima metà della distribuzione...

Es. la ricerca “un cosmetico al giorno“ rilevato la seguente distribuzione del numero di prodotti di bellezza acquistati dal 13 donne in

un mese. Calcolare i quartili. N. di prodotti: 15, 12, 13, 5, 10, 11, 8, 9, 14, 3, 16, 7, 6

della mediana:

-calcolo

3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16

N=13 —> posizione mediana = N+1 = 13+1 = 7

2 2

M= x [N+1] = 10

Q1:

-calcolo

Nella prima metà della distribuzione ci sono sei unità, escluso la mediana: 3, 5, 6, 7, 8, 9

N=6 —> N = 6 = 3 e N+1 = 6+1= 4

2 2 2 2

Q1= 6+7 = 6,5

2 Q3:

-calcolo

Nella seconda metà della distribuzione ci sono sei unità, escluso la mediana: 11, 12, 13, 14, 15, 16

N=6 —> N = 6 = 3 e N+1 = 6+1= 4

2 2 2 2

Q3= 13+14 = 13,5

IQR - Intervallo Interquartile

L’intervallo interquartile è la differenza tra il terzo ed il primo quartile e contiene il 50% dei valori

centrali di una distribuzione.

IQR = Q3 - Q1

Es. La ricerca “un cosmetico al giorno” ha rilevato la seguente distribuzione del nº di prodotti di bellezza acquistati da 13 donne in 1

mese. Calcolare la differenza interquartile. Numero prodotti: 15, 12, 13, 5, 10, 11, 8, 9, 14, 3, 16, 7, 6

Q1 = 6,5

Q3 = 13,5

IQR = Q3 - Q1 = 13,5-6,5 = 7 —> l’intervallo che contiene il 50% delle osservazioni centrali è pari a 7.

L’intervallo interquartile può anche assumere un valore uguale a 0, quando il primo e il terzo quartile

corrispondono allo stesso valore.

boxplot

Il (o diagramma a scatole e baffi) è un grafico che consente di rappresentare una

distribuzione mediante 5 numeri —> sintesi dei 5 numeri.

La lunghezza dei baffi è rappresentata rispettivamente dal valore minimo e dal valore massimo della

distribuzione.

Per costruire il boxplot si tracciano i baffi a partire da Q1 e Q3 fino ad arrivare al valore osservato

massimo (limite inferiore: LI) e minimo (limite superiore: LS). Per la scatolina si tracciano dei

segmenti lunghi a piacere.

Es. Buddy’s Pizza deriva dall’osservazione dei suoi dipendenti, le seguenti informazioni sui tempi di consegna:

Tempo minimo: 13 minuti

Tempo massimo: 30 minuti

Q1 = 15 minuti, mediana = 18, Q3 = 22 minuti

Fra 15 e 22 minuti ho il 50% delle mie osservazioni.

Quando ci troviamo di fronte ad una distribuzione simmetrica, la media, la mediana e la moda sono

bilanciate. La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, ovvero

se sono distribuite in modo approssimativamente regolare intorno al centro. In una distribuzione

perfettamente simmetrica la media, la moda e la mediana sono nella stessa posizione ed hanno lo

stesso valore.

Misure di dispersione

La dispersione (o variabilità) è l’attitudine delle unità di un collettivo ad assumere differenti modalità

di un carattere. Quanto più le modalità sono diverse, più c’è variabilità. Un esempio è quello

dell’altezza. Il fatto che non siamo alti tutti uguali è l’attitudine delle nostre unità statistiche a

cambiare modalità del carattere. Se le stature fossero tutte uguali fra loro non ci sarebbe variabilità.

Se c’è molta differenza tra le modalità allora c’è un’alta variabilità e viceversa. La variabilità la

misuriamo rispetto ad un valore di tendenza centrale (moda, mediana, media).

Es. preferireste sostenere un esame di statistica con un professore, sapendo che il voto medio è 21,5 con una dispersione di voti

bassa, o con un avrei professore il cui voto medio è 22,5, ma con variabilità molto elevata?

Prof 1: 19,22, 25, 20, 20, 23, 25, 25, 18, 24, 18,19

Prof 2: 17, 19, 21, 17, 19, 18, 30, 30, 17, 19, 30, 30

La misura di posizione non è fondamentale, è importante la variabilità.

La variabilità si può misurare con diversi tipi di indicatori, ognuno dei quali deve rispettare alcuni

requisiti:

• se la variabilità è nulla, l’indicatore deve assumere valore zero;

• l’indicatore deve crescere al crescere della variabilità;

• l’indicatore può assumere soltanto valori positivi.

Tipi di misure di dispersione:

range

1) campo di variazione o

2) differenza interquartile (IQR)

3) varianza —> misura principale che si può calcolare sono se quantitative

4) scarto quadratico medio (sqm) —> legato alla varianza

5) z-scores

Range o campo di variazione

È molto semplice ma poco informativo perché non dà una vera e propria misura dove trovare un

punto. Si trova solo un intervallo.

Range = X - X

max min

Gli svantaggi:

• ignora la distribuzione dei dati

• è sensibile ai valori esterni

range

Il è una misura abbastanza attendibile se rispetta la seguente regola:

Varianza

La varianza è una sorta di media degli scarti (differenze) al quadrato. L’utilizzo del quadrato serve a

non avere dati negativi e a non far tornare il totale 0. Il numeratore della

varianza si chiama

devianza

scarto quadratico medio

• Lo (sqm) è la radice di questa formula:

Sigma

minuscolo

Il valore dello scarto quadratico medio evidenzia un’oscillazione nell’intervallo compreso tra:

Per le distribuzioni campanulari e unimodali, nell’intervallo ricadono circa 2/3 delle unità

totali. Nell’intervallo ricade il 95% delle osservazioni, nell’intervallo ricade il 99%

delle osservazioni.

Step calcolo varianza e sqm:

-definire il tipo di distribuzione (unità, frequenze, in classi)

-aggiungere nuove colonne per:

-calcolare la media

-calcolare gli scarti dei valori dalla media in valore assoluto; moltiplicando per n se è una

distribuzione di frequenza o in classi

-c

Anteprima

Vedrai una selezione di 6 pagine su 24

Anteprima di 6 pagg. su 24.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 24.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 24.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 24.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher jemba98 di informazioni apprese con la frequenza delle lezioni di Statistica sociale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Petrucci Alessandra.

Appunti correlati

Invia appunti e guadagna

Recensioni

4/5

2 recensioni

5 stelle

4 stelle

3 stelle

2 stelle

1 stella

Ti è piaciuto questo appunto?

Agro99

29 Agosto 2024

Stefano0802

5 Febbraio 2023

Statistica Sociale

SLIDE

SLIDE

SLIDE

SLIDES

Recensioni

Domande e risposte

I migliori insegnanti di Matematica

Salvatore F.

Daniele P.

Matteo S.