Anteprima
Vedrai una selezione di 5 pagine su 16
Riassunto esame Statistica, prof. Bove, libro consigliato Statistica per la ricerca sociale, Corbetta, Gasperoni, Pisati Pag. 1 Riassunto esame Statistica, prof. Bove, libro consigliato Statistica per la ricerca sociale, Corbetta, Gasperoni, Pisati Pag. 2
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica, prof. Bove, libro consigliato Statistica per la ricerca sociale, Corbetta, Gasperoni, Pisati Pag. 6
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica, prof. Bove, libro consigliato Statistica per la ricerca sociale, Corbetta, Gasperoni, Pisati Pag. 11
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica, prof. Bove, libro consigliato Statistica per la ricerca sociale, Corbetta, Gasperoni, Pisati Pag. 16
1 su 16
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

TOT

Un altro modo per relativizzare le FREQ. è portarle a un campo di variazione tra 0 e 100, le

FREQUENZE PERCENTUALI si ottengono moltiplicando le proporzioni per 100:

FREQ% = FREQ. ASSOLUTA x 100

TOT

Il punto percentuale è l’unità di riferimento da usare per rilevare differenze tra percentuali.

Se la variabile è di tipo ORDINALE o CARDINALE è possibile avvantaggiarsi della relazione d’ordine

per calcolare le FREQUENZE CUMULATE: esse corrispondono al numero di casi che appartengono a

quella categoria o a quella precedente.

DISTRIBUZIONE DI FREQUENZA

MODALITA’ FREQ.ASS PROPORZIONI FREQ% FREQ.CUMULATE RETRO-

CUMULATE

SENZA TITOLO 30 0,025 2,5 2,5 100

ELEMENTARE 509 0,424 42,4 44,7 97,5

MEDIE 342 0,285 28,5 73,4 55,1

DIPLOMA 264 0,220 22 95,4 26,6

LAUREA 55 0,046 4,6 100 4,6

TOT 1200 1 100 / /

Rappresentazioni grafiche di distribuzioni di Frequenza

Le distribuzioni di FREQ. si possono rappresentare anche in forma grafica, con rappresentazioni

lineari ( segni ordinati da sinistra a destra) o rappresentazioni circolari (segni ordinati secondo un

criterio circolare).

Le rappresentazioni lineari vengono sviluppate lungo 2 dimensioni spaziali: una per la modalità

variabile, l’altra per la frequenza.

Rappresentazioni lineari VARIABILI ORDINALI

(diagramma a colonne, a nastri)

Rappresentazioni circolari VARIABILI NOMINALI

(a torta, a raggera)

Istogramma VARIABILI CARDINALI

Tendenza centrale

La tendenza centrale è il baricentro della distribuzione, la più elementare è la MODA, alla quale è

associata la maggiore frequenza. (unico valore caratteristico che rivela la tendenza centrale nelle

variabili nominali).

Per le variabili ordinali è possibile rilevare anche un altro valore caratteristico: la MEDIANA, è la

modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo quella

variabile. Se il numero dei casi (N) è dispari, il caso centrale sarà: (N + ½). La determinazione della

MEDIANA è molto facile se si consulta una tabulazione che riporta le FREQ.CUM., essa corrisponde

infatti, alla modalità in corrispondenza della quale le FREQ.CUM. superano la soglia del 50%.

La MEDIA ARITMETICA è il valore caratteristico che rileva la tendenza centrale delle variabili

cardinali, è data dalla somma (∑)dei valori assunti dalla variabile su tutti i casi, divisa per il numero

dei casi. La media aritmetica si indica con X poiché la variabile si indica con X, la formula della

media è: ∑

X = x

1

N

Ha senso avvalersi della media , soltanto se la variabile è CARDINALE, in quanto i valori devono

essere sommati e poi divisi per il numero dei casi. Ciò è possibile solo se i valori hanno pieno

significato numerico.

Tipo di variabile Tendenza centrale Variabilità

NOMINALE MODA OMOGENEITA’

ORDINALE MEDIANA DIFFERENZA INTERQUARTILE

CARDINALE MEDIA DEVIAZIONE STANDARD

Se i casi vengono divisi in 4 parti uguali si formano i QUARTILI. I quartili sono 3: il primo quartile

(Q ) è il valore al di sotto del quale si trovano il 25% dei casi, il secondo (Q ) coincide con la

1 2

MEDIANA, ed il terzo (Q ) ha il 75% dei casi al di sotto di sé e il 25% al di sopra.

3 Q Q Q

1 2 3

25% 25% 25% 25%

La DIFFERENZA INTERQUARTILE ( Q = Q – Q ) può essere usata per rilevare la dispersione della

3 1

distribuzione.

Il CAMPO DI VARIAZIONE è la differenza che intercorre tra il valore min e il valore max.

La DEVIAZIONE STANDARD detta anche ( scarto quadratico medio ), equivale alla radice quadrata

della VARIANZA .

La VARIANZA si trova così: 2

2

(S ) = ∑ (X – X )

1

N

(S) è la DEVIAZIONE STANDARD = VARIANZA

Il COEFFICIENTE DI VARIAZIONE (C ) divide la Deviazione standard per la media:

V

C S

V= X

Il BLOXPLOT è un’efficace rappresentazione grafica che veicola informazioni riguardanti sia la

tendenza centrale, sia la variabilità.

90

80 Q

3

70

60

50 Q

mediana 2

40

30 Q

20 1

10

SERIE TERRITORIALI SERIE STORICHE

È una sequenza di valori assunti da (dette anche serie temporali) riporta in

sequenza i valori assunti da una

una variabile nello stesso momento variabile nello stesso aggregato

in diversi aggregati territoriali. Per territoriale in tempi diversi.

rappresentare graficamente le serie

territoriali normalmente si ricorre al X = variabile temporale

DIAGRAMMA A COLONNE. Una Y= variabile in esame

rappresentazione grafica di grande

efficacia inoltre, sono i In corrispondenza di ogni periodo la

CARTOGRAMMI, che raffigurano variabile assume un solo valore. Essa

proprio la distribuzione geografica graficamente si rappresenta con una

del fenomeno studiato. serie di punti uniti da una spezzata.

Nelle serie storiche e territoriali come si possono valutare le variazioni di un fenomeno rilevate in

situazioni diverse?

La variazione è di solito espressa in forma percentuale. Se indichiamo con A e B, le due grandezze,

possiamo calcolare:

VARIAZIONE ASSOLUTA VARIAZIONE RELATIVA

B - A B – A x 100

A

Ad esempio, la variazione del numero dei morti per droga: dai 242 del 1985 ai 292 del 1986 può

essere espressa così:

292-242= +50 292- 242 x100 = 50 x 100 = +20, 7

242 242

Si dirà quindi, che nel periodo considerato dal 1985 al 1986 i casi di morte per droga sono cresciuti

di 50 unità (variazione assoluta), cioè del 20,7% (variazione relativa).

Per esprimere le variazioni di tempo, il ricercatore si avvale del NUMERO INDICE(sequenza di valori

assunti dalla stessa variabile e riferiti a periodi diversi facendo una proporzione).

Se si pone a 100 il numero dei morti per droga nel 1985, a quanto ammonterebbero nel 1986?

N. morti 1985 = N. morti 1986 = 242 = 292

100 X 100 X

X = 292 x 100 = 120,7 Attraverso la proporzione vedo subito che si è verificato un aumento

242

La stessa procedura può essere applicata anche alle serie territoriali.

I numeri INDICE non sono mai negativi, assumono solo valori inferiori a 100; essi sono numeri puri

e permettono il confronto tra le variabili più disparate.

Trasformazione dati

La NORMALIZZAZIONE consiste nella trasformazione di un insieme di valori numerici, al fine di

collocarli in un sistema di riferimento che ne facilita l’interpretazione (tra 0 e 1 e tra 0 e 100).

Una forma semplice di normalizzazione consiste nel mettere in relazione i valori di una variabile

cardinale, con il valore più basso e il valore più alto che si possono assumere su quella variabile. Si

prenda ad esempio come sistema di riferimento la votazione universitaria che può variare tra 66 e

110.

N dato normalizzato (tra 0 e 1)

1 =

X = dato da normalizzare (88)

1

X = valore minimo (66)

min

X = valore massimo (110)

max

Il dato può essere normalizzato con la seguente equazione:

N = (X - X ) : (X – X )

1 1 min max min

N = (88 – 66) : (110 – 66)

1

N = 22 : 44

1

N = 0,5

1

Cogliere il campo di variazione permette di interpretare velocemente i valori.

Si può applicare anche una NORMALIZZAZIONE RELATIVA in cui X equivale al valore più basso

min

effettivamente rilevato, ed X equivale al valore più alto effettivamente rilevato. In questo caso i

max

valori non sono teorici(0 e 1, 0 e 100), bensì EFFETTIVI (K).

La STANDARDIZZAZIONE è una procedura di normalizzazione. Essa trasforma i dati in punti

STANDARD, prima si normalizzano i dati rispetto alla loro media, poi si normalizzano i risultanti

scarti rispetto alla DEVIAZIONE STANDARD. La prima normalizzazione consiste nella

trasformazione di ogni valore nel suo scarto dalla media:

Esempio voti:

X = 7

X = 5 X = (7-5)= 2

1 1

X = 6,7 X = (7-6,7)=0,3

2 2

X = 5,3 X = (7-5,3) = 1,7

3 3

La seconda normalizzazione consiste nella divisione di ogni scarto per la deviazione standard

(DEV.ST.), (1,28).

X : S

1

Quindi la formula completa è : Z = (x – x ) / S

1

Z : punteggio standardizzato

La media è uguale a 0 e la DEV. ST è uguale a 1, la Varianza è uguale a 1.

La standardizzazione è molto utile per il confronto tra dati con distribuzioni empiriche diverse.

Le variabili cardinali che derivano dalla combinazione di altre variabili sono definite VARIABILI

DERIVATE. Si ricorre ad esse soprattutto quando l’unità di analisi è un aggregato territoriale e si

calcolano anche i rapporti statistici:

 RAPPORTI DI COMPOSIZIONE: mettono in relazione una parte di fenomeno con il

fenomeno stesso nella sua totalità (Es: spesa della famiglia per l’affitto /spesa totale

famiglia);

 RAPPORTI DI COESISTENZA: è rapporto tra due parti di un insieme (numero maschi,

numero femmine);

 RAPPORTI DI DERIVAZIONE: rapporto tra la misura di un fenomeno e quella di un

altro che può essere considerato un presupposto (nati /popolazione);

 RAPPORTI MEDI: le due grandezze messe in relazione riguardano due fenomeni

diversi (numero abitanti/superficie del territorio).

Analisi Bivariata

Le ipotesi di solito mettono in relazione due o tre variabili, esse possono essere formulate prima e

dopo la raccolta delle informazioni.

L’analisi statistica delle relazioni tra due variabili si basa soprattutto sull’esame delle distribuzioni

di FREQUENZE CONGIUNTE (incrocio di 2 distribuzioni di FREQUENZA SEMPLICE).

L’Analisi Bivariata affronta le relazioni da 3 punti di vista:

FORMA

 : la forma della relazione consiste nello stabilire qual è il tipo di

associazione tra le modalità delle 2 variabili

FORZA

 : la forza della relazione consiste in un confronto tra la tabella osservata

e la tabella di indipendenza, quanto più la tabella osservata è diversa da quella di

indipendenza, tanto più è forte il legame;

DIREZIONE

 : si basa sul principio di causa-effetto, evidenzia dunque il nesso di

causalità tra due variabili e quale variabile influenza le altre. Con l’attribuzione di una

DIREZIONE CAUSALE si può assegnare il ruolo di VARIABILE INDIPENDENTE (X) alla variabile

che influenza, e di VARIABILE DIPENDENTE (Y) all’altra.

x y

Termini utili:

COVARIAZIONE: Relazione tra variabili

ASSOCIAZIONE: Relazione tra variabili NOMINALI

COGRADUAZIONE: Relazione tra variabili ORDINALI

CORRELAZIONE: Relazione tra variabili CARDINALI.

Per esaminare le relazioni tra due variabili si usano le tabelle a doppia entrata:

RIGA: variabile X

COLONNA: variabile Y

CELLE: numero di casi corrispondenti alle modalità dell

Dettagli
Publisher
A.A. 2017-2018
16 pagine
2 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher FUTHURA di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi Roma Tre o del prof Bove Ettore.