Anteprima
Vedrai una selezione di 5 pagine su 17
Riassunto esame statistica, docente Bove, libro consigliato "Statistica per la ricerca sociale", autori: Corbetta, Gasperoni, Pisati Pag. 1 Riassunto esame statistica, docente Bove, libro consigliato "Statistica per la ricerca sociale", autori: Corbetta, Gasperoni, Pisati Pag. 2
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Riassunto esame statistica, docente Bove, libro consigliato "Statistica per la ricerca sociale", autori: Corbetta, Gasperoni, Pisati Pag. 6
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Riassunto esame statistica, docente Bove, libro consigliato "Statistica per la ricerca sociale", autori: Corbetta, Gasperoni, Pisati Pag. 11
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Riassunto esame statistica, docente Bove, libro consigliato "Statistica per la ricerca sociale", autori: Corbetta, Gasperoni, Pisati Pag. 16
1 su 17
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

N

Ha senso avvalersi della media , soltanto se la variabile è CARDINALE, in quanto i valori

devono essere sommati e poi divisi per il numero dei casi. Ciò è possibile solo se i valori

hanno pieno significato numerico.

Tipo di variabile Tendenza centrale Variabilità

NOMINALE MODA OMOGENEITA’

ORDINALE MEDIANA DIFFERENZA

INTERQUARTILE

CARDINALE MEDIA DEVIAZIONE STANDARD

Se i casi vengono divisi in 4 parti uguali si formano i QUARTILI. I quartili sono 3: il primo

quartile (Q ) è il valore al di sotto del quale si trovano il 25% dei casi, il secondo ( Q )

1 2

coincide con la MEDIANA, ed il terzo (Q ) ha il 75% dei casi al di sotto di sé e il 25% al di

3

sopra. Q Q Q

1 2 3

25% 25% 25% 25%

La DIFFERENZA INTERQUARTILE ( Q = Q – Q ) può essere usata per rilevare la

3 1

dispersione della distribuzione.

Il CAMPO DI VARIAZIONE è la differenza che intercorre tra il valore min e il valore max.

La DEVIAZIONE STANDARD detta anche ( scarto quadratico medio ), equivale alla radice

quadrata della VARIANZA .

La VARIANZA si trova così: 2

(S ) = ∑ (X – X )

2 1

N

(S) è la DEVIAZIONE STANDARD = VARIANZA

Il COEFFICIENTE DI VARIAZIONE (C ) divide la Deviazione standard per la media:

V

C S

V= X

Il BLOXPLOT è un’efficace rappresentazione grafica che veicola informazioni riguardanti

sia la tendenza centrale, sia la variabilità.

90

80

70 Q 3

60

50

40 Q

mediana 2

30

20

10 Q 1 SERIE STORICHE

SERIE TERRITORIALI (dette anche serie temporali) riporta

È una sequenza di valori assunti in sequenza i valori assunti da una

da una variabile nello stesso variabile nello stesso aggregato

momento in diversi aggregati territoriale in tempi diversi.

territoriali. Per rappresentare X = variabile temporale

graficamente le serie territoriali

normalmente si ricorre al Y= variabile in esame

DIAGRAMMA A COLONNE. Una In corrispondenza di ogni periodo la

rappresentazione grafica di variabile assume un solo valore.

grande efficacia inoltre, sono i Essa graficamente si rappresenta

CARTOGRAMMI, che raffigurano con una serie di punti uniti da una

proprio la distribuzione geografica spezzata.

del fenomeno studiato. Nelle serie

storiche e territoriali come si possono valutare le variazioni di un fenomeno rilevate in

situazioni diverse?

La variazione è di solito espressa in forma percentuale. Se indichiamo con A e B, le due

grandezze, possiamo calcolare:

VARIAZIONE ASSOLUTA VARIAZIONE RELATIVA

B - A B – A x 100

A

Ad esempio, la variazione del numero dei morti per droga: dai 242 del 1985 ai 292 del

1986 può essere espressa così:

292-242= +50

292- 242 x100 = 50 x 100 = +20, 7 242 242

Si dirà quindi, che nel periodo considerato dal 1985 al 1986 i casi di morte per droga sono

cresciuti di 50 unità (variazione assoluta), cioè del 20,7% (variazione relativa).

Per esprimere le variazioni di tempo, il ricercatore si avvale del NUMERO

INDICE(sequenza di valori assunti dalla stessa variabile e riferiti a periodi diversi facendo

una proporzione).

Se si pone a 100 il numero dei morti per droga nel 1985, a quanto ammonterebbero nel

1986?

N. morti 1985 = N. morti 1986 = 242 = 292

100 X 100 X

X = 292 x 100 = 120,7 Attraverso la proporzione vedo subito che si è verificato

un aumento

242

La stessa procedura può essere applicata anche alle serie territoriali.

I numeri INDICE non sono mai negativi, assumono solo valori inferiori a 100; essi sono

numeri puri e permettono il confronto tra le variabili più disparate.

Trasformazione dati

La NORMALIZZAZIONE consiste nella trasformazione di un insieme di valori numerici, al

fine di collocarli in un sistema di riferimento che ne facilita l’interpretazione (tra 0 e 1 e tra

0 e 100).

Una forma semplice di normalizzazione consiste nel mettere in relazione i valori di una

variabile cardinale, con il valore più basso e il valore più alto che si possono assumere su

quella variabile. Si prenda ad esempio come sistema di riferimento la votazione

universitaria che può variare tra 66 e 110.

N dato normalizzato (tra 0 e 1)

1 =

X = dato da normalizzare (88)

1

X = valore minimo (66)

min

X = valore massimo (110)

max

Il dato può essere normalizzato con la seguente equazione:

N = (X - X ) : (X – X )

1 1 min max min

N = (88 – 66) : (110 – 66)

1

N = 22 : 44

1

N = 0,5

1

Cogliere il campo di variazione permette di interpretare velocemente i valori.

Si può applicare anche una NORMALIZZAZIONE RELATIVA in cui X equivale al valore

min

più basso effettivamente rilevato, ed X equivale al valore più alto effettivamente rilevato.

max

In questo caso i valori non sono teorici(0 e 1, 0 e 100), bensì EFFETTIVI (K).

La STANDARDIZZAZIONE è una procedura di normalizzazione. Essa trasforma i dati in

punti STANDARD, prima si normalizzano i dati rispetto alla loro media, poi si normalizzano

i risultanti scarti rispetto alla DEVIAZIONE STANDARD. La prima normalizzazione

consiste nella trasformazione di ogni valore nel suo scarto dalla media:

Esempio voti:

X = 7

X = 5 X = (7-5)= 2

1 1

X = 6,7 X = (7-6,7)=0,3

2 2

X = 5,3 X = (7-5,3) = 1,7

3 3

La seconda normalizzazione consiste nella divisione di ogni scarto per la deviazione

standard (DEV.ST.), (1,28).

X : S

1 Z = (x – x ) / S

Quindi la formula completa è : 1

Z : punteggio standardizzato

La media è uguale a 0 e la DEV. ST è uguale a 1, la Varianza è uguale a 1.

La standardizzazione è molto utile per il confronto tra dati con distribuzioni empiriche

diverse.

Le variabili cardinali che derivano dalla combinazione di altre variabili sono definite

VARIABILI DERIVATE. Si ricorre ad esse soprattutto quando l’unità di analisi è un

aggregato territoriale e si calcolano anche i rapporti statistici:

• RAPPORTI DI COMPOSIZIONE : mettono in relazione una parte di

fenomeno con il fenomeno stesso nella sua totalità (Es: spesa della famiglia

per l’affitto /spesa totale famiglia);

• RAPPORTI DI COESISTENZA : è rapporto tra due parti di un insieme

(numero maschi, numero femmine);

• RAPPORTI DI DERIVAZIONE : rapporto tra la misura di un fenomeno e

quella di un altro che può essere considerato un presupposto (nati

/popolazione);

• RAPPORTI MEDI : le due grandezze messe in relazione riguardano due

fenomeni diversi (numero abitanti/superficie del territorio).

Analisi Bivariata

Le ipotesi di solito mettono in relazione due o tre variabili, esse possono essere formulate

prima e dopo la raccolta delle informazioni.

L’analisi statistica delle relazioni tra due variabili si basa soprattutto sull’esame delle

distribuzioni di FREQUENZE CONGIUNTE (incrocio di 2 distribuzioni di FREQUENZA

SEMPLICE).

L’Analisi Bivariata affronta le relazioni da 3 punti di vista:

FORMA

• : la forma della relazione consiste nello

stabilire qual è il tipo di associazione tra le modalità delle 2

variabili

FORZA

• : la forza della relazione consiste in un

confronto tra la tabella osservata e la tabella di indipendenza,

quanto più la tabella osservata è diversa da quella di indipendenza, tanto più è forte

il legame;

DIREZIONE

• : si basa sul principio di causa-effetto, evidenzia dunque il

nesso di causalità tra due variabili e quale variabile influenza le altre. Con

l’attribuzione di una DIREZIONE CAUSALE si può assegnare il ruolo di VARIABILE

INDIPENDENTE (X) alla variabile che influenza, e di VARIABILE DIPENDENTE (Y)

all’altra. x y

Termini utili:

COVARIAZIONE: Relazione tra variabili

ASSOCIAZIONE: Relazione tra variabili NOMINALI

COGRADUAZIONE: Relazione tra variabili ORDINALI

CORRELAZIONE: Relazione tra variabili CARDINALI.

Per esaminare le relazioni tra due variabili si usano le tabelle a doppia entrata:

RIGA: variabile X

COLONNA: variabile Y

CELLE: numero di casi corrispondenti alle modalità delle due variabili (FREQ.)

A volte alla fine vengono aggiunti i TOT RIGA e i TOT COLONNE delle FREQ che

chiamiamo FREQ. MARGINALI.

Esempio pratico: TABELLA DI FREQUENZA DOPPIA

TITOLO INTENZIONE UNIVERSITARIA (Y)

MATERNO (X) NO SI NON SO TOT

MEDIA 5 0 5 10

DIPLOMA 0 6 4 10

LAUREA 0 4 1 5

TOT 5 10 10 25

Da questa tabella emerge che l’80% dei ragazzi che hanno la mamma laureata, hanno

intenzione di iscriversi all’università. Ciò significa che al variare del titolo materno (X) varia

anche l’intenzionalità di iscriversi all’università (y), quindi X influisce su Y.

Per analizzare le frequenze bisogna calcolare le percentuali, di cui ne esistono 3 tipi:

Percentuali di riga

- Percentuali di colonna

- Percentuali sul totale generale

-

La percentualizzazione all’interno delle modalità della variabile indipendente (X) è molto

importante. Quando non è possibile individuare con chiarezza una variabile indipendente e

una dipendente, si dovranno calcolare le percentuali, sia per riga sia per colonna.

All’interno della tabella va riportata sotto la percentualizzazione che occorre. E’

indispensabile riportare per ogni colonna la base delle percentuali sulle quali sono state

calcolate (N). In generale è assai imprudente calcolare percentuali su basi inferiori a 50

casi. Le tabelle devono essere sempre intestate (AUTOESPLICATIVE) e devono

contenere tutte le informazioni necessarie per la sua comprensione.

x No Si Non tot

so

Media 50 0 50 100

Diplom 0 60 40 100

a

Laurea 0 80 20 100

tot 20 40 40 100

Distribuzioni di Y condizionate alle modalità di X.

Per calcolare la differenza tra FREQ. ATTESE, sotto l’ipotesi di indipendenza, e

FREQ. OSSERVATE effettivamente nei dati, si utilizza il CHI –

2

X

QUADRATO:

fo = frequenza osservata

fe = frequenza attesa Tot riga moltiplicato per Tot colonna diviso Tot.

Generale 2 2

X = ∑ (fo – fe)

FORMULA : fe

Nel caso limite di indipendenza perfetta dei dati il valore del CHI – QUADRATO assume

valore 0, mentre sarà tanto più elevato, quanto maggiore sarà la distanza tra frequenze

osservate e frequenze attese, ovvero tanto più le frequenze osservate si allontanano

dall’ipotesi di indipendenza.

Questa è una tabella teorica in cui si fa una simulazione di frequenze attese (fe). Essa è

unica, poiché esiste solo questa possibilità di avere indipendenza, ed è simmetrica, perch&eac

Dettagli
Publisher
A.A. 2015-2016
17 pagine
8 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher FUTHURA di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi Roma Tre o del prof Bove Ettore.