Anteprima
Vedrai una selezione di 10 pagine su 45
Riassunti statistica Pag. 1 Riassunti statistica Pag. 2
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Riassunti statistica Pag. 6
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Riassunti statistica Pag. 11
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Riassunti statistica Pag. 16
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Riassunti statistica Pag. 21
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Riassunti statistica Pag. 26
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Riassunti statistica Pag. 31
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Riassunti statistica Pag. 36
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Riassunti statistica Pag. 41
1 su 45
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

PERCENTUALI DI COLONNA: ORIGINE

SOCIALE

Alta Media Bassa Totale

Conoscenza

inglese 61 = 70% 79 =23% 34 =8% 174 =20%

Alta 18 =21% 189 =54% 55 = 13% 262 =30%

Media 8 = 9% 81 =23% 347 =79% 436 =50%

Bassa 87 =100% 349 =100% 436 =100% 872 =100%

Totale

PERCENTUALI DI RIGA: ORIGINE

SOCIALE

Alta Media Bassa Totale

Conoscenza

inglese 61 = 35% 79 =45% 34 =20% 174 =100%

Alta 18 =7% 189 =72% 55 = 21% 262 =100%

Media 8 = 2% 81 =19% 347 =79% 436 =100%

Bassa 87 =10% 349 =40% 436 =50% 872 =100%

Totale

Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna

ha su quella riga.

Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha su

quella di colonna.

Ovvero, si definisce qual è la variabile indipendente e si percentualizza all’interno delle sue modalità.

PERCENTUALI SU TOTALE: ORIGINE

SOCIALE

Alta Media Bassa Totale

Conoscenza

inglese 61 =7% 79 =9% 34 =4% 174 =20%

Alta 18 =2% 189 =22% 55 = 6% 262 =30%

Media 8 =1% 81 =9% 347 =40% 436 =50%

Bassa 87 =10% 349 =40% 436 =50% 872 =100%

Totale

SLIDES 9

In una variabile statistica doppia si possono avere tre tipi di relazione tra X e Y: INDIPENDENZA,

DIPENDENZA, INTERDIPENDENZA.

Quando la Y non dipende dalla X, essa rimane costante al variare dei valori assunti da X. Nel caso contrario

la Y dipende ed è funzione di X.

Y è indipendente da x e quindi: n /n =n /N

ih oh io

X è indipendente da y e quindi: n / n n /N

ih io= oh

Nelle tabelle a doppia entrata perché ci sia indipendenza si deve verificare:

n / n n /N

ih io= oh

cioè

n n n

ih= io* oh

N

Per tutte le caselle della tabella.

L’INDIPENDENZA è RECIPROCA.

Se tutte le distribuzioni condizionate sono uguali (per riga e per colonna) allora il presentarsi di una

particolare modalità di un fenomeno, non è influenzato dal presentarsi dell’altro.

INDIPENDENZA IN MEDIA:

ᶙ =∑x n

h i ih

n

oh

h=1,2,…t

se ᶙ = ᶙ =… ᶙ

1 2 z

si ha INDIPENDENZA IN MEDIA di X da Y.

X Y TOTALI MEDIE

1 2 3 4

1 1 3 3 1 8 2,5

2 2 2 2 2 8 2,5

3 3 1 1 3 8 2,5

TOTALI 6 6 6 6 24 2,5

Medie Xh 2,33 1,67 1,67 2,33 2,00

Y1= (1*1)+(2*3)+(3*3)+(4*1)/8=2,5

Y2= (1*2)+(2*2)+(3*2)+(4*2)/8=2,5

Y3= (1*3)+(2*1)+(3*1)+(4*3)/8=2,5

X1=(1*1)+(2*2)+(3*3)/6=2,33

X2=(1*3)+(2*2)+(3*1)/6=1,67

X3=(1*3)+(2*2)+(3*1)/6=1,67

X4=(1*1)+(2*2)+(3*3)/6=2,33

MEDIA TOTALE Y= (1*8)+(2*8)+(3*8)/24=2

MEDIA TOTALE X= (1*6)+(2*6)+(3*6)+(4*6)/24=2,5

La dipendenza si ha quando la relazione è unidirezionale e uno dei due caratteri può essere considerato

antecedente e l’altro come conseguente; l’interdipendenza si ha quando i caratteri si influenzano

reciprocamente e non si può stabilire quale sia antecedente e quale conseguente.

Per lo studio della dipendenza utilizziamo la regressione che misura di quanto varia il carattere dipendente

al variare del carattere indipendente.

Lo studio della regressione consiste nella determinazione di una funzione matematica che esprima il

legame tra X ed Y.

La funzione scelta è quasi sempre quella della retta per cui: y= a+bx.

Se calcoliamo i valori di a e b, questa funzione può essere usata per prevedere il valore della variabile

dipendente Y a partire da qualsiasi valore della variabile indipendente X.

La retta rende minima la distanza tra la retta stessa e i punti dello scatter. Lo scatter è l’insieme di N punti,

ciascuno rappresentato dalla coppia di valori Xi e Yi e mette alla luce la relazione y=f(x).

La più adatta è la retta di regressione → y*=a+bx

Se esiste una relazione lineare i punti si distribuiscono vicino ad una retta, se invece non c’è alcuna

relazione i punti sono molto dispersi.

∑(y *-y )²=minimo

i i

∑(a+bx -y )²=minimo

i i

Mediante il metodo dei minimi quadrati, si determinano i due parametri:

b=∑(x -x)(y -y)

i i

∑(x -x)²

i

a=y-bx

a è il valore di y quando x=0 (è il punto in cui la retta di regression attraversa l’asse delle y)

b è il coefficiente angolare che misura l’inclinazione della retta.

IL COEFFICIENTE DI REGRESSIONE:

Nel caso di y dipendente da x, b esprime di quanto varia in media il carattere y al variare di una unità del

carattere x:

b=∑(x -x)(y -y)

i i

∑(x -x)²

i

Varia tra meno infinito e più infinito.

b= è la variazione della y per una variazione unitaria della x;

- se per esempio b valesse 10, al crescere di una unità di x, la y crescerebbe di 10 unità.

Quindi il coefficiente di regressione b indica di quanto varia la y al variare di una unità di x e se y è crescente

o decrescente:

1. b>0 (positivo) y cresce all’aumentare di x

2. b<0 (negativo) y diminuisce all’aumentare di x

3. b=0 (nullo) la retta è orizzontale ed il carattere y è indipendente in media dal carattere x.

b si può anche scrivere come:

b=Codev (X,Y)

Dev (X)

La codevianza è la somma dei prodotti degli scarti di due caratteri ed esprime il tipo di relazione esistente

tra due variabili:

codev(X,Y)=∑(X -x)(y -y)

i i

la devianza è la somma del quadrato degli scarti ed è sempre positive:

∑(X -x)²

Dev(X)= i

∑(y -y) ²

Dev(Y)= i

Ora vediamo come varia il carattere di x al variare del carattere y.

In questo caso l’espressione sarà:

x*=a +b y

1 1

∑(X -x)(y -y) = Codev(X,Y)

b = i i

1 ∑(y -y) ² Dev(Y)

i

b e b divergono (cambiano) solo per il denominatore e poiché questo è sempre positivo il segno di b e b

1 1

dipende solo dal numeratore ed è lo stesso per entrambe. Quindi le rette di regressione sono entrambe

crescenti o decrescenti.

Esercizio:

Donne 1 2 3 4 5 6 7 8 9 10 11

X 36 38 42 47 49 55 56 60 63 68 72

Età

Y 118 115 140 128 145 150 147 155 149 152 160

Pressione

sanguigna

Determina la retta di regressione di y in funzione di x.

∑(X -x)(y -y)

= i i

Formula= ∑(X -x)²

i

X Y X -x y -y (X -x)² (X -x)(y -y)

i i i i i

età Pressione

sanguigna

36 118 36-53,27= - 118-141,73= (-17,27)²= (-17,27)( -23,73)

17,27 -23,73 298,25 = 409,82

38 115 38-53,27= - 115-141,73= (-15,27)²= (-15,27)(-26,73)

15,27 -26,73 233,17 =408,17

42 140 42-53,27= - 140-141,73= (-11,27)²= (-11,27)(-1,73)

11,27 -1,73 127,01 =19,50

47 128 47-53,27= - 128-141,73= (-6,27)²= (-6,27)(-13,73)

6,27 -13,73 39,31 =86,08

49 145 49-53,27= - 145-141,73= (-4,27)²= (-4,27)(3,27)

4,27 3,27 18,23 =-13,96

55 150 55-53,27= 1,73 150-141,73= (1,73)²= (1,73)(8,27)

8,27 2,99 =14,30

56 147 56-53,27= 2,73 147-141,73= (2,73)²= (2,73)(5,27)

5,27 7,45 =14,39

60 155 60-53,27= 6,73 155-141,73= (6,73)²= (6,73)(13,27)

13,27 45,29 =89,30

63 149 63-53,27= 9,73 149-141,73= (9,73)²= (9,73)(7,27)

7,27 94,67 =70,73

68 152 68-53,27= 152-141,73= (14,73)²= (14,73)(10,27)

14,73 10,27 216,97 =151,28

72 160 72-53,27= 160-141,73= (18,73)²= (18,73)(18,27)

18,73 18,27 350,81 =342,20

Media =53,27 Media =141,73 0 0 ∑= 1434,15 ∑1591,81

Retta di regressione: y*=a+bx→ a=Ym-b*Xm; b= (X -x)(y -y)

i i

∑(X -x)²

i

Y*= 82,6+1,11x

La varianza di regressione consente di studiare la dispersione dei valori osservati intorno alla retta di

regressione.

Una dispersione elevata dei punti intorno alla retta comporta una limitata rappresentatività del fenomeno

mediante la retta di regressione. (previsioni non attendibili).

Una dispersione bassa= buona rappresentatività del fenomeno mediante la retta di regressione.

Per misurare la bontà di adattamento della retta di regressione, la devianza può essere scomposta in una

parte che il modello di regressione riesce a spiegare e in una parte che invece il modello non riesce a

cogliere, cioè la devianza dei residui di regressione (devianza dell’errore).

Indicando con y*=a+bx il valore della retta di regressione avremo:

∑(Yi-Ym)

Dev(X) DEVIANZA TOTALE ²

∑(Yi*-Ym)

Dev (R) DEVIANZA DI REGRESSIONE ²

∑(Yi-Yi*)

Dev (E) DEVIANZA DELL’ERRORE O RESIDUA ²

Dev(Y)=Dev (R)+Dev(E)

Rapportando la devianza di regressione Dev(R) alla devianza totale Dev(Y) individueremo quanta parte della

devianza totale è determinata o spiegata dalla retta di regressione.

Tale rapporto viene definito come INDICE DI DETERMINAZIONE

R²= Dev(R) =1- Dev(E)

Dev(Y) Dev(Y)

Questo indice di determinazione misura quanta parte della devianza totale di Y il modello di regressione

riesce a spiegare: 0≤R²≤1

Se R vale 0 significa che la devianza di regressione è nulla; la devianza dei residui coincide con la devianza

2

di y: NESSUN ADATTAMENTO.

Se R vale 1 significa che la devianza dei residui è 0. La devianza spiegata dal modello di regressione

2

coincide con la devianza di Y. Tutti i punti giacciono sulla retta: ADATTAMENTO PERFETTO.

Con l’INTERDIPENDENZA è difficile stabilire qual è il carattere antecedente e quale quello conseguente.

Le due variabili X e Y sono dipendenti una dall’altra.

Si caratterizza per due aspetti:

1. Concordanza= nel caso di concordanza a scarti positivi di X corrisponderanno scarti positivi di Y e a

scarti negativi di X corrispondono scarti negativi di Y, quindi prodotti positivi.

2. Discordanza= la situazione è contraria.

Coefficiente di correlazione lineare:

r= ∑(Xi-Xm)(Yi-Ym) = Codev(X,Y)

√∑(Xi-Xm)²*∑(Yi-Ym)² √Dev(X)*Dev(Y)

Il coefficient di correlazione lineare varia in questo modo:

r= +1 massima concordanza; correlazione positiva perfetta (tutti i punti si trovano su una retta)

r tra 0 e 1 correlazione positiva imperfetta

r= 0 non c’è alcuna associazione di tipo lineare tra le due variabili

r tra o e -1 correlazione negativa imperfetta

r= -1 massima discordanza, correlazione negativa perfetta (tutti i punti si trovano su una retta).

Il coefficiente di correlazione è anche la media geometrica dei coefficienti angolari di regressione:

r=√b*b .

1

La cograduazione serve per calcolare la correlazione tra caratteri ordinati secondo una scala a ranghi.

Nel caso di caratteri che non si possono quantificare (intelligenza, profitto scolastico) i valori delle singole

modalità vengono sostituite da una graduatoria.

Si sostituiscono ai valori x e y i numeri r e s che sono i posti o i ranghi occupati nelle graduatorie ordinate

i

Dettagli
Publisher
A.A. 2014-2015
45 pagine
SSD Scienze economiche e statistiche SECS-S/05 Statistica sociale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher berta12 di informazioni apprese con la frequenza delle lezioni di Elementi di statistica sociale e demografia e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bari o del prof Carella Maria.