Anteprima
Vedrai una selezione di 13 pagine su 59
Appunti dettagliati di Statistica Pag. 1 Appunti dettagliati di Statistica Pag. 2
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 6
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 11
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 16
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 21
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 26
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 31
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 36
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 41
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 46
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 51
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Appunti dettagliati di Statistica Pag. 56
1 su 59
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Si osservi che

 nessun effetto del veleno: devono essere vere sia H ’ che H ”’.

0 0

 nessun effetto degli antidoti: devono essere vere sia H0” che H0”’.

 nessuna interazione veleno antidoto: deve essere vera H”’.

Conclusioni. La sopravvivenza delle cavie dipende sia dai veleno che dall’antidoto somministrato. Non

esiste però interazione: gli antidoti hanno (sembrano avere) lo stesso effetto qualsiasi sia il veleno

somministrato. In termini di pericolosità, i veleni possono essere ordinati come

1 < 2 < 3.

In termini di efficacia, gli antidoti sembrerebbero essere ordinati nella seguente maniera

1 < 3 < 4 < 2

2

Alcuni esempi su correlazione, regressione lineare e logistica

Misure di correlazione .

Mortalità per melanoma e altre variabili. In uno studio è stata rilevata la mortalità per melanoma dal

1950-1959 nella popolazione dei maschi di razza bianca per i 49 stati del blocco continentale USA (sono

esclusi Alaska e Hawaii mentre è incluso Washington DC). Nel seguito per “mortalità” intendiamo il numero

7

di morti per 10 abitanti.

Per ogni stato sono poi state rilevate alcune altre variabili. Ad esempio la latitudine e la longitudine del

centro dello stato, la presenza di coste su uno dei due oceani, ecc. Lo scopo dello studio è capire se queste

variabili influenzano la mortalità.

Nel grafico con la latitudine c’è una relazione tra x e y. Nel grafico con la longitudine non sembra esserci

una chiara relazione.

3+

Fe e assorbanza di uno spettrofotometro. Piccolo esperimento di

3+

calibrazione: vogliamo capire come stimare Fe dall’assorbanza. Schema

con cui sono stati ottenuti i dati:

3+

1. quantità differenti di Fe sono diluite in acqua;

2. viene aggiunto ammoniaca e acido salicilsolfonico in quantità

prefissate;

3. l’assorbimento della soluzione viene misurato a 420nm.

Questioni. Come possiamo “misurare/sintetizzare” la relazione tra due variabili?

Una buona misura dovrebbe raccontarci sia la forza che la direzione della relazione esistente

E ci interessa anche sapere valutarne la significatività? Ad esempio, quel “pelo” di relazione negativa che, a

fatica, si intravede tra mortalità e longitudine è reale? O potrebbe essere dovuta semplicemente al caso?

Coefficiente di correlazione (lineare). Abbiamo n osservazioni a cui corrispondono x misurazioni per x e y

n n

misurazioni per y. Definizione:

1 − ̅ − ̅

= ∑( )( )

−1

=1

̅ ̅

Dove e sono le medie campionarie delle x e delle y.

e sono gli scarti quadratici campionari (le radici quadrate delle varianze) delle x e delle y.

⁄ ⁄

( − ̅ ) ( − ̅)

In altre parole le x e le y vengono “standardizzate”. e hanno media 0 e varianza 1.

r è semplicemente la “media” del prodotto delle x standardizzate per le y standardizzate.

Interpretazione base. Il segno di r indica la direzione della eventuale relazione esistente tra le due variabili:

 ⇒

se r è negativo x cresce y decresce (tendenzialmente)

 ⇒

se r è positivo x cresce y cresce (tendelzialmente)

Il valore assoluto di r misura la forza della eventuale relazione. Per valutare la “dimensione” di r si tenga

conto che è possibile dimostrare che ≤ ≤

-1 r 1 Correlazione negativa; relazione

Fortissima relazione positiva piuttosto forte.

Poca correlazione negativa. È significativa?

r e una stima! Utilizza solo le informazioni del campione disponibile per stimare l’ignoto coefficiente di

correlazione tra le due variabili (=quello che potremmo calcolare con infiniti dati). Sono però disponibili test

e intervalli di confidenza.

r non “funziona” se la relazione non e monotona. Può esistere una chiara relazione tra le due variabili ma r

è incapace di “catturarla” perché non è monotona (ha invece un andamento curva).

Salmoni adulti e salmoni giovani – non tutte le relazioni sono lineari.

C’è una qualche forma di feedback: i giovani sono

più degli adulti quando gli adulti sono pochi; meno

quando sono tanti.

Modello di Beverton-Holt. ( )

+

0 1

= +

+

1

Dove:

G/A: salmoni giovani/adulti

, : parametri ignoti

0 1

: termine d’errore

Può essere scritto in svariati altri modi.

La fertilità è costante (tanti salmoni adulti, tante uova fecondate e viceversa). Esiste competizione per le

risorse durante lo ‘sviluppo”: ⟹ ⟹

(uovo fecondato) (avanotto) (giovane salmone)

Se ci sono molte uova fecondate la percentuale che diventa “giovane salmone” è più piccola.

La curva mostra i valori previsti dal modello

r = 0.95

Int.Conf = [0.91, 0.98]

-15

p < 10

Nel caso dei salmoni “giovani” ed “adulti” r ci

racconta dell’esistenza di una relazione positiva (e

anche forte).

|r| e più piccolo di 1 se la relazione e perfetta, monotona ma non-lineare.

r è sensibile alla presenza di valori anomali. Mortalità

per melanoma e latitudine aggiungendo uno stato

sull’equatore! (r = -0,02).

Relazione tra variabili e causalità .

Correlazione e causalità. Se r e significativamente differente da zero abbiamo dimostrato che esiste una

relazione di causa ed effetto tra le due variabili? Assolutamente si, però dobbiamo anche credere che i

bambini siano portati dalle cicogne!

Il coefficiente di correlazione tra X = (cicogne che hanno nidificato a Berlino o nei suoi dintorni) e Y =

(“bimbi per donna fertile” a Berlino) vale 0,95 quando calcolato sui dati degli ultimi 25 anni. ciò può anche

essere dovuto al fatto che le cicogne nidificano sui camini accesi, e sono accesi dove c’è un neonato.

Relazioni di causa ed effetto e “associazione” tra le variabili. Arrivare a concludere che una variabile varia

al variare di un’altra, ovvero che esiste una qualche forma di associazione, non vuole automaticamente dire

che una variabile causa le variazioni dell’altra. il problema è generale; non dipende dal tipo di variabili

(numeriche in questo caso) o dagli strumenti (in questo caso r) che stiamo usando. Per rimarcare questo

punto seguirà un esempio che non riguarda il coefficiente di correlazione e/o la relazione tra variabili

numeriche.

Ammissione a Berkeley.

Il sesso del candidato è “associato” con la probabilità di essere ammesso. Abbiamo dimostrato che esiste

una relazione di causa ed effetto? ovvero, che le donne sono discriminate durante il processo di

ammissione?

Nell’unico dipartimento (A) in cui la differenza è significativa è a favore delle donne! Per gli altri

dipartimenti le differenze nella proporzione di ammessi sono piccole e non significative; però le donne

presentano poche domande dove è relativamente facile essere ammessi e molte altrove!

Modello di regressione lineare e metodo dei minimi quadrati .

Obbiettivo: spiegare le variazioni della variabile risposta Y

utilizzando le k variabili esplicative X , …,X .

1 k

= + +. . . + +

0 1 1

 

, ..., sono parametri ignoti (i coefficienti di regressione)

0 k

che raccontano come varia la “Y” al variare delle “X”.

è una componente di errore, non osservata, che esprime la

parte di Y che non è spiegabile utilizzando le “X”. Possiamo

assumere abbia media nulla.

È probabilmente il modello statistico più usato. Relazioni lineari (nell’intervallo di interesse) si incontrano

con una certa frequenza (es. spettrofotometro). È più flessibile di quanto può sembrare ad una prima

occhiata

 Variabili non numeriche possono essere incluse trasformandole in variabili indicatrici (a volta

chiamate dummy (ad esempio “bagnato dall’oceano per il melanoma”).

 Relazioni non lineari possono e sono modellate (a volte) trasformando le variabili (es. salmoni adulti

e giovani).

3+

Fe e assorbanza di uno spettrofotometro. I dati indicano

chiaramente una relazione lineare del tipo

3+

= + +

0 1

dove:

 3+

A e FE indicano le due variabili osservate (assorbanza e

“ferro”);

 

 e dei parametri ignoti da stimare

0 1

 è una componente d’errore (piccola in questo caso)

  ̂ ̂

Calcolare delle stime di e (diciamo e ) è interessante, tra le altre cose, perché poi possiamo usare

0 1

0 1 ̂

0

̂

3+

= ̂

1

3+

Per stimare il FE dell’assorbanza dello spettrofotometro.

Mortalità, latitudine ed essere bagnati dall’oceano. Modelli di regressione con più di una variabile

esplicativa sono utili. I punti rossi indicano gli stati che “toccano” l’oceano, quelli

blu gli altri.

Un possibile modello è

= + ∙ + ∙ +

0 1 2

dove:

M: mortalità;

L: latitudine;

O: variabile che vale 0 (zero) se lo stato non si affaccia

sull’oceano, 1 viceversa se si affaccia.

  

, e sono parametri, coefficienti ignoti.

0 1 1

è una componente d’errore; esprime quella parte della

mortalità che non può essere spiegata dalle due variabili L e O.

Il modello può anche essere scritto come

∝ + ∙ + se lo stato non si affaccia

2

= { ∝ + ∙ + se lo stato si affaccia

2

    

dove: = e = +

NO 0 SI 0 1 La retta rossa descrive gli stati che “toccano” l’oceano, quella

blu gli altri.

Salmoni adulti e salmoni giovani - ovvero non tutte le relazioni sono lineari. il modello di Beverton-Holt. La

fertilità è costante (tanti salmoni adulti, tante uova fecondate e viceversa). Esiste competizione per le

risorse durante lo ‘sviluppo”: ⟹ ⟹

(uovo fertilizzato) (avanotto) (giovane salmone)

Se ci sono molte uova fecondate la percentuale che diventa “giovane salmone” è più piccola.

   

Modello (A/G: adulti/giovani, , , sono parametri). Numero di uova: x A. proporzione di uova che

1 2 3 1

diventa “salmone giovane”:

2

1 + (numero di u

Dettagli
Publisher
A.A. 2021-2022
59 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher podavini di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Padova o del prof Masarotto Guido.