Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
SCUOLA/ESITO P B
L 4/6=0.667 2/6=0.333 1
T 10/15=0.667 5/15=0.333 1
C 6/9=0.667 3/9=0.333 1
In questo caso invece come possiamo vedere osservando le frequenze relative, le due variabili sono
indipendenti.
Analisi di dati quantitativi bivariati: è necessario che x e y siano entrambi dati quantitativi. A questo punto
posso vedere che relazione corre tra le due variabili analizzate.
Il grafico di dispersione è lo strumento grafico più appropriato per indagare in via preliminare la relazione
tra le due variabili, il loro andamento congiunto
In un grafico di dispersione i dati, che sono coppie di numeri reali (x , y ), sono rappresentati come punti
i i
nello spazio cartesiano.
Esempio di grafico di dispersione In questo caso al crescere di X, mediamente cresce anche Y,
sembra quindi esserci una relazione lineare tra X e Y del tipo
Y=a+bX, con a e b opportune costanti.
Tra due variabili può anche intercorrere una relazione non
lineare o non intercorrere alcuna relazione.
L’eventuale dipendenza tra due variabili è esprimibile attraverso un modello, cioè formula matematica o
funzione del tipo Y=f(x), tra cui la funzione lineare Y=f(X)=a+bX è la più semplice e facile da interpretare.
La covarianza è indicatore sintetico dell’attitudine di due fenomeni a essere suscettibili di variazioni in
:
̅ ̅
concomitanza. Dati i valori medi e essa si calcola come
1 1
∑( ) ( ∑(
= − ̅ − ̅) = − ̅ ̅)
=1 =1 ̅
La covarianza a seconda che le variazioni tra e siano positive o
negative, assumono i seguenti segni. ( )
>̅ − ̅
Per esempio se abbiamo un >̅ e allora sia che
( − ̅) saranno entrambe positive, la covarianza assumerà quindi
valore positivo.
SCUOLA/ESITO P B
L 21.1% 22.2%
T 52.6% 33.3% Quando si studia quale funzione leghi tra loro due variabili
quantitative si parla variabile indipendente o esplicativa, la quale è
C 26.3% 44.4% 10
rappresentata sull’asse delle ascisse e variabile dipendente o risposta, rappresentata sull’asse delle
ordinate. (Per esempio x=reddito e y=consumo).
Il coefficiente di correlazione lineare misura la forza e il segno della relazione lineare esistente tra due
variabili quantitative.
E’ definito come il rapporto tra media del prodotto degli scarti incrociati (covarianza) e prodotto degli scarti
quadratici medi (non corretti).
=
Il coefficiente di correlazione lineare di Pearson è calcolato come:
In maniera più estesa si calcola come:
xy x y / n
r
2 2
2 2
x x / n y y / n
Esso può assumere valori tra -1 e +1, dove -1 indica perfetta relazione lineare negativa, +1 perfetta
relazione lineare positiva e 0 indica che non esiste alcuna relazione lineare.
Se la relazione è pressocché lineare (cioè r è vicino a +1 o -1) possiamo trovare l’equazione della retta che
meglio si adatta ai dati; lo strumento per trovarla è il metodo dei minimi quadrati.
L’equazione generale della retta nel piano:
̂ = +
Dove a rappresenta l’intercetta sull’asse delle y e b è
il coefficiente angolare o pendenza della retta.
Y-cappello è il valore predetto di y per un
determinato valore di x.
Il metodo dei minimi quadrati permette di trovare
l’equazione della retta che minimizza la somma dei
quadrati degli scarti tra i punti osservati e la retta.
̂ = ̂ −
La distanza tra del valore previsto del valore reale osservato è chiamato scarto o errore
2
∑ (
̂ − )
questo metodo mira quindi a minimizzare identificando in questo modo la pendenza
=1
(b) e il punto di intersezione con l’asse y (a).
=1
∑ ( − ̅ )( − ̅)
= =1 2
∑ ( − ̅ )
̅ ̅
= − (̅ ; ̅)
La retta dei minimi quadrati passa sempre per il punto di coordinate ovvero il baricentro dei dati.
∑ ∑
̂
=
E’ tale che cioè la somma dei valori osservati è uguale alla somma dei valori stimati
=1 =1
Ovvero la somma dei residui/ scarti è uguale a zero.
L’interpolazione si usa per predire i valori di Y servendosi dei valori di X che si trovano all’interno
dell’intervallo dei dati. I risultati di questa procedura risultano soddisfacenti quando la retta ben si adatta ai
dati.
L’estrapolazione si usa per predire i valori di Y attraverso i valori di X che si trovano al di fuori dell’intervallo
dei dati. Procedura pericolosa perché non si conoscono le relazioni esistenti al di fuori dell’intervallo.
11
PROBABILITA – CAP.6
La probabilità è la misura di quanto è verosimile che si verifichi un evento.
Un esperimento è qualsiasi azione che ha come risultato un insieme di dati registrabili. Di un esperimento
casuale è possibile solo elencare a priori l’insieme dei possibili esiti, l’insieme di essi è detto spazio
campionario e si indica con la lettera S. Lo spazio campionario può essere finito se è composto da un
numero finito di esiti o infinito con un numero di possibili esiti infinito.
(Es. Lancio del dado S={1,2,3,4,5,6} Lancio della moneta S={T,C} )
Un evento casuale è qualsiasi sottoinsieme dello spazio campionario S. (Es. Se lancio un dado, l’evento A
‘esce un numero pari’ è un evento casuale che si può scrivere come A={2,4,6} S (incluso in S))
Un complemento detto anche evento complementare di un evento A è l’insieme di tutti gli esiti dello
spazio campionario S che non appartengono ad A e si denota con A’ o Ā, che si può leggere ‘non A’. Esso è
(̅) = 1 − ()
calcolato come:
L’evento unione A o B (A B) indica che o A o B o entrambi possono verificarsi. Contiene tutti gli esiti
elementari di S che appartengono ad A o a B o ad entrambi.
L’evento intersezione A e B (A B) indica che sia A sia B si verificano. Contiene tutti gli esiti elementari di S
che appartengono sia ad A che a B.
Due eventi A e B sono detti mutuamente esclusivi o incompatibili se non hanno casi in comune, cioè
AB=Ø (Es. lancio di un dado. A={Esce un punteggio pari}={2, 4, 6} e B={Esce il punteggio 3}. A e B sono
incompatibili).
La probabilità di un evento casuale A, P(A), è una misura di quanto sia verosimile che accada l’evento A,
cioè è un numero associato ad A che ne quantifica a priori la possibilità di realizzazione.
Nel caso i cui ogni esito elementare dello spazio campionario ha la stessa probabilità di verificarsi, allora
() =
definiamo la probabilità di A secondo la definizione classica è:
Utilizzando la definizione classica di probabilità, questa deve soddisfare degli assiomi, condizioni previste
0 < () < 1
dalla definizione assiomica, in particolare: la probabilità è sempre compresa tra 0 e 1,
() = 1 () = 0
significa che A si presenta sicuramente rappresenta un evento quasi certo, se A non
può verificarsi è un evento quasi impossibile.
Per calcolare la probabilità totale che si verifichino due eventi: se eventi sono mutuamente esclusivi o
P(A B) = P(A)+P(B)
incompatibili si utilizza la regola della somma semplice ; altrimenti la regola
P(A B) = P(A) + P(B) - P(A B)
generale della somma .
La probabilità condizionata è la probabilità che si verifichi A dato che si è verificato B, si calcola come:
(∩)
(|) = () ≠ 0.
se
()
Due eventi A e B sono indipendenti se la probabilità che un evento si verifichi non è modificata dal
verificarsi dell’altro evento o altrimenti se la probabilità della loro intersezione è uguale al prodotto delle
(|) = () ( ∩ ) = () ∙ ()
loro probabilità. o 12
PROBABILITA – CAP.7
Una variabile casuale X è una variabile quantitativa i cui valori sono determinati dai risultati di un
esperimento casuale, le variabili casuali possono essere discrete o continue.
Una variabile casuale è detta discreta se assume un numero finito o al più numerabile di valori. (Es. Lancio
moneta può assumere solo i valori ‘testa’ o ‘croce’.
Una variabile casuale è detta continua se può assumere tutti i valori appartenenti ad un intervallo reale.
L’insieme di tutti i possibili valori che X può assumere è detto supporto.
La distribuzione di probabilità p(x) detta anche funzione di probabilità di una variabile casuale X è la
funzione che associa ad ogni possibile valore di X la probabilità che X assuma tale valore:
∑
() = ( = ) 0 < () < 1 () = 1
; ;
(Es. doppio lancio di una moneta S={TT,TC,CT,CC}, dove la variabile causale X={‘numero di teste’} allora i
possibili valori che può assumere sono x={0,1,2} quindi p(0)=1/4, p(1)=2/4=1/2, p(2)=1/4)
Il valore atteso di una variabile causale discreta X con funzione di probabilità p(x) è definito come:
() = ∑ ∙ () 2
∑[
() = − ()] ∙ ()
La varianza di una variabile causale è definito come:
Esiste quindi una analogia tra il valore atteso di una variabile causale e la media aritmetica di una variabile
statistica; esiste anche una analogia tra la varianza di una variabile causale e la varianza statistica.
Si parla di variabile causale di Bernoulli quando consideriamo un esperimento che può portare a due soli
esiti: A (successo) e A’ (insuccesso), con probabilità rispettivamente p e 1-p
La variabile casuale discreta X che associa all’evento A il numero 1 e all’evento A’ il numero 0 è una
variabile causale di Bernoulli di parametro 0<p<1. ( = 0) = 1 − ( = 1) =
La sua distribuzione/funzione di probabilità è quindi: ;
Nel caso i