vuoi
o PayPal
tutte le volte che vuoi
X
Bass0 0 0 X
2. MASSIMA DISCORDANZA ovvero a modalità alte di X corrispondono modalità basse di Y e a modalita basse di X
corrispondono modalità basse di Y e viceversa X Alto Medio Basso E la diagonale secondaria del rettangolo
Alto 0 0 X
Medio X
0 0
0 0
Bass0 X
Indici di Cogradazione
(Misurano l’avvicinamento/allontanamento da situazioni estreme, sono cosi chiamati gli indici di concordanza per i caratteri quantitativi)
Codevianza (Codev):
E la somma dei prodotti degli scarti di ogni osservazione dalla propria media
E NEGATIVA quando i contributi delle unità statistiche alla DISCORDANZA prevalgono, mentre è POSITIVA se i contributi
dell’unità statistiche alla CONCORDANZA prevalgono
Se Codev > 0 allora vi è CONCORDANZA
Se Codev < 0 allora vi è DISCORDANZA
Se Codev = 0 allora vi è equilibrio perfetto tra le situazioni di concordanza e discordanza delle unità statistiche (quindi non si
può dire nulla sulla concordanza)
Covarianza (σxy):
E la media dei prodotti degli scarti di ogni osservazione della propria media
Il suo segno varia in base a quello della codevianza e segue gli stessi criteri ( se < 0 vi è DISCORDANZA, se > 0 vi è
CONCORDANZA, se = 0 vi è EQUILIBRIO)
La covarianza varia da: -σxσy <= σxy <= σxσy (ovvero varia dal Prodotto negativo degli scarti quadratici medi d X e Y al
prodotto positivo degli scarti quadratici medi di X e Y)
Coefficiente di Correlazione Lineare (rxy):
E un indice Relativo ed è la relativizzazione della covarianza dividendo per il valore massimo che questa può assumere
Il Coefficente di Correlazione lineare varia da: -1 <= r <= 1 (i due valori limiti sono assunti nelle particolari situazioni in cui tutti i
punti, che rappresentano tutte le coppie di osservazione su un diagramma di dispersione, risultano allineati su una retta con
pendenza negativa (r=-1) o positiva (r=1), di conseguenza si avranno valori piu o meno vicini ai due valori limite a seconda
della forza lineare che lega i due caratteri)
Se r=0 non vi è ne concordanza ne discordanza
Se r=-1 vi è MASSIMA DISCORDANZA
Se r=1 vi è MASSIMA CONCORDANZA
Regressione lineare semplice (R^2):
Introduce la direzione della relazione tra i 2 caratteri:
Y è la variabile dipendente (o risposta/Outcome)
X è la variabile indipendente (o covariata/regressione)
X e Y sono rappresentati su un grafico a dispersione:
E la loro relazione non è di tipo deterministico ma contiene
un termine di errore (εu)
Quindi i valori teorici ci Yu sono i valori ipotetici che
starebbero tutti sulla medesima retta:
^
Yu= β0 + β1Xu (non vi è termine di errore così le misurazioni si pongono sulla stessa retta)
1.La retta passa per il punto di coordinate (μx; μy)
2.β0 è il valore di Y previsto dal modello quando X=0
3.β1 indica quanto varia Y (secondo il modello) aumentando X di una unità:
Se β1>0 si ha concordanza e relazione lineare diretta o positiva di Y da X
Se β1<0 si ha discordanza e relazione lineare inversa o negativa di Y da X
Se β1=0 non vi è ne concordanza ne discordanza, e vi è indipendenza lineare da Y da X (la retta è
parallela all’asse delle ascisse X)
Confrontando le varie indipendenze:
Ind. Statistica —> Ind. in media —> Ind. lineare
Ci si interroga sulla Bontà del test eseguito (in quanto non si sa di che entità sia εu):
1. Vi è una parte di Yu spiegata dal modello
2. Vi è una parte di Yu non spiegata dal modello (εu= Yu-Yu(Teorico))
Indice di Determinazione Lineare (R^2)
Misura della Bontà di adattamento della retta ai dati come quota di variabilita di Y spiegata dal modello sul totale
Varia tra 0 e 1:
Se R^2=0 è nulla la devianza di regressione, ovvero il coefficiente angolare della retta è 0 e quindi l’unica retta
possibile è parallela ad X e interseca Y in μy, ovvero il carattere X non ha nessun ruolo nello spiegare il dipendente e
quindi il modello ha un pessimo adattamento ai dati, vi è quindi INDIPENDENZA LINEARE
Se R^2=1 è 0 la devianza residua, ovvero tutti gli errori εu sono nulli, quindi tutti i punti sono allineati sulla retta e vi è
un perfetto adattamento ai dati, sia che la retta abbia pendenza negativa o positiva, quindi vi è la perfetta dipendenza
Lineare
Inferenza Statistica
Il campione rappresenta l’intera popolazione, con l’obiettivo di capire se la statistica campionaria è in buona relazione con le statistiche totali
per essere generalizzate
Vi sono errori non campionari (o sistematici, connessi alla modalità di raccolta di informazioni) e errori campionari (dovuti al meccanismo di
selezione)
Per passare da popolazione a campione vi sono svariati metodi, ma il principale è il CAMPIONAMENTO CASUALE SEMPLICE CON
RIPETIZIONE, in cui ci si chiede quali possano essere i possibili esiti.
La probabilità rende gestibile il campione (probabilità che una singola unità entri a far parte del campione; probabilità di osservare una verità
statistica campionaria, probabilità che un certo campione diventi quello realmente osservato)
Probabilità:
Sempre compresa tra 0 e 1, se p=0 evento Nullo, se p=1 evento Certo (o spazio degli eventi possibili)
Eventi semplici: possibili esiti di un esperimento aleatorio, un’unione di eventi semplici forma un evento complesso
Sono rappresentati con il diagramma di Venn
Lo spazio degli eventi possibili è composto dall’evento A e dallo spazio dell’evento complementare Non A
Eventi Incompatibili o Disgiunti: eventi che non hanno punti in comune
Eventi Compatibili o congiunti o intersezione: eventi che si possono verificare insieme e generano un nuovo evento complesso
Eventi Unione: sia per eventi congiunti che disgiunti, è un insieme costituto da tutti i punti che appartengo ad A e a B o a entrambi.
Gli eventi Complementari sono anche incompatibili (non si toccano e coprono tutto lo spazio degli eventi)
Legge della somma: P(AuB)= P(A)+P(B)-P(AnB) (se A e B sono complementari allora P(AuB)=1, se A e B incompatibili allora P(AuB)=P(A)
+P(B))
Legge del Prodotto: P(AnB)= P(A|B)P(B)=P(B|A)P(A) con P(A|B)= P(AnB)/P(B) e P(B|A)= P(AnB)/P(A)
Eventi Indipendenti: il verificarsi di uno non influenza il verificarsi dell’altro, quindi la probabilità del verificarsi di A è uguale alla probabilità di
verificarsi di A condizionato da B (P(A|B) è così anche per B (P(AnB)/P(B)=P(A)), quindi la condizione di inpendenza è la seguente
P(AnB)=P(A)P(B)
L’indipendenza statistica coincide con gli eventi indipendenti
Con gli eventi indipendenti la legge della somma diviene: P(AuB)= P(B)+P(A)-P(A)P(B)
Due eventi incompatibili sono assolutamente diipendenti, quindi gli eventi indipendenti non sono incompatibili
Distribuzioni di Probabilità:
Tabella che ha righe che sono degli eventi, quindi associa a ciascun evento dello spazio degli eventi (Ω) alla propria probabilità di
accadimento.
Distribuzione campionarie: tabella che associa a ciascuna statistica campionaria osservabile nei possibili campioni estraibili la
corrispondente probabilità di accadimento, da cui si può ricavare la proprietà della statistica campionari rispetto al parametro corrispondente
di popolazione(incognito)
Distribuzione della media campionaria: associa a ciascuna media campionaria osservabile nei possibili campioni la sua probabilità (i
campioni che generano una media che non si discosta troppo dalla media generale hanno una distribuzione di proprietà maggiore)
La media delle medie campionarie è uguale alla media di popolazione
La varianza delle medie campionarie è uguale alla varianza della popolazione divisa per la numerosità campionaria(σ^2μ=σ^2/n) (cresce se
aumenta la varianza della popolazione e diminuisce se aumenta la numerosità campionaria).
Nel caso di n e N molto elevati, l’individuazione della media campionaria avviene nel modo seguente:
(La media campionaria Si distribuisce secondo
la funzione D con media pari alla media di
popolazione e varianza pari alla varianza di
popolazione divisa per la numerosità cam-
-pionaria) NORMALE o GAUSSIANA
La maggior parte dei caratteri si distribuisce secondo una legge di DISTRIBUZIONE detta , la quale ha
caratteristiche standard: Si distribuisce come una normale con media e varianza (o scarto) pari al loro rispettivo valore,
Da cui ricavo una frequenza relativa o distribuzione di probabilità
La curva ha una distribuzione campanulare Simmetrica, e il valore più alto è il calore più alto di probabilità (quindi che si presenterà più volte),
ed il valore più probabile coincide con tutti gli indici di tipicità
Non tocca mai l’asse delle ascisse e la sua area sottostante è pari all’evento certo, perchè identifica la probabilità di tutti gli eventi possibili,
con l’asse di simmetria della curva (μ) divide l’area in due aree pari a 0,5, quindi vi è la stessa probabilità di trovare valori più alti e più bassi
della media: Area[μ-σ; μ+σ]= 68%
Area[μ-2σ; μ+2σ]=95%
Variando la media la curva si sposta sull’asse delle ascisse (Dx se media aumenta, Sx se
media diminuisce)
Aumentando la varianza si alzano le code e si abbassa il punto massimo, diminuendola la
curva tende ad essere più campanulare
La NORMALE STANDARDIZZATA (Z) è una normale con media 0 e varianza 1 —>la probabilità di un singolo punto è sempre 0 (in quanto
l’area è nulla)
Standardizzare è una trasformazione Lineare, che annulla la media della mia variabile e porta la sua varianza uguale a 1
La media campionaria è distribuita secondo una Normale con media pari alla media di popolazione e varianza pari alla varianza di
popolazione/n
Le curve diventanti normali nel caso in cui io abbia tante osservazioni, ovvero n>=30, quindi spesso si eseguono delle osservazioni ampie.
Il ragionamento è estendibile a tutti gli indici della statistica Descrittiva.
Il problema si riscontra con i caratteri di tipo QUALITATIVO:
Si ragione singolarmente su ogni modalità, e la nuova variabile diventa la frequenza di tale modalità, così tratto una variabile
qualitativa in probabilità, con la frequenza relativa che è detta Proporzione di Popolazione (n*/N)
PROPORZIONE CAMPIONARIA
La statistica campionaria corrispondete è la (ovvero numero di unità statistiche nel
campione che presentano la modalità di interesse)
Lo scopo è associare a ciascuna proporzione campionaria la propria probabilit&agra