Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Il marginale λ: misura di dipendenza asimmetrica, rapporto tipo di malattia e classe sociale
λ malattia | classe sociale = λ c/r (malattia come variabile che viene dopo la classe sociale → trovare le colonne dato le righe). È zero solo nel caso in cui la classe sociale non influenza. Incremento relativo in termini di conoscenza. Minore errore relativo in termini di produzione o guadagno relativo.
Prova a calcolare la λ opposta, ovvero quanto la classe dipende dalla malattia λ = r/c
nevrosi | depressione | disordine | schizofrenia | |
---|---|---|---|---|
A | 45 | 25 | 21 | 18 |
B | 10 | 45 | 24 | 22 |
C | 17 | 21 | 18 | 18 |
Totale | 72 | 91 | 63 | 58 |
La probabilità che il 285° appartenga alla classe A è 109 su 284 quindi 109/284 = 0.38 (38%).
P di errore (non appartenere alla classe A) = 1 - 0.38 = 0.62 (62%).
Questa è la probabilità di sbagliare senza
avere l'informazione della malattia. Inserisco l'info della malattia: separo le 4 malattie e calcolo la probabilità che la malattia condizioni l'appartenenza alla classe sociale.
Se soffre di nevrosi la probabilità più alta è quella della classe A, se è depresso della classe B, se soffre di disordine della classe B, se schizofrenico classe B.
P (A| nevrosi) = 109/45 = 2.4 240%
P di errore (non appartenga ad A) 1- 2.4 = -1.4 -140%
P (B| depressione) = 101/45 = 2.2 220%
P di errore (non appartenga a B) 1- 2.2 = -1.2 -120%
P (B| disordine) = 101/24 = 4.2 420%
P di errore (non appartiene a B) 1- 4.2 = -3.2 -320%
P (B| schizofrenia) = 101/22 = 4.5 450%
P di errore (non appartenere a B) 1-4.5 = -3.5 -350%
SECONDO ME E' GIUSTO COSI'
P (A| nevrosi) = 45/72 = 0.62 62%
P di errore (non appartenga ad A) 1-0.62 = 0.38 38%
P (B| depressione) = 45/91 = 0.49 49%
P di errore (non appartenga a B)
1-0.49 = 0.51 51%→P (B| disordine) = 24/63 = 0.38 38%→P di errore (non appartiene a B) 1-0.38 = 0.62 62%→P (B| schizofrenia) = 22/58 = 0.37 37%→P di errore (non appartenere a B) 1-0.37 = 0.63 63%→Vale la pena tenere conto la malattia delle persone? Bisogna capire quanto è utile avere l'informazione della malattia legata alla classe sociale. Ordine indicativo:- non tengo conto della malattia e mantengo la % di errore al 62%- tengo in considerazione la malattia: calcolo della media dei 4 errori (4 sono le malattie) a seconda della malattia.Calcolo la media ponderata.0.38 x 72 = 27.36 +0.51 x 91 = 46.41 +0.62 x 63 = 39.06 +0.63 x 58 = 36.54 =149.37149.37 / 284 = 0.52 52%→λ= 0.62-0.52 = 0.16 16%→0.62
Lezione3Tavola a doppia entrata: organizzare dati in un set di individui. Distribuzione marginale: modalità con cui è stata implementata l'organizzazione del dato. Distribuzione marginale anche chiamata "non condizionata"
al netto del suo dato, senza altri interventi.
La lamda serve per capire quanto siano applicabili e affidabili gli indicatori che servono a calcolare un dato.
Situazione tipica: cliente buono e cliente cattivo
grande bianco
c N
banner
Lamda R|C
Il risultato dipende dalle colonne
Contro Favore no_data
Si 12 61 78 151 favorevoli
No 17 64 73 154 contrari
29 125 151 305
Guardare la tabella da un punto di vista analitico, il quale è basato su un modello (astrazione che permette di formalizzare un'ipotesi, e fa riferimento ad un sistema di misurazione).
Qual'è il modello che si è dato l'uomo? La mappa geografica. Convenzione (metro) che fa riferimento ad un modello di misurazione.
Esperimento in ambito sociale riguarda gli umani: orientamento politico connesso al piacimento o meno della raccolta differenziata.
Modello analitico: prendere una realtà osservazionale e chiedersi se quella realtà/esperimento è un risultato valido sempre o è
valido solo in quel contesto preciso. Ho bisogno di un modello di riferimento per capire quanto la situazione osservata è diversa dal primo. Si parte da un modello, qualcosa che definisce la perfetta dipendenza (riuscire a prevedere da una condizione l'altra); la soluzione di indipendenza è random, casuale che produce una condizione di massima incertezza, spesso è perché non ci sono abbastanza informazione per prevedere le condizioni a priori. Avere l'informazione non aumenta in termini predittivi la condizione prossima. In questo caso il modello a cui si fa riferimento è il modello di indipendenza: situazione osservata → situazione teorica. Quanto la prima si accosta o discosta dalla seconda. RELAZIONE DI CAUSA-EFFETTO. È pura logica. Quando due cose sono indipendenti? Quando se anche so di una cosa, non è che io possa sapere dell'altra. L'informazione che ho non serve a niente per aumentare la miaconoscenze sull'altra cosa. Evidenza empirica da cui si parte per capire l'osservazione di un dato. Come formalizzare il concetto di indipendenza, concetto molto intuitivo. Se due eventi sono indipendenti, la probabilità che cambia uno non dipende dal cambiamento dell'altro. Secondo chi ha indotto la ricerca, orientamento politico e favorevoli/sfavorevoli per la raccolta differenziata sono dipendenti. Ma bisogna spiegarlo. Se in tutti e 3 le macrocategorie dei cittadini la percentuale è la stessa, significa che lo schieramento politico non dipende dal fatto di essere favorevoli o non favorevoli per la raccolta differenziata. 12 = cittadini di dx e a favore della raccolta differenziata. P (si | dx)= 12/29= 0.416 1 = cittadini di sx e a favore della raccolta differenziata. P (si | sx)= 61/125= 0.49 P (si | no data)= 78/151= 0.51 Se queste tre proporzioni sono identiche significa che siamo in presenta di una perfetta indipendenza. Il modello di assoluta indipendenza ha leProporzioni di diversi dati assolutamente identiche. Allora anche il cittadino medio avrà detto si. P(si) al netto dell'orientamento politico? Nella distribuzione marginale. P(si) = 151/305 = 0.49
Come verificare questa probabilità? Andare sul posto e avere la probabilità marginale, cioè 49%. Non siamo in un caso di perfetta indipendenza, ma dato che le probabilità si avvicinano tutte, significa che esiste una piccola indipendenza. In generale, non esiste una perfetta indipendenza.
La probabilità più "vera" è quella giudicata "a naso", quello più soggettivo, e non validato da un approccio analitico. Si deve andare oltre all'approccio "naif".
L'uomo analitico "quanto il risultato che ho osservato sia effettivamente un risultato forte dopo aver osservato che i miei dati si discostano dai dati attesi, qualora i dati rispondo al modello (di indipendenza), solo per effetto del caso.
oppure no”. I dati che ho in mano li ho osservataìi cosìper effetto del caso oppure no. Dipende da quanto le proporzioni sono tra loro diverse. Se la distanza dal modello di indipendenza è piccola → è soltanto casualmente che ho osservato questa distanza. Se la distanza è grande → è difficile che quella distanza sia stata generata casualmente, ma probabilmente è una distanza che rivela una reale differenza tra quello che ho osservato e il modello preso come riferimento. Osservazione empirica osservata è stata osservata solo per effetto del caso o no. Se il risultato è forte e sistematico, è difficile che sia stato prodotto casualmente.
In questo caso, forse quella distanza è casuale e non sistematica. E ora bisogna calcolare quanto è casuale.
Quanto è casuale che i nostri dati non sono esattamente uguali alla situazione teorica? Come si calcola: si va a costruire una probabilità
alternativa → teorica a quella che ho osservato. Qual è quella che avrei dovuto trovare se fossi stato in una situazione di indipendenza? In teoria il 49% di soggetti. Quindi prendo quelli di dx e calcolo il 49% (marginale) quindi il numero assoluto che avrei dovuto osservare. 0.49 = P (SI) = 151/305
Applico 0.49 (probabilità del Si con valori di distribuzione marginale di colonna) a ciascun valore di distribuzione marginale di riga → 29 destra, 125 sinistra, 151 no_data:
Contro | Favore | no_data | |||
---|---|---|---|---|---|
Si | 12 | 14.21 | 61 | 78 | 151 |
No | 17 | 14.79 | 64 | 73 | 154 |
Destra | 29 | 0.49 x 29 = 14.21 | è la frequenza che io avrei dovuto trovare nella prima cella della tabella 1.1 (12) se ci fosse stata perfetta indipendenza. È una frequenza teorica. Si sarebbero dovute osservare 14.21 (SI) frequenze e non 12. | ||
Sinistra | 125 | 0.49 x 125 = 61.25 | Sembra che il modello di indipendenza sia stato |
I nostri dati non sono aderenti al modello di indipendenza, difficilmente nel mondo sociale si trova aderenza.
N2,3 - N2,3 = 73 - 77.01
Posso calcolare la differenza tra la frequenza osservata e teorica per qualsunque cella.
Ni,j >= < Ni,j
Se la differenza è nulla per qualsiasi i,j, per qualunque i e j deve essere verificato che la differenza sia uguale a zero. Si dice un fenomeno di natura indipendente tra due elementi categoriali (riga e colonna) se questa formula è verificata per qualunque i e j.
∀i(n - ̂ )i , j i , j i , j
Se si volesse calcolare quanto il