Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Analisi di Frequenza Monovariata
La distribuzione di una variabile è fondamentale da studiare se si vuole analizzare come essa si distribuisce all'interno di una popolazione. Ad esempio, si può analizzare la distribuzione del colore dei capelli delle persone intervistate. Esistono diverse misure che permettono di valutare la tendenza centrale e la dispersione di una variabile.
La misura di tendenza centrale più comune è la media, che si ottiene dividendo la somma dei valori della variabile per il numero di osservazioni. Per valutare la dispersione di una variabile rispetto al suo valore centrale, si utilizza la deviazione standard. Questa misura indica quanto la variabile si allontana dal punto centrale precedentemente individuato.
Se si vogliono confrontare le variabilità di distribuzioni con medie diverse, conviene utilizzare un indice di variabilità che tenga conto del valore della media. Il coefficiente di variazione è un indice che permette di confrontare la variabilità di distribuzioni con medie diverse.
Il coefficiente di determinazione (R²) e il coefficiente di correlazione (r) sono due misure importanti nella statistica, in particolare quando si tratta di analisi di regressione. Queste misure permettono di valutare la relazione tra due variabili.
spiegazione di entrambi:
-
Coefficiente di correlazione (r):
- Il coefficiente di correlazione, spesso chiamato "r di Pearson", misura la forza e la direzione della relazione lineare tra due variabili.
- Varia da -1 a 1, dove -1 indica una correlazione negativa perfetta, 1 indica una correlazione positiva perfetta e 0 indica nessuna correlazione.
- Il coefficiente di correlazione r può essere utilizzato per valutare la direzione (positiva o negativa) e l'intensità della relazione tra le variabili.
-
Coefficiente di determinazione (R²):
- R² è una misura che indica quanto della variazione nella variabile dipendente (Y) può essere spiegata dalle variabili indipendenti nel modello di regressione.
- R² varia da 0 a 1, dove 0 indica che il modello non spiega affatto la variazione di Y, e 1 indica che il modello spiega tutta la variazione.
- Un R² elevato suggerisce che il modello di regressione è in grado di spiegare una grande
Parte della variabilità nella variabile dipendente. In generale, R² è utilizzato principalmente nella regressione per valutare quanto bene il modello si adatta ai dati, mentre il coefficiente di correlazione r è utilizzato per valutare la relazione tra due variabili, indipendentemente da un modello di regressione.
Relazione spuria: quando si presume che una variabile A stia influenzando una variabile B ma in realtà esiste una terza variabile C che le sta influenzando entrambe. Esempio: vendita dei gelati causa vendita magliette MA in realtà è la temperatura che sta influenzando entrambe queste variabili.
Relazione indiretta: si presume che A stia influenzando B ma in realtà A influenza C e C influenza B. C'è una variabile nel mezzo. Esempio: le donne trovano meno lavoro rispetto agli uomini e quindi uno potrebbe pensare che la variabile A (genere) influenzi la variabile B (trovare lavoro) MA non è proprio così.
Poiché le donne tendono ad iscriversi a facoltà umanistiche che danno meno sbocchi lavorativi e quindi abbiamo questa terza variabile C che si mette in mezzo alla relazione.
Relazione condizionata: causazione multipla. Pensiamo che A influenzi B ma ci troviamo in una situazione in cui ci sono due o più variabili che esercitano più effetti tra di loro.
Domanda Martini
Differenze e somiglianze tra la correlazione di Pearson e la regressione lineare
Correlazione di Pearson:
- È un indice
- È un modello
Regressione lineare:
- È un indice che si può utilizzare per studiare la relazione tra due variabili cardinali
- Si basa soltanto sulla covariazione tra le due variabili e non ci dice nulla sul nesso causale
Quindi per esempio, possiamo calcolare la correlazione tra vendite di gelati e vendite delle t-shirt ma non è detto che ci sia un'effettiva relazione tra le due variabili poiché non c'è un nesso causale.
Una che stainfluenzando direttamente l'altra.
Modelli di regressione:
I li utilizziamo quando vogliamo studiare la relazione diretta che c'è tra due variabili. Nei modelli di regressione diamo già per scontato qual è la variabile indipendente e qual è la variabile dipendente. Escludiamo già a priori la possibilità di relazioni spurie, la possibilità che ci siano variabili intervenenti, ecc.
Per trovare la retta nella regressione lineare si utilizza il metodo dei minimi quadrati. Dati i dati che abbiamo all'inizio (le due file di punti), si crea delle curve a S, compiendo una serie di iterazioni per aggiustare queste stime, finché non ne troviamo una che meglio si adatta ai dati che abbiamo.
Nella regressione logistica, per trovare questa curva a S, si utilizza la stima di massima verosimiglianza. La curva che si adatta meglio alle due file di unità che abbiamo (esattamente come nella regressione lineare, la retta di regressione) crea delle curve a S.
regressione è quella che si adatta meglio allanuvola dei punti). Differenza fra analisi delle componenti principali e analisi fattoriale
LIBRO - delle componenti principali
L'analisi è una trasformazione delle variabili osservate in nuove variabili. Le componenti estratte sono il risultato di una semplice trasformazione delle variabili originarie di cui si limita a ridistribuire la varianza tra le componenti stesse. Scopo: riprodurre perfettamente la varianza. Le componenti sono le dimensioni reali che derivano dalla combinazione delle variabili.
fattoriale
Lo scopo invece dell'analisi è quello di semplificare la matrice di correlazione in modo tale che possa essere spiegata in termini di pochi fattori soggiacenti i dati. I fattori sono quindi ipotetici perché devono essere stimati a partire dalle variabili osservate. In generale le due tecniche hanno un obiettivo comune, quello di sintetizzare le relazioni tra più variabili di tipo cardinale in
Poche dimensioni che aiutino il ricercatore a comprendere meglio il fenomeno oggetto di studio. Sono entrambe tecniche di riduzione dati, il cui risultato rappresenta un condensato delle informazioni iniziali in grado di dar conto della correlazione tra le variabili. Siamo sempre nell'ambito dell'analisi multivariata quindi tante variabili. Quello che cambia rispetto a prima è che non studiamo più relazioni tra variabili perché le variabili sono tutte indipendenti tra di loro. Analisi fattoriale e analisi delle componenti principali sono note come tecniche di riduzione dati che ci servono a ridurre il numero di variabili che stiamo utilizzando in un'analisi.
ANALISI FATTORIALE
Famiglia di tecniche di riduzione dati per variabili quantitative. OBIETTIVO: ridurre il numero delle variabili mantenendo la stessa informazione di prima.
Pag 95 Prospetto con 22 variabili quantitative -> è stato fatto un campione di persone (ad esempio 1000 persone intervistate),
in seguito è stato dato loro un questionario dove vengono presentati tutti questi comportamenti e per ognuno di loro è stato chiesto di dare un punteggio compreso tra 1 e 10 (da mai giustificabile a sempre giustificabile). In questo modo le trasformiamo in variabili quantitative. La matrice dei dati sarà composta da: - 1000 righe (persone intervistate) - 22 colonne nella matrice dei dati Prima di fare una qualsiasi analisi che coinvolga tante variabili quantitative bisogna standardizzare le variabili per renderle ancora più confrontabili. Non è passaggio obbligatorio. Se guardiamo queste variabili ci accorgiamo che alcune potrebbero essere legate tra loro. Ad esempio omosessualità, aborto, divorzio, eutanasia, suicidio, rapporti occasionali con partner e prostituzione. Sono 7 variabili che indicano comportamenti molto diversi tra di loro ma potrebbero essere tutti raggruppati nell'ambito della libertà individuale. Quindi è comese ci fosse una sorta di variabile nascosta/ambito comune che può sintetizzare queste 7 variabili. Queste variabili nascoste vengono chiamate dimensioni latenti. Ad esempio possiamo dire che c'è la dimensione latente della libertà di scelta che da sola si potrebbe riassumere 7 variabili. Il compito dell'analisi fattoriale e delle componenti principali: far emergere le dimensioni latenti, fare in modo che ognuna vada a riassumere un tot di variabili al fine di utilizzare le dimensioni latenti anziché le variabili. A fine capitolo vediamo che avremo 4 dimensioni latenti che riassumono tutte le 22 variabili => riduciamo il numero di colonne della nostra matrice dei dati (da 22 a 4 colonne) quindi riduciamo numero di dati che stiamo utilizzando MA manteniamo più o meno la stessa quantità di informazione. Come funzionano nel dettaglio l'analisi fattoriale e l'analisi delle componenti principali? Dopo aver fatto il nostro campione,La matrice dei dati e la standardizzazione dei dati
STEP 1 —> costruzione della matrice di correlazione (pag. 97)
Caratteristiche:
- È una matrice variabili x variabili, significa che le variabili sono sia nelle righe sia nelle colonne
- Ogni cella forma una diversa coppia di variabili
- Nelle celle è contenuto coefficiente di correlazione tra le due variabili incrociate (=coefficiente che misura la correlazione tra 2 variabili quantitative).
- Le celle lungo la diagonale incrociano le stesse variabili: coefficiente di correlazione =1 perché la correlazione è al 100%. (Vedremo più avanti che la correlazione può essere considerata una misura di similarità cioè che può misurare quanto si assomigliano tra loro due variabili)
- È una matrice triangolare poiché il triangolo sotto la diagonale è speculare al triangolo sopra la diagonale.
Importante conoscere la matrice di correlazione
perché da essa parte il processo di estrazione delle dimensioni latenti. Processo di estrazione delle dimensioni latenti:- Dalla matrice di correlazione il software estrarrà la prima dimensione latente.
- Vengono create altre due matrici:
- La prima è la matrice di correlazione riprodotta (pag.100): ci mostra ciò che la prima dimensione latente si è portata via dalla matrice di correlazione. È una specie di replica della matrice di correlazione senza la varianza che la prima dimensione latente siè portata via.
- La seconda è la matrice dei residui (pag. 101): ci mostra ciò che resta della matrice di correlazione.
- Dalla matrice dei residui andiamo a estrarre la seconda dimensione latente.
- Dopodiché faremo una nuova operazione simile per estrarre le dimensioni latenti successive.