Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Esempio: titolo di studio, fruizione cinema e genere.
Analisi Bivariata - Relazioni Tra Variabili Cardinali
Correlazione di Pearson "r"
Utilizzata per studiare la relazione tra due variabili cardinali.
Il coefficiente "r" varia tra -1 e +1 e indica:
Nessuna relazione (r=0).
1. Relazione lineare positiva (r>0).
2. Relazione lineare negativa (r<0).
3. Relazione curvilinea.
4.
Matrice di Correlazione
Strumento per comprendere l'intensità della relazione tra variabili.
Presenta una diagonale di 1 ed è simmetrica.
Retta di Regressione
Rappresenta graficamente la relazione tra variabili.
L'equazione è Y=a+bX+e, dove:
"a" è l'intercetta.
"b" è l'inclinazione.
"e" è l'errore.
La retta viene calcolata tramite il metodo dei minimi quadrati.
Limiti del Coefficiente di Correlazione
Risente dei valori estremi.
Non è efficace se non c'è una relazione lineare.
Fare Ricerca - Statistica Report su Cittadini e ICT
Rilevazione e Obiettivi
L'Istat fornisce statistiche per valutare l'attuazione degli obiettivi nell'economia
della conoscenza.
I dati sono disponibili nel datawarehouse dell'Istat e di Eurostat.
Modulo di Rilevazione
L'indagine annuale raccoglie dati sull'accessibilità alle ICT da parte di famiglie e
individui.
La popolazione di interesse include famiglie residenti in Italia.
Strategie e Strumenti di Rilevazione
Fino al 2016, si utilizzava la tecnica PAPI (Paper and Pencil Interview).
Dal 2017, si è adottata una tecnica mista sequenziale (Cawi/PAPI).
Risultati della Rilevazione
La situazione generale di accesso a Internet non è migliorata significativamente.
Circa il 75% delle famiglie ha una connessione a banda larga, con differenze
regionali.
Il titolo di studio è un fattore discriminante nell'accesso a Internet.
Utilizzo di Internet
Circa il 68% della popolazione di 6 anni e più ha utilizzato Internet recentemente.
L'uso dello smartphone per accedere a Internet è in crescita, ma ci sono
differenze significative tra fasce di età e titolo di studio.
Strumenti Necessari Per Ottenere Risultati Ottimali
Comunanza e Autovalori
Comunalità: Indica la proporzione di varianza spiegata da ciascuna variabile
iniziale. Non è un valore fisso e può cambiare in base al numero di componenti
estratte. Se le variabili hanno una buona comunalità, la soluzione è considerata
valida. In caso contrario, si possono adottare diverse strategie:
Mantenere la soluzione, consapevoli della perdita di informazioni.
Eliminare completamente la variabile.
Ripetere l'analisi con un numero maggiore di componenti principali.
Autovalori: Rappresentano l'associazione delle variabili nella matrice e la loro
somma corrisponde all'intera variabilità. Gli autovalori aiutano a determinare se è
possibile estrarre tanti fattori quanti sono le variabili di base, con la maggior parte
della varianza concentrata nelle prime componenti. L'analisi degli autovalori può
seguire diversi criteri:
Decremento iniziale della curva degli autovalori: si considerano i punti prima
che la curva scenda, selezionando componenti principali (CP) con autovalore
> 1.
Percentuale di varianza totale riprodotta: la somma deve raggiungere almeno
il 70% della varianza totale.
Valutazione del costo (interpretativo) rispetto al beneficio (informativo).
Rotazione Degli Assi
L'interpretazione dell'Analisi delle Componenti Principali (ACP) è cruciale e si basa sui
pesi componenziali, che mostrano il contributo di ciascuna variabile sulla componente
estratta. La rotazione degli assi è una tecnica usata per facilitare questa
interpretazione, consentendo di riorganizzare le dimensioni mantenendo la varianza
spiegata.
Obiettivo della Rotazione: Trovare un nuovo sistema di assi in cui ogni variabile si
avvicini il più possibile all'estremità di un solo asse, migliorando la distribuzione
della varianza riprodotta.
Metodi di Rotazione
Ortogonali: Mantengono l'indipendenza tra i fattori.
Varimax: Aumenta le saturazioni elevate e riduce quelle basse, producendo
fattori spiegati da poche variabili.
Quartimax: Concentra più varianza possibile su un solo fattore, utile per
estrarre un singolo fattore.
Equamax: Combina le azioni di Varimax e Quartimax.
Obliqui: Consentono ai fattori di essere correlati.
Oblim diretto: Semplifica la matrice di saturazioni, avvicinando le saturazioni a
0 tranne in un fattore.
Promax: Utilizza un parametro K per la rotazione.
La scelta del metodo di rotazione non è fissa e deve essere valutata in base ai risultati
ottenuti.
Denominazione Delle Componenti Principali
La fase di denominazione delle nuove variabili è fondamentale e richiede una
comprensione approfondita del fenomeno analizzato. Si cerca di identificare il tratto
comune tra le variabili, basandosi sul grado di saturazione, per restituire
semanticamente la complessità delle informazioni iniziali.
Processo di Attribuzione: Si passa dai pesi componenziali ai coefficienti
componenziali. Il peso rappresenta l'associazione lorda, mentre il coefficiente
rappresenta l'associazione netta. Questo è fatto tramite regressione multipla, dove
la componente principale è la variabile dipendente.
Interpretazione Dei Risultati
Le dimensioni ottenute dall'ACP possono essere utilizzate in analisi successive.
Analisi Efficiente: Le nuove variabili possono essere analizzate in associazione
con altre variabili già presenti, utilizzando metodi come ANOVA o correlazione
bivariata.
Presentazione Grafica: I risultati possono essere visualizzati proiettando ciascuna
unità statistica sugli assi fattoriali.
Calcolo di Indici Sintetici: Possono essere utilizzati come variabili indipendenti in
modelli di regressione o cluster analysis.
Riepilogo ACP
L'analisi in componenti principali (ACP) sintetizza un ampio numero di variabili in
un numero ridotto di variabili latenti.
Si applica a variabili cardinali che devono avere un grado di correlazione
adeguato.
Gli output statistici devono essere letti simultaneamente per una corretta
interpretazione.
L'ACP permette di disporre di variabili sintetiche per confronti nel tempo e nello
spazio.
Analisi Delle Corrispondenze Multiple (ACM)
L'ACM ha come obiettivo la sintesi delle variabili categoriali. Le fasi principali sono:
Scelta delle Variabili: Si selezionano variabili categoriali e ordinate, identificando
1. variabili attive e supplementari.
Scelta dei Fattori: La matrice casi per variabili viene divisa in matrici disgiuntive
2. complete e modalità per modalità (matrice di Burt).
Salvataggio e Utilizzo: Le variabili di sintesi possono essere utilizzate per
3. analizzare associazioni, presentare risultati e calcolare indici sintetici.
Analisi Dei Gruppi (Cluster Analysis)
La Cluster Analysis si basa sulla matrice "casi per variabili" e mira a creare gruppi con
eterogeneità minima all'interno e massima tra i gruppi.
Scelte Per La Costruzione Dei Cluster
Variabili Discriminatorie: Si prediligono variabili cardinali per definire la distanza
tra i casi.
Metrica Per Le Distanze/Similarità: La matrice per le distanze confronta i casi e
determina la loro distanza relativa.
Tecniche Di Clustering
Le tecniche di clustering possono essere gerarchiche o non-gerarchiche, con
l'obiettivo di sintetizzare le informazioni disponibili.
Tecniche Gerarchiche:
Aggregative: Partono da n elementi separati e si uniscono in un unico cluster
finale.
Scissorie: Partono da un unico gruppo e si scindono in sottogruppi.
Le tecniche gerarchiche producono partizioni rappresentate graficamente in un
dendrogramma, utile per visualizzare le fusioni tra i casi e i gruppi.
Analisi Dei Gruppi
Tecniche Gerarchiche e Non Gerarchiche
Tecniche Gerarchiche:
Utilizzano una matrice di distanza/similarità per aggregare i casi in gruppi.
La gerarchia è rappresentata da un dendrogramma, dove ogni suddivisione
ha un valore numerico che indica il livello di aggregazione (distanza).
Maggiore è l'indice, maggiore è l'eterogeneità dei gruppi fusi.
Tecniche Non Gerarchiche:
Adatte per lavorare con grandi matrici di dati e consentono gruppi dinamici.
Il numero finale di gruppi è deciso a priori dal ricercatore.
Tre criteri principali:
K Medie: Aggrega i casi al centro più vicino in modo iterativo, utilizzando
1. la media delle variabili.
Nubi Dinamiche: Utilizza una nuvola di punti come seme per individuare
2. nuovi nuclei e partizioni.
Ottimizzazione: Crea partizioni massimizzando l'omogeneità interna dei
3. gruppi.
Pro e Contro delle Tecniche
Tecniche Vantaggi Svantaggi
Visione completa, non richiedono
Gerarchiche Gruppi statici
scelta a priori del numero di gruppi
Non Minori limiti computazionali, adatte a Gruppi dinamici, numero di
Gerarchiche grandi matrici gruppi deciso a priori
Regressione Multipla Lineare
Definizione: Metodo statistico per studiare le relazioni tra più variabili indipendenti
e una variabile dipendente.
Obiettivo: Modellare come le variabili indipendenti influenzano la variabile
dipendente attraverso una relazione lineare.
Esempio Pratico
Immagina di voler studiare i fattori che influenzano il voto finale degli studenti. Potresti
analizzare variabili come:
Ore di studio settimanali
Partecipazione alle lezioni
Reddito familiare
Background educativo dei genitori
La regressione multipla ti permette di valutare l'importanza di ciascuna variabile nel
determinare il voto finale, tenendo conto delle altre.
Criteri di Inclusione delle Variabili
Forward: Inserisce prima la variabile con la correlazione più alta.
1. Backward: Inizia con tutte le variabili e le elimina se non soddisfano i criteri.
2. Stepwise: Combinazione di forward e backward.
3. Enter: Tutte le variabili sono inserite in un'unica soluzione.
4. Remove: Variabili specificate a priori per l'eliminazione.
5. Test: Confronto di modelli alternativi.
6.
Regressione Logistica
Obiettivo: Stabilire una relazione di probabilità tra variabili, utilizzata per variabili
dipendenti binarie.
Analisi delle Distribuzioni: Si analizzano i rapporti tra parziale/totale e
parziale/parziale.
Odds Ratio
Definizione: Rapporto di associazione tra due variabili categoriali.
Valori > 1 indicano associazione positiva, valori < 1 indicano associazione
negativa.
Esempio Pratico
Immagina di voler studiare la probabilità che un candidato ottenga un'offerta di lavoro.
Le variabili potrebbero essere:
Punteg