Appunti e materiale Data Analysis

Revisionato il 31/05/2026

di sapedi

Publisher

Vota

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di Data Analysis laboratory basati su appunti personali del publisher presi alle lezioni del prof. Ferrante, dell’università degli Studi di Palermo - Unipa, della …

Esame Data Analysis laboratory

Facoltà Lettere e filosofia

Dal corso del Prof. Ferrante Mauro

Università Università degli Studi di Palermo

A.A. 2020-2021

32 pagine

Appunto

Scarica

Estratto del documento

Data analysis

Statistica

Statistica è la scienza che studia fenomeni collettivi utilizzando metodi matematici. Perché usiamo la statistica e non il senso comune? Quando valutiamo la logicità di un'argomentazione, tendiamo a essere influenzati dalla credibilità delle conclusioni.

Paradosso di Simpson

Il paradosso di Simpson identifica la situazione nella quale i dati in nostro possesso invertono o modificano la relazione tra due variabili a causa dell’effetto di altri fattori non presi in considerazione (variabili nascoste). Un esempio è il tasso di accettazione all’università tra maschi e femmine: le femmine avevano una percentuale di ammissione minore non per questioni legate all’intelligenza, ma perché sceglievano corsi con tassi di ammissione più bassi.

Perché è utile imparare la statistica?

Le indagini statistiche hanno un costo elevato.
La statistica ci aiuta a comprendere meglio la letteratura scientifica.
Le indagini statistiche andrebbero fatte prima di effettuare la ricerca. Se i dati vengono raccolti in maniera inadeguata, le analisi statistiche ne risentono (Garbage in Garbage out, G.I.G.O.).

Misurazione e operazionalizzazione

Misurazione è la procedura di assegnazione di etichette numeriche alle nostre osservazioni. Operazionalizzazione è il processo di specificazione su come i concetti vengono definiti e misurati:

Specifica cosa stiamo cercando di misurare.
Specifica il metodo usato per la misurazione.
Definisce il range di valori ammissibile che la misurazione può assumere.

Livelli di misurazione delle variabili

Scala nominale: variabili qualitative (genere, categorie varie). L’unico indice di tendenza centrale è la moda e le possibili rappresentazioni grafiche sono il diagramma a settori circolari (a torta), diagrammi a barre verticali e orizzontali.

Scala ordinale: variabili qualitative che possono essere ordinate secondo un criterio (livello d’istruzione). Gli indici di tendenza centrale sono moda e mediana e vengono rappresentate graficamente dal diagramma a barre.

Scale a intervalli e rapporti: variabili quantitative in cui le categorie sono numeriche. Presentano un punto zero arbitrario (intervalli) che non indica l’assenza della caratteristica indagata, o assoluto (rapporti) che indica assenza di quella caratteristica. La scala a rapporti è l’unica che permette di stimare le differenze. Gli indici di tendenza centrale sono moda, mediana e media. Le possibili rappresentazioni grafiche includono istogramma e diagramma a linee.

Tipi di variabili

Variabili discrete: variabili quantitative che possono assumere un numero definito di valori.
Variabili continue: variabili quantitative che possono assumere un numero infinito di valori.
Serie temporali: variabili costituite da una serie di osservazioni relative allo stesso fenomeno, raccolte a intervalli di tempo differenti.
Serie spaziali: variabili relative a specifiche unità in relazione spaziale tra loro (valore del PIL nei diversi stati UE).
Dati circolari: i dati sono rappresentati da direzioni in uno spazio bidimensionale (direzione del vento).

Disegni di ricerca

Disegni sperimentali: disegni di ricerca nei quali si applica un certo tipo di trattamento alla variabile indipendente per valutarne l’effetto sulla variabile dipendente. In questi disegni il ricercatore ha un maggior controllo sulle condizioni nelle quali si svolge l’esperimento. Può selezionare il campione e randomizzare le unità da inserire nelle condizioni sperimentali.

Disegni quasi sperimentali: disegni di ricerca che si differenziano da quelli sperimentali per l’incapacità di randomizzare i gruppi delle varie condizioni, in quanto fanno riferimento a gruppi naturali preesistenti.

Minacce alla validità

Variabili confondenti e artefatti: variabili non identificate che potrebbero essere in relazione sia con la variabile X che con la variabile Y.
Repeated effect testing: ripetendo un test più volte sugli stessi soggetti, è possibile verificare un aumento casuale delle prestazioni non dovuto all’effetto del trattamento.
Osservazioni estreme: osservazioni estreme (alte o basse) possono comparire in maniera randomica. Effettuando una seconda misurazione, questi punteggi tendono a regredire verso il valore medio (effetto di regressione verso la media).

Ricerca osservazionale

Ricerca osservazionale: disegni di ricerca in cui lo sperimentatore si limita a osservare e misurare specifiche caratteristiche senza intervenire direttamente. Esistono diversi tipi di ricerca osservazionale:

Studi trasversali: i dati vengono osservati, misurati e raccolti in un dato momento. Solitamente servono per comparare un certo fenomeno (gruppi).
Studi retrospettivi: analizzano un fenomeno attuale facendo riferimento a dati raccolti nel passato (come le persone erano prima di un determinato evento).
Studi prospettivi (longitudinali): analizzano un campione di dati, seguendone l’andamento nel tempo.

Step della ricerca osservazionale

Definire l’obiettivo della ricerca.
Operazionalizzare il fenomeno in variabili misurabili e selezionare la popolazione di riferimento.
Definire il tipo di ricerca (campionaria vs censimento).
Se si decide per un’indagine campionaria, bisogna decidere la tecnica di campionamento (probabilistico vs non probabilistico), tenendo conto del fatto che solo un campionamento di tipo probabilistico (deve essere nota e non nulla la probabilità che ogni unità ha di entrare a far parte del campione e il meccanismo di selezione delle unità deve essere casuale) permette di trarre inferenze logicamente corrette.
Scegliere la tecnica di indagine da utilizzare. Le principali sono:
- Intervista personale/telefonica: tecnica che presuppone un intervistatore che raccolga direttamente le informazioni necessarie.
- Diario: strumento utile per ottenere informazioni importanti circa eventi passati. Presentano il limite dovuto al fatto che le informazioni sono state raccolte da persone diverse dallo sperimentatore, e spesso per fini non scientifici.
- Questionari self-report: questionari che il soggetto può compilare in totale autonomia.
- Approcci misti.
Definizione del questionario. È un passo importante in quanto un questionario non adeguatamente strutturato potrebbe inficiare i dati raccolti. Le caratteristiche che un buon questionario deve possedere sono: chiarezza, semplicità e dimensioni contenute. La sua struttura dipende dal fenomeno sotto esame, dalla tecnica utilizzata per condurre lo studio e dal tipo di domande che contiene. Le domande possono essere divise in risposte aperte vs risposte chiuse e risposte singole vs risposte multiple. Le persone poco esperte preferiscono l’utilizzo di risposte aperte. Questo tipo di risposte sono difficilmente codificabili e pertanto andrebbero usate solo quando non conosciamo molto il fenomeno in esame, e preferire le risposte chiuse in tutti gli altri casi. L’utilizzo di risposte multiple può essere problematico. Se si permette al soggetto di selezionare più di una risposta, otterremo un numero di risposte diverso dal numero dei rispondenti. Spesso vengono utilizzate delle domande filtro, ovvero domande che hanno lo scopo di saltare alcune domande non rilevanti per il soggetto che risponde. Se per esempio il soggetto risponde di avere meno di 18 anni (domanda filtro: hai più di 18 anni?), posso saltare le domande relative alle sue abilità di guida o alle sue preferenze di voto.
Condurre uno studio pilota e testare il questionario.
Raccogliere i dati.
Immagazzinare i dati raccolti e condurre dei controlli di qualità per identificare l’eventuale presenza di errori non campionari (errori che non dipendono da una procedura errata di campionamento, ma da una sbagliata operazionalizzazione dei concetti, unità mancanti, risposte non date, domande non opportunamente formulate, errori nell’immagazzinamento dei dati ecc.).
Analisi dei dati e stesura del report finale.

Statistiche descrittive e distribuzioni di frequenze

La statistica descrittiva include gli strumenti per descrivere i dati raccolti e ci permette di ottenere informazioni circa il tipo di variabili e le unità statistiche che compongono i nostri dati. La distribuzione di frequenza è una tabella con le varie categorie di dati, ognuna associata alla sua frequenza assoluta (ni) intesa come il numero di volte che quella categoria si presenta all’interno dei dati. La somma delle frequenze assolute ci restituisce l’ampiezza campionaria (n). La frequenza relativa (fi) si ottiene dividendo la frequenza assoluta per l’ampiezza campionaria. La somma delle frequenze relative è pari a 1. La frequenza percentuale (pi) si ottiene moltiplicando la frequenza relativa per 100. La somma delle frequenze percentuali è 100. La frequenza cumulata assoluta e relativa consiste nella somma di ogni frequenza assoluta di una categoria con la frequenza assoluta della categoria successiva. Può essere usata nelle variabili ordinali dopo averle messe in ordine secondo il criterio, e ci dice quante unità presentano una categoria uguale o superiore alla categoria in oggetto.

Livello	Frequenze assolute	Frequenze relative	Frequenze percentuali	Frequenze cumulate assolute	Frequenze cumulate relative	Frequenze cumulate percentuali
Elementare	36	0.144	14.4	36	0.144	14.4
Media	90	0.360	36	126	0.504	50.4
Superiore	63	0.252	25.2	189	0.756	75.6
Laurea	51	0.204	20.4	240	0.960	96
Dottorato	10	0.040	4	250	1.000	100
Totale	250	1	100

Statistica inferenziale

La statistica inferenziale è l’insieme di metodi, ipotesi e tecniche che permettono di estendere i risultati ottenuti dai campioni, alla popolazione dalla quale gli stessi sono stati estratti. I parametri (θ) esprimono caratteristiche di sintesi della popolazione come media(μ), deviazione standard (σ), frequenza relativa (p) e dimensione (N). I stimatori (t) sono funzioni che esprimono la relazione tra campione e popolazione (t:f(x1,x2…xn) attribuendo un valore θ variabile (in base alle caratteristiche del campione estratto) ad un parametro ignoto come media campionaria (&xmacr;), deviazione standard corretta (s), frequenza relativa (fi) e dimensione campionaria (n).

Esempi

Media popolazione:

\[\mu = \frac{\sum x_i}{N}\]

Media campionaria:

\[\bar{x} = \frac{\sum x_i}{n}\]

Sigma popolazione:

\[\sigma = \sqrt{\frac{\sum (x_i - \mu)^2}{N}}\]

Deviazione standard:

\[s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}\]

Anteprima

Vedrai una selezione di 8 pagine su 32