Anteprima
Vedrai una selezione di 4 pagine su 14
Analisi dei dati Pag. 1 Analisi dei dati Pag. 2
Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 6
Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 11
1 su 14
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

REGRESSIONE

Si usa quando abbiamo due variabili cardinali per studiarne la relazione.

Le variabili continue sono le variabili cardinali, quelle categoriali sono quelle ordinali e nominali.

Obiettivo → stabilire quanto la variabile indipendente influisce su quella dipendente: es. Il voto di laurea influisce sul reddito: uso la regressione per capire quanto forse è l'effetto del voto di laurea sul reddito (mi aspetto che ci sia una relazione positiva).

Diagramma di dispersione → tecnica utilizzata

Genera una nuvola di punti che ci da indicazioni su:

  • covariazione → 2 variabili variano assieme, associazione tra queste due variabili: all'aumentare della variabile indipendente (voto di laurea) aumenta la variabile dipendente (reddito) dal momento che i punti vanno da in basso a sinistra a in alto a destra.
  • direzione →
  • linearità → Diagramma di dispersione

asse orizzontale (ascisse)→ voto di laurea da 66 a 110 – variabile indipendente

verticale (ordinate) → reddito (in lire) – variabile dipendente

Ci permette di capire il tipo di relazione, ma non ci dice nulla di preciso sull’intensità dellarelazione.

Per farlo bisogna usare una equazione lineare che lega le due variabili e dai valori che assumono eche vengono chiamati parametri.

Equazione lineare: y (dipendente) = alfa (intercetta) + beta (gradiente/coefficiente angolare) X (indipendente)

distanza → intercetta o costante

inclinazione → gradiente → intensità dell’effetto (effetto della variabile indipendente su quelladipendente)

effetto costante*quando la variabile indipendente è 0 si sostituisce alla x

y= 3+ 4x → y= 3 + (4x0) → y=3x=0y=3

si posizionano questi valori sul diagramma di dispersione

variabile indipendente (x) ha valore 1:

y=3 + (4x1) → y=3 +4x=1y=7

alfa → misura di costanza → ci dice quanto la retta è alta o bassa (altezza sul piano delle ascisse).

Questo calcolo parte del

Presupposto che x è 0 → dice il valore di y quando x è uguale a 0.

Regressione lineare semplice → rappresentazione efficace della relazione tra gli oggetti. Cerchiamo l'equazione lineare che riesce a sintetizzare al meglio la nuvola di punti.

Valori predetti → sulla base del mio modello posso aspettarmi dei valori, la predizione è la retta su cui sto lavorando. Y = alfa + beta X.

Può accadere che noi osserviamo un valore differente rispetto a quello che ipotizzavamo → la differenza tra valore osservato e valore predetto è l'epsilon ovvero l'errore di predizione/residuo. Epsilon = y(osservata) - y(predetta) = y(osservata) - alfa - beta X.

Gli errori di predizione corrispondono a quella parte del valore di y che non può essere spiegata dall'effetto di X (indipendente).

  1. Obiettivo → stima dell'effetto della variabile indipendente su quella dipendente.
  2. Guardare i dati con il diagramma di dispersione.

Sintetizzare questo attraverso l'equazione lineare → diventa una regressione lineare (linea retta)

Il modello che abbiamo scelto – ovvero che il reddito dipende dal voto di laurea – non ci permette di spiegare tutto perché la nuvola di punti non cade tutta sulla linea retta e quindi ci sono altri elementi che determinano questa nuova che vanno oltre all'effetto che sto guardando. Queste altre cose che dobbiamo considerare si distinguono in 3 categorie:

  1. Relazione che non è perfettamente lineare → equazione che descrive un cambiamento costante, ma nella realtà può non essere così.
  2. Ci sono altre variabili non incluse nel modello → il reddito dipende dal voto, ma anche da altre cose ad es. Il genere.
  3. Comportamento umano → comprende una dose di causalità.

Stime dei minimi quadrati: la retta migliore è quella che riduce al minimo le differenze tra i valori osservati di y e quelli predetti dal modello.

→ minimizza gli errori di predizione, questa minimizzazione deve essere fatta al quadrato (si fa la differenza, la si eleva al quadrato e si sommano tutte). Si scelgono poi quelle minori.

Figura 6.3 All’aumentare di un punto nel voto di laurea il voto aumenta di 34 → questo numero el’intensità dell’effetto

Es. individui che hanno preso come voto di laurea 100 → secondo il modello della regressione lineare hanno un reddito di 2900, ma alcuni hanno valori più bassi e altri hanno valori più alti: come si interpreta? Con il concetto di media → media per ogni voto di laurea (fig. 6.5).

valori predetti → possono essere interpretati come stime dei valori medi di y

valori assunti → ci dice quanto varia y al variare di x IN SINTESI

  1. obiettivo → stimare l’effetto del voto di laurea sul reddito
  2. guardate i dati sul diagramma di dispersione che ci da una prima indicazione della forma e direzione della relazione tra variabilità.

Usare l'equazione lineare per sintetizzare tutti questi elementi → modello di regressione lineare

Si sceglie come retta quella proveniente dalla stima dei minimi quadrati

Ottengo la retta che ha una discrepanza rispetto ai valori predetti che dipende da diversi fattori

Se ci sono valori che non corrispondono alla previsione si fa ricorso alla media

Stime dei valori di alfa e beta:

Alfa → cons. (costante) → valore che assume y (dipendente) quando x (indipendente) è 0

Beta → indipendente → effetto della variabile indipendente (quanto aumenta la dipendente all'aumentare dell'indipendente)

2 ipotesi:

Ipotesi nulla → beta=0 → relazione che non esiste → rifiutata

Ipotesi alternativa → beta diverso da 0 → ha un valore

R-SQUARED → misura la strettezza della relazione → quanto il modello spiega la relazione

Media → freq → somma dei singoli valori e poi si divide per il numero di casi (rientra anche

Il singolo caso:

mediana → cum → valore che divide a metà il campione (50% più basso e 50% più alto)

la media influenza il campione, la mediana no perché è meno sensibile ai valori estremi

non ha senso commentare un grafico quando c’è un solo valore molto alto perché non c’è varianza

di opinione (eterogeneità) → item non discriminante

Strettezza della relazione e potere predittivo

strettezza → misura in cui la retta di regressione avvicina la covariazione tra variabile dipendente e indipendente. Questa approssimazione è maggiore quanto minore è la somma degli errori di predizione al quadrato. Equivale a stabilire con quale precisione la conoscenza della variabile indipendente ci permette di capire la variabile dipendente.

Voglio sapere quanto è stretta la relazione tra la retta di regressione (modello) e la nuvola di punti (valori osservati). è maggiore quanto minore è

La differenza tra i valori di y predetti e quelli effettivi (quando la somma degli errori è minore) più i punti sono vicini alla retta più la relazione è stretta, più sono lontani più la retta è lasca. Questo equivale a calcolare il potere predittivo della retta di regressione: relazione meno stretta = potere predittivo minore.

DATI ERRATI E MANCANTI

  1. Controlli di plausibilità
  2. Controlli di congruenza (verificare la congruenza tra 2 variabili o casi)
    • Non plausibile
    • Non risponde
    • Non sa
    • Non applicabile

R2 → coefficiente di determinazione → quanto la conoscenza del valore x contribuisce a diminuire gli errori di predizione. Aumento del potere predittivo = aumento della strettezza della relazione. Assume valori compresi tra 0 e 1 → 0 significa nessuna predizione → il valore aumenta all'aumentare della varianza.

Beta → intensità dell'effetto.

R2 → quanto la retta approssima la nuvola di punti.

Variabile quasi

cardinale → è una variabile ordinale che in certe condizioni vengono trattate come cardinali (quando c'è una unità di misura cardinale)

QUANDO LA VARIABILE INDIPENDENTE E' CATEGORIALE E QUELLA DIPENDENTE E' CARDINALE si usa → confronto tra medie - regressione

Regressione: se si utilizzasse il diagramma di dispersione invece che la nuvola di punti si otterrebbero due colonne di punti.

Si usa allora il BOXPLOT → utilizzato sia per restituire il centro di una rappresentazione (media/mediana) sia la sua variazione.

Fig. 6.11 la scatola centrale è tagliata da una riga che è la media o mediana (misura di tendenza centrale). Il lato superiore e inferiore della scatola viene disegnato sulla base dei quartili (valori che distinguono la distribuzione in 4 parti: 1) primo 25% 2) primo 50% 3) 75 % 4) valore massimo). I "baffi" (linee) vengono disegnati sulla base del valore minimo e del massimo

VARIABILI DUMMY O REGRESSORI

INDICATORI

Si crea una serie di variabili per ogni categoria che possono assumere solo 2 valori:

  • 1 → presenza di una caratteristica
  • 0 → assenza della caratteristica

Es. variabile indipendente categoriale → genere

Dalla variabile indipendente si generano 2 sotto variabili:

  • maschi
  • femmine

Scopo → stimare l’effetto del genere sul reddito

Le variabili ottenute non sono indipendenti, ma dipendono l’una dall’altra: se Antonio ha 1 su XM ha anche 0 su XF di conseguenza. → ci danno le stesse informazioni

Non vanno inserite entrambe nel modello → quella che rimane fuori è la categoria di riferimento in base alla quale i beta indicano l’effetto. Es. differenza di reddito a seconda della categoria (privato, autonomi, pubblico)

3 Dummy:

  • XPRIVATO
  • XPUBBLICO
  • XAUTONOMO

Questo strumento serve per stabilire i valori medi delle varie categorie.

LA MISURAZIONE: TIPOLOGIE E INDICI

2 modi di sintetizzare le variabili:

  • indici
  • tipologie

Dipende dalle operazioni

che utilizziamo per sintetizzare queste variabili:
  1. INDICI → operazioni algebriche (in particolare l'addizione)
    • es. calcolare l'andamento degli studenti universitari: una delle variabili è la vicinanza all'università, che si traduce in 5 categorie:
      • amici
      • frequenza
      • biblioteche
      • ricevimenti
    • occorre sintetizzare queste informazioni: addizione- libri
    • Ci possono essere delle differenze tra questionario e orientamento che devono essere verificate:
      • Es. colloquio privato
      • QUESTIONARIO
        • SI 0
        • SI 1
        • NO 1
        • NO 0
      • ORIENTAMENTO
        • SI 0
        • SI 1
        • NO 1
        • NO 0
  2. TIPOLOGIE → operazioni logiche (se... allora...)
    • Bisogna mettere insieme tutte le possibilità e poi assegnargli un tipo → nuova variabile suddiv
Dettagli
Publisher
A.A. 2020-2021
14 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher carolaam di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano o del prof Biolcati Rinaldi Ferruccio.