Anteprima
Vedrai una selezione di 19 pagine su 89
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 1 Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 2
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 6
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 11
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 16
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 21
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 26
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 31
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 36
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 41
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 46
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 51
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 56
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 61
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 66
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 71
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 76
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 81
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Laboratorio Informatico per le Decisioni Aziendali, Data mining, primo parziale Pag. 86
1 su 89
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Analisi dei dati sul consumo di gelato

AZ BA BB BC BD BQ BR BS=BR18*BB33/BA3331 cons income temp temp(-1) 25 income 0,225894 =BR19*BC33/BA3332 media 0,358517 84,82759 49,37931 48,34483 26 temp 1,348859 =BR20*BD33/BA3333 sqm 0,065599 6,119888 16,3505 15,89247 27 temp(-1) -0,57073

Vediamo che la temperatura è la variabile che presenta l'effetto massimo sul consumo di gelato.

Ricostruiamo ora le due rappresentazioni grafiche che ci avevano portato ad effettuare tutte queste modifiche alla specificità iniziale del modello.

Per fare questo riportiamo i valori previsti e il valore dei residui (analisi dati)

Nel primo grafico vogliamo rappresentare il tempo e i consumi osservati e previsti quindi selezioniamo le celle con time, cons e previsto con Y; per il secondo grafico a dispersione vogliamo il tempo e i residui quindi selezioniamo le variabili time e residui.

0,55 0,10,080,5 0,060,45 0,040,4 0,020,35 00,3 0 10 20 30-0,020,25 -0,040,2 0 10 20 30 -0,06

Nel primo grafico abbiamo il blu il consumo effettivo

e il rosso il consumo previsto, osserviamo che rispetto la rappresentazione grafica fatta inizialmente, non è più spiccato l'andamento anomalo della variabile residuo, non ci sono sottovalutazioni e sopravvalutazioni evidenti. Il secondo grafico ci mostra che i residui, più o meno, hanno un andamento casuale. Ricordiamo che in questo modello, non essendoci l'intercetta, si considera il modello definito sulle variabili: File: Error_Collinearityanalisi – collin Una delle assunzioni del modello, affinché possiamo arrivare alla stima dei minimi quadrati, è che la matrice dei regressori deve avere pieno rango di colonna. Proviamo ora a vedere cosa succede con riferimento a questi regressori x e y. Se guardiamo le colonne x e y possiamo vedere che sussiste una relazione lineare esatta in quanto y è il doppio di x, come possiamo identificare relazioni di questo tipo? In qualunque analisi che andremo ad effettuare d'ora in poi, dovremo farprecede la stima del modello con l'analisi della matrice di correlazione tra le variabili. Criterio per la quale c'è un alto livello di correlazione: - per un numero limitato di osservazioni (circa 20/30) - per un elevato numero di osservazioni Dati -> Analisi dati -> correlazione -> l'intervallo di input è dato dall'insieme di tutte le nostre variabili oggetto del modello di regressione; i dati sono raggruppati per colonne; ci sono le etichette nella prima riga e selezioniamo la cella in cui vogliamo la matrice di correlazione -> ok
Y X1 X2 X3
Y 1 0.282016 0.282016 0.719267
X1 0.282016 1 0.001038 0.001038
X2 0.282016 0.001038 1 0.001038
X3 0.719267 0.001038 0.001038 1
Per prima cosa dobbiamo prendere in considerazione la parte gialla della matrice ossia la matrice di correlazione che riporta in ogni sua cella la correlazione tra la variabile indicata sulla riga e la variabile indicata sulla colonna. Ciò che stona è la presenza dell'1 rosso che indica una correlazione lineare perfetta tra le variabili.

Variabili e . Come si opera in una situazione di questo tipo? Occorre eliminare delle due variabili, altrimenti la matrice di correlazione non ha più pieno rango e non possiamo procedere alla stima. Come facciamo a scegliere la variabile che possiamo eliminare? Bisogna vedere la parte verde della matrice dove figurano le correlazioni tra la variabile risposta e le variabili esplicative: notiamo che in perfetta collinearità, il legame che c'è tra Y e e tra Y e è identico risulta indifferente interpretare la Y come funzione di e oppure di e . In presenza di perfetta collinearità eliminiamo una variabile a nostra scelta. Eliminiamo e andiamo a stimare il modello:

Dati → Analisi dati → regressione → varie selezioni → ok

Errore Valore di Inferiore Superiore Inferiore Superiore

Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%

Intercetta 0,929511 1,542712 17,27762 0,08929 -33,908 36,99346 -33,908 36,993464,785968

2,080226 2,300696 0,029363 0,517697 9,054238 0,517697 9,0542389,491725 1,613966 5,880996 2,9E-06 6,180141 12,80331 6,180141 12,80331

Dati → Analisi dati → regressione → passa per l’origine → ok

Errore Valore di Inferiore Superiore Inferiore Superiore

Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%

Intercetta 0 #N/D #N/D #N/D #N/D #N/D #N/D #N/D

4,939434 1,150905 4,291784 0,000191 2,581913 7,296956 2,581913 7,296956

9,562949 1,377988 6,939793 1,52E-07 6,740269 12,38563 6,740269 12,38563

Siamo arrivati a questa specificità del modello che possiamo considerare come modello finale: 49

File: Error_Collinearityanalisi – collin2Ora vediamo un secondo esempio di multicollinearità.

Proviamo ora a vedere cosa succede con riferimento a questi regressori , e : se guardiamo le colonne e possiamo vedere è proporzionale a a meno di una componente casuale per cui la è quasi collineare con .

Costruiamo la matrice di correlazione

tra le variabili.Dati → Analisi dati → correlazione → ok Y X1 X2 X3Y 1X1 0,282016 1X2 0,290046 0,997866 1X3 0,719267 0,001038 0,004287 1Per prima cosa dobbiamo prendere in considerazione la parte gialla della matrice ossia la matrice di correlazione che riporta in ogni sua cella la correlazione tra la variabile indicata sulla riga e la variabile indicata sulla colonna. Ciò che stona è la presenza del valore 0,997866 in quanto è quasi 1 ed darebbe problemi dal punto di vista inferenziale.Come facciamo a scegliere la variabile che possiamo eliminare? Bisogna vedere la parte verde della matrice dove figurano le correlazioni tra la variabile risposta e le variabili esplicative: notiamo che in questo caso la variabile ha una maggiore correlazione con Y rispetto alla variabile .In presenza di multicollinearità teniamo nel modello la variabile che ha una maggiore correlazione con la variabile di risposta Y. Eliminiamo e andiamo a stimare il

modello:Dati → Analisi dati → regressione → varie selezioni → ok

Errore Valore di Inferiore Superiore Inferiore Superiore

Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%

Intercetta 0,969889-0,67651 17,75691 -0,0381 -37,1107 35,75766 -37,1107 35,75766

4,944403 2,097967 2,356759 0,025944 0,639731 9,249076 0,639731 9,249076

9,47934 1,607494 5,896968 2,78E-06 6,181035 12,77765 6,181035 12,77765

Dati → Analisi dati → regressione → passa per l’origine → ok

Errore Valore di Inferiore Superiore Inferiore Superiore

Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%

Intercetta 0 #N/D #N/D #N/D #N/D #N/D #N/D #N/D

4,877436 1,124716 4,336593 0,000169 2,573559 7,181312 2,573559 7,181312

9,450176 1,388098 6,808005 2,14E-07 6,606787 12,29357 6,606787 12,29357

Siamo arrivati a questa specificità del modello che possiamo considerare come modello finale: 50

VARIABILI INDICATRICI (DUMMY)

File: indicatrici generico –

variamo la variabile esplicativa genere in una variabile indicatrice. Per fare ciò, assegniamo il valore 1 alle femmine e il valore 0 ai maschi. In questo modo, otteniamo una variabile binaria che ci permette di rappresentare il genere come una variabile numerica. Successivamente, utilizziamo un software di analisi statistica come Excel per eseguire la regressione lineare. Inseriamo la variabile indicatrice genere come variabile esplicativa e lo stipendio come variabile risposta. Il software calcolerà i coefficienti della regressione, inclusa l'intercetta e il coefficiente della variabile indicatrice genere. Una volta ottenuti i coefficienti, possiamo utilizzarli per costruire la funzione di regressione. La funzione sarà del tipo: stipendio = intercetta + coefficiente_genere * genere Dove intercetta rappresenta il valore dello stipendio medio per i maschi (quando genere = 0) e coefficiente_genere rappresenta la differenza nello stipendio medio tra femmine e maschi. In questo modo, possiamo utilizzare la funzione di regressione per stimare lo stipendio per ogni livello della variabile esplicativa genere.cosa dobbiamo costruire le variabili indicatrici rispetto al genere, come si costruisco?Sappiamo che per definizione una variabile indicatrice assume valore 1 B C D Ese una condizione è soddisfatta e valore 0 in caso contrario, quindi con 1 stipendio genere M F2 1590 m 1 0riferimento ai maschi possiamo usare la funzione logica SE() i cui 3 1592 m 1 0argomenti sono: test ossia nel nostro caso è se questa cella contiene M 4 1577 m 1 0o F quindi se C2 è maschio "m" ; se la condizione è verificata mettiamo 5 1698 m 1 01 e se non lo è mettiamo 0. 6 1621 f 0 17 1678 f 0 1Funzione: =SE(C2="m";1;0) 8 1511 m 1 09 1657 f 0 1Questo ci consente di costruire il valore della variabile indicatrice per i 10 1655 f 0 1maschi. In maniera analoga con la funzione =SE(C2="f";1;0) possiamo 11 1521 m 1 012 1679 f 0 1calcolare la variabile indicatrice per le femmine, ma per questo è 13 1528 m 1 0possibile anche scrivere direttamente

1 meno la variabile maschio. 14 1550 f 0 1Copiamo e incolliamo queste formule per tutti i valori. 15 1535 m 1 0Possiamo osservare che per ogni riga la somma dei valori delle variabili indicatrici M ed F fa sempre 1.Cerchiamo adesso di riottenere la funzione di regressione avvalendoci di un modello di regressione lineare, iniziamo a considerare:Osserviamo che questo modello non è stimabile in quanto può essere riespresso come: 51Però abbiamo appena osservato che la matrice delle osservazioni che consta del vettore dei termini unitari più il vettore della variabile indicatrice maschi e il vettore della variabile indicatrice femmine, non ha pieno rango di colonna in quanto .Parametrizzazione Corner constraintQuindi non possiamo tenere nel modello tutte e 3 le variabili, vediamo ora questi modelli:1)In questo modello omettiamo la variabile indicatrice F quindi rimane solo l'intercetta e la variabile indicatrice relativa ai maschi. Procediamo con la

stima:Errore Valore di Inferiore Superiore Inferiore Superiore

Coefficienti Stat tstandard significatività 95% 95% 99.0% 99.0%

Intercetta 1640 23,009659 71,274413 3,87E-17 1589,866 1690,134 1589,86 1690,13

M -71 30,4389188 -2,3325401 0,037895 -137,321 -4,67929 -137,32 -4,67929

L’intercetta risulta pari a 1640, valore che abbiamo già nella funzione di regressione attraverso la tabella pivot e rappresenta la media della variabile Y per le femmine. Il valore -71, se consideriamo 1569 e togliamo 1640 , la differenza è negativa e pari a 71 quindi è la differenza tra lo stipendio medio dei maschi e lo stipendio medio delle femmine.

2)In questo modello omettiamo la variabile indicatrice M quindi rimane solo l’intercetta e la variabile indicatrice relativa alle femmine.

Dettagli
Publisher
A.A. 2020-2021
89 pagine
7 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher nicoletta0597 di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Cattolica del "Sacro Cuore" o del prof Cantaluppi Gabriele.