Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
SPSS - Vista variabile
Nella vista variabile di SPSS possiamo vedere delle variabili numeriche e altre qualitative. Il nome della variabile deve essere un nome senza spazi. Se invece vogliamo una spiegazione della variabile la andiamo a inserire nell'etichetta, solo in questo caso posso inserire degli spazi.
Quando parliamo di variabili quantitative, indichiamo con il metro il valore numerico misura di tipo nominale: variabili articolate in modalità tipo etichetta, posso avere anche dei numeri ma non ha un significato quantitativo ma esprime una modalità alternativa.
La variabile "genere" è una variabile nominale utilizzando la variabile numerica dove con 1 indico Maschio e con 2 femmine. Se la lettera è maiuscola, bisogna scriverla così altrimenti non riesce a trovarla.
Tre puntini posso cambiare una variabile in altro tipo 1 in centro aggiungi poi da vista dati visualizza, visualizza etichetta.
Meglio usare ricodificare in variabili differenti valori vecchi e nuovi.
l'etichetta deve essere identica aquella che c'era prima nei dati (M e non m)
Possiamo notare la differenza tra qualitative e quantitative perché non c'è la media. Se avessi sbagliato, avrebbe fornito la media e deviazione
La colonna N riporta il numero di osservazione a disposizione. In alcuni il numero è pari a 40, 33, 30. La colonna mi sta dicendo che al massimo hai 40 osservazioni ma in alcuni casi sono mancanti. La media e deviazione mi restituisce il valore medio delle variabili quantitative.
Se in N ho 30 osservazioni disponibili, ne avrò 10 mancanti. Bisogna guardare i soggetti che non hanno dato la risposta e quanto pesano sul campione e pesano il 25% siccome il 25% pesano sul mio campione.
Il dato mancante è complementare a N ma il valore assoluto non è troppo rilevante ma è importante vedere quanto pesano sul campione.
Esempio: file missing_store.sav
File composto da 40 unità su cui sono state rilevate le
Le informazioni seguenti:
I dati presentano alcuni dati mancanti variamente distribuiti. Per analizzarli è possibile utilizzare la procedura prevista in SPSS per il trattamento dei dati mancati.
I dati estremi o outlier:
Già la definizione fa capire che stiamo parlando di dati estremi, sono molto diversi da quelli che definiremmo la normalità del campione che stiamo osservando. Osservazioni estremamente grandi e estremamente piccole.
Esempio: mettiamo il caso di avere a disposizione 1000 interviste sulla popolazione italiana. Le interviste possono essere fatte solo su maggiorenni. Generalmente mi trovo delle persone che hanno un'età compresa tra 18 e 85. Se trovassi delle persone che superano 100 o persone estremamente piccole (al posto di digitare 50, scrivono 5), quelle osservazioni sono dette estreme perché si allontanano dalla mia osservazione normale.
Statistiche univariate:
Mancante N. di estremi
N Media Deviazione std. Conteggio Percentuale Basso
AltoSpesa 40 18,3793 6,73216 0 ,0 0 3 16
Cibi_pronti 33 2,1074 1,12730 7 17,5 0 4
Panetteria 40 1,6750 ,38254 0 ,0 0 0
Carne 30 4,4341 1,54937 10 25,0 0 2
STORE 40 0 ,0
genere_num 40 0 ,0
a. Numero di casi fuori dall'intervallo (Q1 - 1.5*IQR, Q3 + 1.5*IQR). Di che intervallo si tratta?
Box-plot
Una rappresentazione grafica che permette di indagare la forma di una distribuzione è il box plot o grafico a scatola.
Il box plot è detto così perché è il diagramma a scatola. Per costruirlo abbiamo bisogno di costruire la scatola che indicherà il 50% delle mie osservazioni. Quindi la scatola è limitata dal 1° quartile (25% distribuzione) e dal 3° quartile (75% distribuzione).
Il box plot presenta due baffi (whiskers- T1/T2) che vanno a identificare i limiti entro cui i nostri dati non sono estremi. Tutto quello che cade fuori dai baffi è un dato anomalo o anche detto outlier.
Il t1 e t2 non possiamo settarli al massimo o al minimo della distribuzione
perché altrimenti i valori estremi non li troviamo. Quindi li dobbiamo calcolare in maniera che ci sia una regola che ci permette di provare quel valore che ci aiuta a identificare la regola che ci siamo dati
Come costruiamo il T1? Il T1 è uguale al massimo tra 2 valori. Il primo è il valore minimo della distribuzione mentre il secondo valore è Q1-una volta e mezzo lo scarto interquartile (1,5QR). Di questi 2 valori prendo il valore massimo, lì è dove cade T1
T2 abbiamo due valori, il valore massimo + q3+1,5QR. Spss fa questo calcolo per noi. Quando vediamo dei dati estremi non è detto che è sbagliato ma deve essere almeno controllato.
QUINDI COME SI COSTRUISCE IL BOX PLOT?
- si devono calcolare i tre quartili della distribuzione: Q1 (primo quartile), Q2 = Me (secondo quartile che coincide con la mediana), Q3 (terzo quartile).
- su un asse orientato, si individua un rettangolo (scatola/box) i cui estremi sono costituiti, rispettivamente, dal
primo e dal terzo quartile, e la cui lunghezza è rappresentata, evidentemente, dalla differenza interquartile IQR=Q3-Q1;
il rettangolo (scatola) viene suddiviso in due parti da un segmento che delimita la posizione della mediana;
si individuano i due valori T1 = max(valore minimo, Q1-1,5IQR) e T2 = min(valore massimo,Q3+1,5IQR). Si tracciano due linee esterne alla scatola, dette baffi (whiskers), per questo motivo il diagramma è detto anche box and whiskers plot. I baffi sono delimitati, rispettivamente, dai T1 e T2 calcolati in precedenza. Le osservazioni il cui valore è più piccolo di T1 o più grande di T2 vengono considerate come dati anomali (outlier).
Modelli ordinati in tabelle a
Modelli mancanti
genere_nu Completob
Numero di casi Spesa Panetteria STORE m Cibi_pronti Carne se...
23 2310 X 337 X 30
a. Le variabili vengono ordinate sui modelli mancanti.
b. Numero di casi completi se le variabili mancanti in tale modello (contrassegnate con X) non
vengonoutilizzate.Abbiamo:
- 23: numero di unità complete se considero tutte le variabili→Abbiamo solo 23 casi complete, quindi abbiamo tolto il 50% dei totali.
- 33: Numero di unità complete se considerassi le variabili : spesa, panetteria, gender, store eCibi_pronti
- 30: Numero di unità complete se escludo Cibi_pronti 18
Dobbiamo stabile se sono MAR o comportamento. Come faccio a capire se si tratta di un comportamento o se si tratta di un dato casuale?
STORE | Totale | centro | periferia | ||
---|---|---|---|---|---|
Cibi_pronti | Presente | Conteggio | 33 | 18 | 15 |
Percentuale | 82,5 | 81,8 | 83,3 | ||
Mancante | % mancante di sistema | 17,5 | 18,2 | 16,7 | |
Carne | Presente | Conteggio | 30 | 17 | 13 |
Percentuale | 75,0 | 77,3 | 72,2 | ||
Mancante | % mancante di sistema | 25,0 | 22,7 | 27,8 |
Le variabili indicatore con meno del 5% di valori mancanti non vengono visualizzate.
La % dei valori mancanti riguardante la carne sia pari a 22% idem per i cibi pronti. La presenza di dati mancanti sia nello store 1 sia nel 2 mi fa concludere che non siamo di fronte ad
un comportamento
Totale | M | F | |||
---|---|---|---|---|---|
FCibi_pronti | Presente | Conteggio | 33 | 12 | 21 |
Percentuale | 82,5 | 85,7 | 80,8 | ||
Mancante | % mancante di sistema | 17,5 | 14,3 | 19,2 | |
Carne | Presente | Conteggio | 30 | 8 | 22 |
Percentuale | 75,0 | 57,1 | 84,6 | ||
Mancante | % mancante di sistema | 25,0 | 42,9 | 15,4 |
Le variabili indicatore con meno del 5% di valori mancanti non vengono visualizzate.
Possiamo notare che i maschi hanno un determinato comportamento nell'ambito carne. Perché c'è una buona percentuale di maschi siccome non dice quanto spende nel reparto carne, quindi mi fa concludere che potremmo essere di fronte ad un comportamento. MA bisogna guardare sia la percentuale di missing e guardare anche la percentuale su quanto è stata calcolata, abbiamo notato che i maschi sono pochi rispetto le donne quindi dire che è un comportamento quello dei maschi è azzardato. Tendenzialmente noi siamo conservativi, a meno che non abbiamo un contingente numerico molto rilevante, riteniamo questi casi NON
comportamenti perché fa fatica evincere un comportamento con poche osservazioni.
Diagramma a scatola
Per costruirlo abbiamo bisogno di alcune statistiche. Abbiamo bisogno di:
- Quartili (primo e terzo)
- Il valore massimo e il valore minimo
Spesa | Percentuale | Percentuale Frequenza valida | cumulativa |
---|---|---|---|
11,16 | 1 | 2,5 | 2,5 |
11,91 | 1 | 2,5 | 5 |
12,28 | 1 | 2,5 | 7,5 |
13,20 | 1 | 2,5 | 10 |
13,48 | 1 | 2,5 | 12,5 |
14,05 | 1 | 2,5 | 15 |
14,17 | 1 | 2,5 | 17,5 |
14,40 | 1 | 2,5 | 20 |
14,68 | 1 | 2,5 | 22,5 |
14,77 | 1 | 2,5 | 25 |
14,86 | 1 | 2,5 | 27,5 |
14,86 | 1 | 2,5 | 30 |
14,91 | 1 | 2,5 | 32,5 |
15,18 | 1 | 2,5 | 35 |
15,21 | 1 | 2,5 | 37,5 |
15,22 | 1 | 2,5 | 40 |
15,32 | 1 | 2,5 | 42,5 |
15,60 | 1 | 2,5 | 45 |
15,76 | 1 | 2,5 | 47,5 |
15,93 | 1 | 2,5 | 50 |
15,94 | 1 | 2,5 | 52,5 |
16,24 | 1 | 2,5 | 55 |
16,61 | 1 | 2,5 | 57,5 |
16,81 | 1 | 2,5 | 60 |
16,86 | 1 | 2,5 | 62,5 |
18,20 | 1 | 2,5 | 65 |
18,27 | 1 | 2,5 | 67,5 |
18,92 | 1 | 2,5 | 70 |
18,96 | 1 | 2,5 | 72,5 |
20,11 | 1 | 2,5 | 75 |
20,15 | 1 | 2,5 | 77,5 |
20,18 | 1 | 2,5 | 80 |
20,76 | 1 | 2,5 | 82,5 |
21,21 | 1 | 2,5 | 85 |
85,021,89 1 2,5 2,5 87,526,56 1 2,5 2,5 90,027,40 1 2,5 2,5 92,530,69 1 2,5 2,5 95,038,85 1 2,5 2,5 97,543,60 1 2,5 2,5 100,0Totale 40 100,0 100,0-
È un protocollo elementare perché ciascun valore è presente una sola volta. Se la variabile la tengo inquesto modo ovvero rappresentata mediante i valori, non è rappresentativa perché la frequenza è tuttauguale. Potremmo modificare questa variabile in una variabile con l’intervallo, quindi variabile in classi
Calcolare box-plot:
- Costruire box plot
- Verificare che il dato fornito esce dallo standard
Statistiche
- Spesa
- N Valido 40
- Mancante 0
- Minimo 11,16
- Massimo 43,60
- Percentili 25 14,793550 15,934375 20,1365
Calcolare lo scarto interquartile Q3-Q1= 75-25= 20,1365-14,7935= 5,343→T1 = 14,7935-1,5*5,343= 6,7455 bisogna confrontarlo col minimo (11,16)→ no dato anomalo
T2= 20,1365+1,5*5,343= 28,15→ bisogno confrontarlo con il massimo (43,60)→ è più basso quindi è
undato anomalo
Se i baffi coincidono con il massimo o con il minimo, non ho nessun dato estremo
Il box plot ha un’unica dimensione 21
La riga nera continua è la mediana e abbiamo i due baffi: T1 e T2. Nel grafico PSS mette in evidenza i dati estremi e ci sono solo la parte alta. I numeri sul grafico sono le osservazioni che risultano essere fuori dal nostro intervallo di normalità.
Si crea per variabili quantitative (o almeno ordinabili)
Esercizio da svolgere:
Una survey sull’atteggiamento dei giovani verso la sostenibilità ambientale realizzata da uno studente del corso di marketing contiene le seguenti domande:
- -