Formattazione del testo
CONTINGENZA);Mi serve per incrociare due variabili qualitative, es. sesso e facoltà. Mettonelle righe la variabile sesso, mentre nelle colonne la variabile facoltà:Mi dice che 12maschi sono iscrittia psicologia, 15 aeconomia e 37 agiurisprudenza; 46femmine sonoiscritte a13 psicologia, 43 aeconomia e 13 agiurisprudenza.
Per una variabile quantitativa (es. età):
- Percentili (spesso quartili).
- Media Indici di tendenza centrale
- Mediana
- Moda
- D. standard Indici di dispersione
- Minimo
- Massimo
- Istogramma (con curva normale)
Esercizio: fare una statistica descrittiva della scala 2 e della scala 3 variabiliquantitative su scala a intervallo. Posso chiedere:
- Quartili
- Grafico di distribuzione (istogramma con curva)
- Indici di tendenza centrale
- Indici di dispersione
In output ottengo i risultati; per esempio, i grafici:
- distribuzione quasi normale
- distribuzione non normale
Voglio trasformare una variabile in un’altra variabile
Es. voglio trasformare la variabile
Età (quantitativa) nella variabile fasce di età (qualitativa). Decido di dividere la variabile età in due sottopopolazioni: soggetti di età inferiore ai 21 anni; soggetti di età superiore ai 21 anni.
Vado su TRASFORMA RICODIFICA IN VARIABILI DIFFERENTI:
- Inserisco la variabile di input (età) e il nome della variabile di output (fasc_eta);
- Vado su "valori vecchi e nuovi":
- Vado su "intervallo, valore dal Più PICCOLO a:" e inserisco 21; do il valore 1 (inalto a dx) e faccio "aggiungi";
- Vado su "intervallo, valore al Più GRANDE": e inserisco 22; do il valore 2 e faccio "aggiungi";
- Poi vado su "continua": tornata alla schermata, clicco "modifica" e poi "ok".
Ecco che nel database si è aggiunta la variabile "fasc_eta" (qualitativa).
Esercizio: dividere il TOT_RPBS in sotto punteggi:
- 15- Bassi dal punteggio più piccolo fino al
primo quartile;- Medi dal primo al terzo quartile;- Alti dal terzo quartile in poi.Per ogni popolazione voglio conoscere la media di età.Risoluzione: ANALIZZA ST. DESCRITTIVE FREQUENZE QUARTILI TRASFORMA RICODIFICA IN VARIABILI DIFFERENTI
Input: totRPBSOutput: fasc_RPBSOttengo nel database la variabiel fasc_RPBSANALIZZA CONFRONTA MEDIE MEDIE 16Opzioni media17INDICI DI DISTRIBUZIONE: ASIMMETRIA E CURTOSIAndando su ANALIZZA STATISTICA DESCRITTIVA FREQUENZE oltre ad avere gli indici di tendenza centrale e di dispersione ho anche gli indici didistribuzione:Asimmetria e curtosi mi dicono se l’andamento della variabile in esame èapprossimabile a quello della normale. Per stabilire ciò posso usare due teststatistici (Smirnov e Shapiro*) oppure il criterio pragmatico: più il valoredell’asimmetria e della curtosi tende a 0, più l’andamento della variabile (percui ho calcolato asimmetria e curtosi)
è approssimabile a quello della normale; quando il valore di asimmetria e curtosi supera 1, sono in una condizione di violazione della normalità. Quando il valore dell'asimmetria e della curtosi è: - 0 - 0.5: si accetta (criterio restrittivo) l'andamento è normale - 0 - 1: si accetta (criterio meno restrittivo) l'andamento è normale - 1 - 2: violazione della normalità, l'andamento non è normale - >2: grande violazione della normalità, l'andamento non è normale Es. scala: tot_RPBSI valori sono accettabili: l'andamento della variabile è approssimabile alla normale. Ciò è evidente se, per quella variabile, chiedo un istogramma con sovrapposta la curva normale. Ciò che rende la distribuzione poco normale sono i soggetti outliers: per rendere la distribuzione più normale, dovrei rimuoverli. Togliendo gli outliers, intervengo sull'asimmetria esulla curtosi (n.b. l'asimmetria si può aggiustare, la curtosi no, ma solo indirettamente).1<-2 anche togliendo gli outliers non sistemo la distribuzione, posso<-Se intervenire matematicamente: calcolo la radice quadrata o il logaritmo dei punteggi lontani dalla media, ottenendo punteggi che avvicinano la distribuzione della variabile a quella normale; in tal caso, intervengo solo sull'asimmetria.
1 capire come rimuovere gli outliers, utilizziamo il file DATI_VIENNA. Si<-Per tratta di una ricerca condotta sul fondamentalismo religioso, durante la quale sono state somministrate diverse scale. Vedo queste scale nella prima colonna di "vista variabile": nome; scorrendo, vedo tutti gli item delle scale (es. L5, L6, L7). Q13R, 124 R, ecc. sono i reverse. Alla posizione 129 c'è "Liht": totale punteggio fondamentalismo (scala L); Alla posizione 145 c'è "Dominance": totale punteggio dominanza (scala SDO). Utilizzeremo
Principalmente la scala Liht e Dominance*. Voglio studiare la distribuzione della scala L: ANALIZZA STATISTICHE -> DESCRITTIVE LIHT asimmetria e curtosi; OPPURE: -> ANALIZZA STATISTICHE DESCRITTIVE ESPLORA consente -> l'esplorazione della distribuzione di una variabile. ESPLORA -> 19 Statistiche descrittive + valori anomali -> Grafici Livelli di fattori insieme (box plot) Istogramma + grafici di normalità -> con test Output: InHo le statistiche descrittive; tra esse: asimmetria .94 e curtosi 1.28 i valori sono molto vicini al limite, quindi ipotizzo una distribuzione non normale -> VIOLAZIONE DI NORMALITÀ Viene riportata anche una tabella con i valori anomali (outliers). In effetti, la distribuzione non normale viene mostrata dal seguente grafico (che in output è dopo l'istogramma), dove la curva nera rappresenta la curva normale; abbiamo diversi punteggi che si allontanano dalla curva normale: 20 Questo è ancora più evidente nel box plot.
che avevo richiesto:Gli outliers sono 97, 94 e 11. LI VOGLIO ELIMINARE.Parto eliminando il 97 e il 94 (anche se di solito se ne elimina uno alla volta:dopo aver eliminato un outlier, si va a vedere se la distribuzione di èaggiustata; se non si è aggiustata, si continua a eliminare gli outliers).Vado sul database: DATI SELEZIONA CASI21Se la condizione è soddisfatta Se….→Devo selezionare la variabile in Gruppo di funzioni tutto $Casenum (i→ →valori 94 e 97 sono una variabile che si chiama $Casenum).Devo dire che $Casenum deve essere diverso da 94 e 97:In “vista dati”, 94 e 97 sono esclusi:22Ora ripeto la procedura di esplora:Asimmetria e curtosi si sono aggiustate; ci sono meno outliers (il $Casenum 11e 2, che posso tenere perché la curtosi e la asimmetria, per quanto riguarda ilcriterio pragmatico non restrittivo, non indicano una violazione di normalità).Compito: analizza sulla base degli indici di distribuzione se laLa variabile DOMINANCE* è approssimabile a una normale.
Risultati: dall'esplorazione emerge che gli indici di dispersione sono: curtosi=2.252 e asimmetria=1.103.
Applicando il metodo pragmatico, ottengo che gli indici di dispersione indicano una violazione di normalità: la variabile "dominance" non si distribuisce normalmente.
Come dimostra il box-plot, ho infatti diverse outliers: 137, 127, 47, 3, 133.
Eliminando l'outlier 137, dall'esplorazione emerge che gli indici di dispersione sono: curtosi= 1.233 e asimmetria=.833.
Applicando il metodo pragmatico non restrittivo, ottengo che l'asimmetria non viola la normalità, mentre la curtosi viola la normalità.
Eliminando anche l'outlier 127, dall'esplorazione emerge che gli indici di dispersione sono: curtosi= .576 e asimmetria =.630.
Applicando il metodo pragmatico non restrittivo, ottengo che entrambi gli indici non violano la normalità.
Eliminando gli outliers 137 e 127, quindi,
la distribuzione dellavariabile si approssima alla distribuzione normale.
N.B Trascrivi almeno i codici → se il Casenum è 127, devo riportare il codice vicino(1069).
Se fosse necessario, che tipi di trasformazioni? Ricorda che eliminare gli outliers non significa “trasformare”. Dovrei quindi fare dei calcoli (intervenendo solo su asimmetria):
Es. se per es. asimmetria è 1.21: asimmetria compresa tra 1-2 e positiva: posso
Come faccio in SPSS?
fare sia log10X che radice di X. Consideriamo la variabile LIHT.
TRASFORMA CALCOLA VARIABILE
v. destinazione = LIHT_squared
Espressione= gruppo funzioni tutto Sqrt inserisco Liht ok
Nel database ottengo la nuova variabile
Se chiedo l’istogramma di LIHT_squared, osservo che la distribuzione si è aggiustata:
PROBABILITÀ ASSOCIATA (P) – SIGNIFICATIVITÀ - ALFA
In ogni procedura statistica (correlazione, t test, t quadrato, indici di asimmetria, come lo Smirnov e Shapiro, ecc.)
Bisogna compiere delle considerazioni relativamente alla probabilità della statistica stessa. Completiamo con questo tipo di analisi lo studio di asimmetria e curtosi, utilizzando i test statistici Shapiro e Smirnov. Prendo in considerazione la variabile QUEST. ANALIZZA DESCRITTIVE -> ESPLORA. Chiedo:
- Statistiche descrittive
- Grafico a scatola (livelli dei fattori insieme); ramo-foglia; grafici di normalità con test.
In output: Asimmetria e curtosi (riporto anche i relativi errori standard), secondo il criterio pragmatico non restrittivo, sono accettabili: non c'è violazione di normalità. Anche i grafici dimostrano l'assenza di outliers.
Sempre in output, sotto "descrittive", c'è la sezione TEST DI NORMALITÀ.
Per quanto riguarda i test di normalità abbiamo:
- H0 la variabile si distribuisce normalmente;
- H1 la variabile non si distribuisce normalmente.
Se il valore di sign. (significatività, in tal
caso .100 e .033) è significativo, non si distribuisce normalmente allora la variabile (accetto H1 e rifiuto H0). Come stabilisco se il valore è significativo o no (e dunque se accettare o meno H1)? Esistono due convenzioni, una meno restrittiva e l'altra meno restrittiva: - Un test è significativo per un valore di significatività < 0.05 (5%) - Un test è significativo per un valore di sigScarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Esercitazione FreeShip
-
Ingegneria del software - Esercitazione
-
Ingegneria del software - esercitazione
-
Esercitazione meccanica computazionale