Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Distraction: normal distribution
I valori delle x è media=0. Distribuzione teorica attesa dei dati che abbiamo osservati. Mean= 6.95 Standard deviation= 1.52 Cambiata scala sotto, in modo tale che la media sia 6.95 Compute quantile cumulative quantile: abbiamo la mediana perché il quantile p=0.5, se cambio in 0.25 calcolo il 25%, oppure 0.75 che è il 75%, 0.1 che è il 10% e il suo valore è 5.002, il terzo decile, ovvero il 30% che è 6.153, calcoliamo 0.9, cioè il 90% e il valore è 8.898. Possiamo calcolare i centili: 0.01, che è l'1%; calcolare il 99° percentile, cioè 0.99. Possiamo anche calcolare la probabilità: io voglio la probabilità metto il valore del quantile, ad esempio, con il 99° percentile, scrivo 10.48: mi colora l'area del 99%.
28/10/2020 Distribuzione norma: come distribuzione di riferimento quando facciamo un esperimento. Noi abbiamo una scala (x) e poi la distribuzione dei
valori (y). La probabilità è rappresentata dall'area in grigio, non dall'altezza della curva. Se si divide la distribuzione in due parti avremo il 50% e 50%. La linea che divide a metà della distribuzione corrisponde al valore medio e nel caso di una distribuzione simmetrica come in questo caso il valore medio coincide con la media, mediana e moda. Cosa possiamo fare con questa distribuzione? Possiamo andare a vedere il primo quartile, secondo quartile, terzo quartile: che è l'area colorata di giallino. Abbiamo bisogno di questo per delle operazioni che vogliamo fare sui nostri dati su cui stiamo lavorando. Siamo partiti da dei voti dati in una classe per una prova, come facciamo a valutare questi voti? Li possiamo validare rispetto a un gruppo molto ampio, quindi voti di dieci classi che hanno fatto la stessa prova, quindi abbiamo 300 misure con un campione così possiamo calcolare i quantili, i decili, ecc. Un'altra cosa che possiamo fare che ci introduceVerso le analisi più complesse è guardare se le 10 classi sono equivalenti. A e B sono quantitative. Classi split by abbiamo la media delle 10 classi, ecc. più e meno sono equivalenti, la media è più o meno uguale, la mediana anche e infine anche la standard deviation. Noi possiamo prendere questo campione come campione di riferimento. Vogliamo riassegnare i voti in maniera tale che siano equispaziati. L'unico criterio che ho è di individuare delle categorie equiparabili. Lo posso fare con i miei quantili. La probabilità di transizione da una categoria alla successiva è uguale, passo dal 10 percento, al 10 successivo che è tra il 10 e il 20%. Questa operazione non la possiamo fare su una classe di 30 persone perché sono troppo pochi, ma se abbiamo un campione più vasto che ha effettuato la stessa prova allora lo possiamo rendere come riferimento per riassegnare voti alla classe. Calcoliamo i decili: troviamo che
I nostri decili rispetto alle nostre misure ordinali, il primo da a 4.98, il secondo da 4.98 a 5.70. A questo punto abbiamo una divisione equispaziata dei nostri voti ordinari. A sto punto dobbiamo prendere una decisione: riassegno i miei valori: da 5.70 a 6.25 assegno tra 5.5 e 6. Così equispazio i voti. La stessa cosa posso dire che il primo 20% è insufficiente e poi assegno alcuni voti equispaziati. Riassegno le distanze equispaziate in base alle possibilità. Riassegnazione arbitraria, la cosa non arbitraria è la distanza che è presumibilmente uguale. Mantiene le distanze in base alle probabilità possiamo valutare il voto - Un allievo che ha preso 7.50 andrà nella classe che andrà da 7.35 e 7.75 quindi andrà nella classe 8 o 7. Le etichette arbitrarie che io do. In molti casi non ho il mio campione numeroso, per cui suppongo di avere solo 30 voti della mia classe A. Non posso calcolare i decili, ma posso lavorare sui quartili:
classe A valutata dall'insegnante 1, classe B valutata dall'insegnante 1, classe A (caso c) valutata dall'insegnante 2. Per l'insegnante 1 quasi tutti sono sufficienti, per l'insegnante 2 considera solo un allievo veramente sufficiente, la maggior parte degli allievi sono insufficienti. Nella classe B lo stesso insegnante 1 è sempre di manica larga ma c'è un buon gruppo che prende le insufficienze. La morale di tutto ciò è che l'assegnazione dei voti è soggettiva, dipende dalla rappresentazione mentale da chi dà dei voti. La rappresentazione mentale è completamente arbitraria. Qual è il modo sensato per mettere in ordine? Il criterio è quello che abbiamo usato nella validazione: ci sono outliers? Gente che è fuori dalla distribuzione nel caso c c'è una persona che prende 10, nel caso B ci sono due gruppi, uno distribuito bene nella sufficienza, l'altro...Nell'insufficienza. Abbiamo 30 valori e sono troppo pochi per calcolare i decili, così usiamo i quartili. Lo possiamo fare quando abbiamo una distribuzione normale il b no, il c sì, anche se c'è un outliers. Se lo facciamo abbiamo: primo quartile fino a 6.31, 6.31 e 7, 7 e 8.38, 8.38 e 10 tutti quelli che stanno nel primo gli do l'insufficienza, poi sufficienza, buono e ottimo. La classe a e c giudicata da due insegnanti diversi: se usiamo questa nuova etichettatura quello che fa l'insegnante 1 e la 2 sono equivalenti, abbiamo sempre il primo 25% che è insufficiente, poi sufficiente, buono, ottimo. Facciamo ordine. Quando troviamo una situazione nella classe b non abbiamo una distribuzione normale ma abbiamo due gruppi: se avessimo avuto solo la valutazione della classe a dell'insegnante 2, cosa ne possiamo ricavare? Che l'insegnante 2 è di manica stretta, rappresentazione mentale della scala di voti diverso.
rispetto all'insegnante 1. Bisogna ragionare sui dati: dividere in intervalli equiprobabili che equivalgono a spazi equispaziati dobbiamo vedere le cose così perché è l'unico modo per uscire dal disordine delle misure ordinarie. Come da i dati appartiene alla sua rappresentazione mentale soggettiva, su questo non ci si può fare niente, ma una volta che l'insegnante ha prodotte le sue misure, allora possiamo verificarne la coerenza e la validità, quindi riscalare i giudizi su una scala con i valori equispaziati sulla base dell'equilibrio della probabilità. Suggerimenti per i voti: se io ho insegnato bene, mi attendo che il valore sia 7 o comunque pienamente sufficiente, se non corrisponde c'è un problema. La distribuzione dei voti deve essere normale, se non lo è c'è un problema: metà della classe insufficiente. Ci sono outliers, nella c ce n'è uno che prende 10 quando ci sono.outliers→vanno esclusi e devono venire trattati individualmente. Ci sono soggetti che sono diversi da altri. Per orientarsi quando abbiamo dei punteggi ordinari, vanno riscalati in quartili oppure se ne abbiamo di più in decili. Questo solo se la distribuzione è normale per ottenere delle transizioni equiprobabili. Ci deve essere una coerenza nel tempo tra le verifiche scritte della stessa materia. Le interrogazioni orali dovrebbero essere eliminate. Perché? Perché sono individuali non posso verificare che ci sia una coerenza nel giudizio. Come si può fare un esame orale dovrei farlo nello stesso modo tutti gli studenti far fare delle presentazioni→ a degli studenti dove non si giudica il contenuto, ma la presentazione, in questo caso tutti fanno la stessa cosa e quindi posso giudicare in quantili. Per considerare che siano ordinarie dobbiamo lavorare sui quantili. Piccola soluzione pratica quando facciamo i sondaggi d’opinione: in genere si dice,
Dammi un voto da 1 a 10, c'è un modo che sembra meno suscettibile della rappresentazione soggettiva che uno ha, non sappiamo cosa c'è nella testa di una persona. Per fare la stessa cosa dove la rappresentazione mentale è meno rilevante è di usare un cursore su una scala continua senza collegarli a una rappresentazione mentale dei valori minimo e massimo. Se si usa questo trucco sembra che la rappresentazione mentale giochi un ruolo meno importante.
Statistiche descrittive
Serve a riassumere grandi quantitativi di dati (misure). Per questo vengono usati gli indici numerici. Uso pochi numeri senza perdere le mie informazioni. L'idea è che devo riassumerli perdendo meno informazioni possibili: scopo della statistica descrittiva. Indici statistici univariati o bivariati (multivariati). Quando abbiamo dei gruppi di più misure associate a un individuo specifico abbiamo delle situazioni multivariati. L'indice bivariato è la correlazione.
Quelli univariati sono le misure di tendenza centrale e le misure di dispersione: abbiamo una buona descrizione della mia misura dei dati senza perdere dei dati. Le misure di tendenza centrale sono media, mediana, moda. Mentre le misure di dispersione: varianza, deviazione standard, differenza tra i quartili.
Statistiche univariate: abbiamo questi valori (slide 4), sono 50 misure, c'è una certa variabilità. La prima cosa che facciamo è che io voglio visualizzare queste misure, quindi fare un istogramma con delle frequenze assolute o relative. La variabile è continua anche se è discreta (valori interi) abbiamo i dati basic 01: media e mediana sono più o meno uguali. La moda è il valore che ha la frequenza più alta. La standard deviation: se partiamo dalla media e gli togliamo 2 andiamo a 3 o gli aggiungiamo 2, questo lasso è più o meno il 75%.
Slide 5 il mattoncino è il dato singolo. Abbiamo delle frequenze assolute.
Ad esempio, nell'intervallo tra 6 e 7 abbiamo 9 valori. Queste sono frequenze assolute. Se sommo le frequenze assolute ottengo 50. Per calcolare le frequenze relative devo fare 1 diviso 50, 5 diviso 50, 5 diviso 50 ecc, qual è il vantaggio delle frequenze assolute? Abbiamo l'informazione sulla numerosità, dobbiamo riportare l'informazione sulla numerosità del campione media: è una misura di tendenza centrale e riassume al meglio i nostri dati. Ci sono tre misure: la mediana che è la divisione 50 e 50, la moda che è il valore più alto e la media. Una buona maniera per visualizzare la media è pensarla come il centro di gravità della distribuzione, il centro dell'equilibrio dell'asse x. La media è il punto in cui se noi ci mettiamo un perno l'asse rimane in equilibrio. Come si calcola?