Anteprima
Vedrai una selezione di 18 pagine su 81
Appunti lezioni Statistica aziendale  Pag. 1 Appunti lezioni Statistica aziendale  Pag. 2
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 6
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 11
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 16
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 21
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 26
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 31
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 36
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 41
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 46
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 51
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 56
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 61
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 66
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 71
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 76
Anteprima di 18 pagg. su 81.
Scarica il documento per vederlo tutto.
Appunti lezioni Statistica aziendale  Pag. 81
1 su 81
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

BERNOULLI

La mia X identifica il numero di pezzi difettosi. Perché devo definire la sua distribuzione? Per capire la probabilità che il pezzo sia difettoso: successo. Il parametro che la caratterizza qual è? La probabilità di successo. Possiamo scriverla anche come "Se il pezzo è buono ho zero, se ha difetti è uno".

Torniamo all'azienda, non saremo più qui. Ma dobbiamo pensare a questa cosa qui, ripetuta. Per 36 ore, ogni volta che esce un pezzo e capiamo se difettoso o meno. Ho 36 ripetizioni dello stesso esperimento aleatorio. Ho la stessa probabilità di successo di prima. Variabile casuale che si distribuisce come una binomiale. La n è il numero di volte in cui viene ripetuto l'esperimento. Così posso stimare il parametro di interesse che ha la probabilità che il pezzo sia difettoso. Osservo un campione in cui stimo il parametro di interesse. La differenza tra quello stimato e il valore vero non sarà zero.

Perché? Ci sarà sempre un errore (articolato come si vede sotto). Devo tener conto di questo errore quando passo da campione a popolazione. Osservando un altro campione quella stima cambia, il mio teta cappello non è quello della popolazione altrimenti non cambierebbe. Abbiamo, dunque, due componenti dell'errore di stima.

L'errore campionario è dato dall'osservazione parziale della popolazione. Qualora mancassero gli errori non campionari (ad esempio se mancassero le non-risposte), questa componente di errore si ridurrebbe al crescere della numerosità campionaria, fino a diventare nullo con il passaggio all'indagine censuaria. Riesco a limitarlo. Ma anche nelle indagini sulla popolazione (residente), lascio da parte gli immigrati clandestini ad esempio. Quindi anche in questo errore non guardo il tutto, anche questo errore c'è sempre.

L'errore non campionario (di difficile individuazione) è dato da...

fenomeni: non-risposte, errori di misura, inesattezze nelle liste di campionamento, etc. Potenzialmente, anch'esso può essere ridotto/aumentando la numerosità campionaria. Di quest'ultimo, ovviamente, ho meno controllo.

Intervalli di confidenza

Per n sufficientemente grande, lo stimatore di Horvitz-Thompson si distribuisce approssimativamente come una v.c. normale. Ergo, possiamo calcolare l'intervallo di confidenza (IC) per il totale e per la media di y nella popolazione, come segue:

Dimensione campionaria

LEZIONE 16/10

PREPARAZIONE E GESTIONE DEI DATI (1/2)

Qualità dei dati

Codificare i dati: capire ex ante quanto è buona l'informazione che abbiamo tra le mani.

Data Quality Assessment (DQA)

Insieme di procedure e di misure/indicatori per attestare la "bontà" dei dati e garantire la validità dei risultati di ricerca.

Esistono vv. framework, vv. protocolli, vv. step, vv. strumenti, vv. "scuole di pensiero"

aspettato di trovare.  Consistenza: grado di coerenza tra i dati all'interno del file.  Accuratezza: grado di conformità del dato rispetto alla realtà che rappresenta. I DQA sono strumenti fondamentali per valutare la qualità dei dati e garantire la correttezza delle informazioni fornite.aspettato ditrovare. Più righe, meno righe Consistenza: il livello di bontà del dato. L'assenza di differenza, quando si confrontano due o più rappresentazioni di una "cosa" con una definizione, anche relativa ad esempio al formato con il quale sono indicate le variabili. Accuratezza: livello in cui c'è un accordo tra ciò che osserviamo è ciò che ci saremmo aspettati di osservare in termini di dimensione statistica. Esprime la vicinanza di un valore rilevato al corrispondente valore vero. Anche riferito, come spesso avviene, ad una stima, il termine conserva lo stesso significato, denotando la ridotta dimensione dell'errore statistico globale (?) Errori di formato: determinata unità di misura, se la variabile non riporta l'unità di misura scritta nel metadato: errore di formato. Ma errore di formato possono anche due punti, punto e virgola che sono in più o in meno. Tutto questoè valutabile attraverso gli indicatori statistici precisi: - Consistenza: violazione di range - Integrità: quale indicatore che mi restituisce un info che io posso quantificare? Se io conto prima di elementi inattesi rispetto all'intera matrice di dati, questo è un indicatore sulla qualità. Ad esempio, 100% di aderenza tra metadato e quello che vedo nel data set: valore ottimo di qualità. Oppure se io importato il dataset e voglio valutare se le dimensioni della matrice di dati sono corrette, una cosa che posso fare è anche valutare il numero di record duplicati. - Completezza: crude e qualified missing. Differenza tra due indicatori che utilizzo per definire la qualità dei due domini. Se io identifico il numero di valori mancanti rispetto ad una colonna o una serie di record, questo indicatore mi dice qual è la qualità del dato rispetto al dominio crude missingness. Manca perché manca. Il numero di valori mancanti.È tot. Se invece la mancanza di informazione è rispetto a dominio qualified missingness, quale indicatore? (manca e per quale motivo?) Esempio del centralino che fa domande ad un campione di consumatori: io vedo che dopo tot domande le persone non rispondono più perché diventa troppo lungo e si sono rotti. Missing quindi dovuti al fatto che hanno abbandonato il questionario, quegli NA diventano plus perché io so già che quel dato mancante non è a caso. Un altro per qualified missingness: indicato ogni volta che utilizza dati reali, no response rate. Dire quante sono le unità che non hanno risposto all'indagine è dichiarare in incipit qual è il grado di mancata raccolta informazione. Devo capire se il campione sia rappresentativo come lo pensavo o meno. SOLO QUANDO HO IL METADATO POSSO PARLARE DI COMPLETEZZA, ALTRIMENTI IL DISCORSO MUTA IN ACCURATEZZA. - Accuratezza: se io ho in dominio distribuzione inaspettate, inattese.quali indicatore per connotare la qualità del dato in questo dominio? Outliers: valori anomali. Quanto pesano rispetto alla distribuzione? Questo potrebbe essere un indicatore. Nell'esame se ho un estratto, devo presentare una discussione puntuale su questi temi appena presentati. Let's roll! Un esempio di DQA su R... Una breve overview del software ... E via andare! ... Per gli scopi del DQA, qualche dritta sui pacchetti da poter utilizzare su R: assertable; assertive; clickR; DataExplorer; dataReporter; DescTools; DQAstats; explore; inspectdf; MOQA; StatMeasures; testdat; validate; visdat. Erre studio aiuta i meno esperti, mentre quella senior è solo linguaggio. Ambiente di lavoro in alto a destra, ciò che creo o importo sarà in questo riquadro. In basso a destra abbiamo la libreria, dove ci sono i pacchetti con tutti gli strumenti a disposizione. Mentre in basso a sinistra c'è la console, dove il software opera, tutto ciò che chiedo.

viene restituitoqui.Dati KPMG: non abbiamo metadati, matrici di dati grezza. Non abbiamo informazione.Noi dobbiamo fare data quality assessment (is the application of business-approved data quality requirementsto a selected data set).Non abbiamo metadata, non abbiamo aspettative. Non parlo di completezza, ma di accuratezza. Una dellequattro dimensioni non viene presa in considerazione direttamente.Clienti di società sportiva, l'unica informazione che abbiamo di questo data set.Erre non saprebbe leggere direttamente il file Excel, lo fa attraverso un pacchetto che qualcuno ha già creatoper leggere i dati di Excel.Che dimensione ha il mio dataset? 13 colonne e 20.000 osservazioni (in basso a sx).Dentro alla matrice osservo: sono registrazioni di compravendite sulla piattaforma dell'azienda.Messaggio di warning (new names) quando importo il nuovo foglio: dentro al secondo foglio ci sono dellecolonne senza nome. È un errore tecnico-strutturale del dataset,

la struttura è incompleta.Problemi in termini di qualità del dato: last_name è un info personale che potrebbe portare all'identificazione, informazione sensibile. Nel dataset non ho nascosto il nome e il cognome dell'acquirente.Ho una serie di informazioni su una persona che potrebbero identificarla. Rispetto all'integrità non è conforme alla normativa, quindi il dato non è qualitativamente ottimo.

Se ci soffermiamo sulla data di nascita? Errore di formato. Una variabile che rispetto al formato che mi aspetterei, ne presenta uno anomalo: numero di giorni vissuti da una certa data: è un problema di consistenza. Anno di nascita 1843: a parte che è un outliers (anomalo), c'è anche una discrasia di formati, il formato non è consistente: c'è un'incoerenza nel formato. Sono tutti con la "-" tra le date, mentre questo ha "/". Non è un problema di R che non

  • Come faccio a sapere se una variabile ha un problema di per sé o il problema deriva dal trasferimento dei dati al software? Chiedo a Erre un summary: vedo le variabili con la loro tipologia e la distribuzione.
  • Vediamo che DOB è una variabile quantitativa, invece qui la vediamo come carattere. Abbiamo visto anche su Excel che il problema non è ho un problema di import, ma il problema è di disallineamento del formato. Dovrebbe avere un formato quantitativo, quindi in generale o è stata codificata male ed è stata ressa un carattere, oppure sto facendo un errore nell'import (non è questo caso).
  • Dovrei vedere la distribuzione del formato. Andremo a modificare la variabile per renderla coerente: cosi come sono non posso.
  • identificare un range di valori che la variabile può assumere. Se avessi avuto i

    Dettagli
    Publisher
    A.A. 2023-2024
    81 pagine
    SSD Scienze economiche e statistiche SECS-S/01 Statistica

    I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher giadabertoldo di informazioni apprese con la frequenza delle lezioni di Statistica aziendale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Verona o del prof D'alberto Riccardo.