Anteprima
Vedrai una selezione di 1 pagina su 4
Distribuzioni statistiche Pag. 1
1 su 4
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Organizzazione dei dati e frequenze

Tale organizzazione dei dati è essenziale per presentare i dati e per individuare le caratteristiche principali del fenomeno da studiare, spesso si usano le frequenze relative: frequenza modalità xi/numero totale unità. Le frequenze relative sono dei particolari rapporti di composizione ed hanno il pregio di consentire una valutazione rapida del peso della singola modalità nell'ambito della distribuzione di frequenze: f1+f2+fk=1. Nella frequenza percentuale avremo pi=fi*100 ed anche in questi casi posso fare le tabelle di distribuzione delle frequenze. Le distribuzioni di frequenze di un carattere qualitativo sconnesso vengono chiamate serie sconnesse (o rettilinee nell'altro caso), in genere tali distribuzioni di frequenze sono chiamate seriazioni. Se le modalità sono ordinabili si definiscono le frequenze cumulate, cioè la somma delle frequenze sino alla modalità considerata; possono essere assolute (Ni= n1+n2+ni) e relative (Fi=f1+f2+fi).

possono essere sempre calcolate ma hanno senso solo se le modalità sono ordinabili. Raggruppamento in classi: quando il carattere è quantitativo e il numero di osservazioni è elevato, la presentazione dei dati richiede necessariamente che le modalità contigue siano aggregate tramite la formazione di classi, cioè intervalli numerici disgiunti comprendenti più modalità. Per ciascuna unità si procede alla lettura del valore assunto da X e alla assegnazione, tramite una piccola linea verticale, dell'unità a una delle classi. Al termine dell'operazione di spoglio, vi è il conteggio dei casi appartenenti a ciascuna classe e si costruisce la distribuzione di frequenze associando alla singola classe la frequenza pertinente. Come abbiamo già visto in precedenza l'intervallo di tolleranza riveste un ruolo importante, ad esempio in 47 vi sarà (46,5; 47,5) e si arriva alle classi reali. Gli estremi delle

classi reali presentano una cifra decimale in più rispetto ai dati oggettodi classificazione, non sussiste la possibilità che un dato coincida con un estremo diclasse. Si deroga a questo criterio quando il carattere è una durata espressa in anni,età, come detto nel capitolo1. Quando gli estremi di classe sono numeri chepresentano la stessa precisione delle osservazioni da classificare è necessario stabilirela chiusura delle classi. Una classe è chiusa a destra se include le unità chepresentano modalità esattamente uguali all'estremo destro della classe (uguale per ilsinistro). La doppia chiusura ha senso per la prima eultima classe. Il simbolo per la chiusura è o -- a--seconda della chiusura a sinistra o destra. Per quantoconcerne le frequenze useremo i simboli n1, n2, nk perdesignare il numero di unità che appartengono alla prime,seconda e… ultima classe. Si chiama distribuzione difrequenze di un

utilizzando il tag

per i paragrafi e il tag per evidenziare il testo in grassetto, il testo formattato sarebbe il seguente:

carattere X suddiviso in classi lo schema con cui si associa a ciascuna classe la rispettiva frequenza. Con tale raggruppamento si ha una perdita di info e precisione ma è necessario per snellire e sintetizzare modalità di carattere numerose. Se non si dispone dei dati elementari non siamo in grado di assegnare un valore al numeratore della formula. Possiamo chiederci il numero e ampiezza delle classi e se devono avere la stessa ampiezza. Gli intervalli devono essere compresi tra 5 e 15 e devono avere un'ampiezza tale da perdere il minor numero di info possibili. Considerando che il numero delle classi è in proporzione inversa alla loro ampiezza, il criterio indicato indurrebbe a formare un numero elevato di piccoli intervalli ma in questo modo la tabella sarebbe molto lunga e perderebbe di efficacia. Nonostante, classi della stessa ampiezza consentono una più agevole comprensione della distribuzione, è consigliabile fare delle classi di lunghezza variabile,

più piccole dove le info sonoaddensate e più grande dove sono disperse. In alcune situazione è più convenienteche la prima e la ultima classe non siano delimitate a destra e sinistra perché la classepiù bassa e alta in cui è definito il carattere le osservazioni sono molto dense odisperse. Per concludere, parliamo dei valore centrale e della densità di frequenza: ilvalore centrale è pari alla media degli entrami della classe diviso due; mentre ladensità di frequenza è uguale al rapporto tra la frequenza della classe e l’ampiezza diquest’ultima.

Tabella a doppia entrata: si usa una tabella a doppia entrata con la variabile X sullerighe e Y sulle colonne. I valori dentro la tabella sono le frequenze contigue (unità cheha una modalità X e Y) e calcolando i totali in riga e colonna troviamo le frequenzesemplici. Considero una matrice come quella raffigurata e calcolo la distribuzioneaggregata,

essa sarà (M,2), (M,4) cioè, prima unità statistica è un maschio con livello di istruzione media. Posso calcolare pure la distribuzione doppia di frequenza che sarà parialla tabella due. Se adesso prendo X= figli e Y=condizione lavorativa ottengo:

587: pari al totale delle persone intervistate;

2.6 è x:100=15:587;

11.2 è x:100=15:134;

21.1 è x:100=15:71

Errori di misura: spesso può accadere che all’interno delle matrici ci siano dei problemi, alcuni facilmente individuabili e altri meno. Nell’esempio si vede una persona che ha 160 anni, una persona che a 17 ha già la laurea e dei dati mancanti. Esistono vari tipi di errori:

1. Errori di arrotondamento: dovuti all’arrotondamento che si effettua dopo aver fatto delle misurazioni. Spesso non è lo strumento che fa l’errore ma siamo noi tramite approssimazioni grossolane o sbagliate. Non tutti sanno il loro peso e quindi le persone o tendono a

1. Errori di arrotondamento: spesso quando si riportano i dati numerici, si tende a arrotondare per difetto o per eccesso. Ad esempio, se un dato è 5.6, potrebbe essere riportato come 5 o come 6, a seconda della convenzione utilizzata. Questo può portare a informazioni errate o fuorvianti.

2. Errori di inserimento: spesso quando si scrivono i dati si possono invertire i numeri. Ad esempio, se al posto di 5 si scrive 55, la cosa cambia molto, di circa 50 anni!

3. Dichiarazioni non veritiere: le persone tendono a rispondere in maniera errata, soprattutto su:

  • Reddito: spesso viene dichiarato un reddito inferiore a quello reale;
Dettagli
Publisher
A.A. 2021-2022
4 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cocco0 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Grilli Leonardo.