vuoi
o PayPal
tutte le volte che vuoi
PRESENTAZIONE DEI DATI
Da un punto di vista formale la distinzione tra i vari tipi variabili obbliga l'operatore non solo ad un uso ragionato delle metodologie, ma anche ad utilizzare una terminologia appropriata in funzione dei dati di cui dispone.
Per questo motivo si definiscono serie statistiche "le successioni delle intensità o delle frequenze corrispondenti alle modalità di un carattere qualitativo".
Analoga è la definizione della seriazione, con la differenza che quest'ultima si riferisce a caratteri quantitativi.
Nella pratica, a volte, possono sorgere dei dubbi nello stabilire se ci si trova di fronte ad una serie o ad una seriazione, e questo perché i concetti di "qualità" e "quantità", essendo intuitivi, non sempre sono di facile determinazione.
Pertanto, per superare i casi di incertezza occorre fare molta attenzione alla natura del fenomeno in esame.
Le serie statistiche sono in
genere successioni di dati ordinati all'interno di una tabella secondo un certo criterio in cui ad ogni modalità viene associata la frequenza con cui questa si presenta nel gruppo di soggetti sui quali è stata effettuata la rilevazione. Per quanto riguarda, invece, le seriazioni, bisogna notare che gli elementi di ordinamento quantitativo delle tavole sono costituiti dai valori della variabile e dalle frequenze (cioè dal numero delle volte che l'intensità quantitativa si presenta). La differenza tra il numero più grande e quello più piccolo di una seriazione si chiama campo di variazione o range. Quest'ultimo può essere diviso in un certo numero di classi di ampiezza diversa. La conta del numero di dati che cadono all'interno di ciascuna classe, costituisce la frequenza. Aspetti della frequenza: - Frequenza assoluta: N. intero che rappresenta il numero di unità statistiche sulle quali è stata osservata la medesimamodalità (numero di osservazioni appartenenti a ciascuna classe). la somma delle frequenze assolute dei valori di uno stesso carattere equivale al numero totale degli individui del campione. - Frequenza relativa: Rapporto tra la frequenza assoluta e il numero totale delle osservazioni - Frequenza percentuale: Frequenza relativa moltiplicata per 100. - Frequenza cumulata (assoluta, relativa, percentuale): Somme di tutte le frequenze che si susseguono via via dalla prima all'ultima classe. Per tutti quanti i tipi di variabili, l'elaborazione più immediata per organizzare i dati in un set omogeneo ed efficace di informazioni è costituita dalla distribuzione di frequenza, ovvero da una rappresentazione tabellare nella quale vengono illustrate le modalità con cui si presenta la variabile e le corrispondenti intensità. È una delle rappresentazioni statistiche fondamentali. Si costruisce raggruppando in classi le n unità statistiche secondo le k.modalità del carattere osservato. In pratica:- si individuano i numeri maggiore e minore tra i dati grezzi tra i quali è contenuto il campo di variazione (range);
- si divide il campo di variazione per un numero opportuno di classi;
- si contano il numero di dati che cadono all'interno di ciascuna classe (frequenza assoluta).
Per classe intendiamo gli intervalli in cui è suddivisa una variabile in una tavola di frequenza. La scelta dell'ampiezza e del numero di classi è generalmente arbitraria e dipende dalla natura dei dati e dagli scopi dell'indagine. In genere bisogna rispettare determinati criteri:
- Il numero di classi deve essere equilibrato (circa la radice quadrata del numero di osservazioni).
- Le classi devono avere la stessa ampiezza.
- Le classi devono in genere essere limitate in un intervallo caratterizzato da un limite superiore e inferiore.
- Si devono il più possibile evitare classi aperte. L'ampiezza delle classi o modulo (differenza tra
Le tabelle sono utilizzate in statistica per rappresentare e analizzare le relazioni tra due o più variabili. In esse si riportano le frequenze congiunte delle variabili.
Le distribuzioni di frequenza ed i grafici hanno lo scopo rispettivamente di organizzare i dati e visualizzarne l'andamento.
Gli indicatori di tendenza centrale, assolvono il compito di sintetizzare le informazioni provenienti da essi, riassumendo in pochi valori gli aspetti rappresentativi del gruppo di osservazioni.
In questi casi sintetizziamo le informazioni relative al gruppo, interpretandole attraverso un valore che è rappresentativo di tutte quante.
La loro scelta è nuovamente condizionata sia dal tipo di variabile su cui eseguire l'elaborazione (qualitativa/quantitativa), che dalla sua distribuzione all'interno del campo di variazione.
- Moda
cifre in due parti uguali. Occorrono, però, due differenti formula applicative, da adottare in relazione alla numerosità dei dati.
Se n (numero di cifre) è dispari la mediana è rappresentata dal termine centrale della successione, individuato dalla formula (n+1)/2.
Se invece n è pari allora non possiamo determinare un valore centrale unico, ma piuttosto una coppia di valori mediani. Nella pratica è consuetudine accettare come mediana la semisomma dei termini della successione che occupano i posti n/2 e (n/2)+1.
Se, per esempio, uno studente ha sostenuto sette esami, riportando una serie di voti pari a 23, 24, 26, 25, 24, 27, 28, la mediana viene calcolata ordinando innanzi tutto i dati, per ottenere la successione: 23, 24, 24, 25, 26, 27, 28.
Siccome n è dispari il voto mediano sarà quello che occupa il (n+1)/2=4° posto, corrispondente al voto 25. Se invece lo stesso studente avesse sostenuto dieci esami, riportando voti pari a 23, 24, 26, 25,
24, 27, 28, 27, 28, 26, la successione ordinata diverebbe: 23, 24, 24, 25, 26, 26, 27, 27, 28, 28 in cui, essendo n pari, la mediana risulterà dalla semisomma dei termini che occupano il 5° ed il 6° posto, cioè Me=26.3. Media aritmetica Il valore di tendenza centrale più utilizzato è certamente la media aritmetica (il cui simbolo è m). La media aritmetica è data dalla somma delle misure osservate diviso il numero delle osservazioni fatte (tot. dei casi). È possibile effettuare la media per dati raggruppati in classi... si moltiplica la frequenza di ogni classe per il valore definito dal punto medio di classe, prima di fare la somma e dividere per il numero dei casi. Media ponderata: Per calcolare la media ponderata (o media pesata), tra più numeri è necessario conoscere il loro peso. A differenza della media aritmetica, nella media ponderata, ciascun numero ha una determinata importanza (peso) che influisce sul calcolo. Il valoredella media ponderata è dato dalla somma dei prodotti di ciascun numero per il rispettivo peso, fratto la somma dei pesi. es. ipotizzando che uno studente abbia sostenuto tre esami, il primo da 5 cfu con voto 28, il secondo da 7 cfu con voto 30 e il terzo da 10 cfu con voto 27, la media ponderata si calcola come segue: (28•5 + 30•7 + 27•10)/(5+7+10) = (140+210+270)/22 = 620/22 = 28,18 La scelta della misura di tendenza centrale da utilizzare, oltre che dipendere dalle proprietà dei dati, deve essere valutata principalmente in relazione al tipo delle variabili. Mentre su una grandezza di tipo quantitativo (sia continuo che discreto) possono essere utilizzati tutti gli strumenti analitici, per dati qualitativi ha poco senso calcolare, per esempio, una media o una mediana. Volendo ampliare il concetto di