Estratto del documento

Statistica - Cap.1

Definizione di statistica

La statistica deriva da 'stato' nel senso di 'ciò che è o modo di vivere' o di 'paese principato regno'. Dal latino 'statera' = bilancia. Dal tedesco 'stadt' = città. La statistica è un ramo della matematica che tratta l'analisi e l'interpretazione di grandi quantità di dati.

Storia della statistica

Dall'antichità, l'uomo ha avvertito la necessità di attuare rilevazioni e semplici elaborazioni statistiche, con la finalità di reperire dati ed elementi per consentire il miglior governo della cosa pubblica. In Egitto, già dal 3000 a.C., si realizzavano censimenti della popolazione per motivi fiscali, militari e per conoscere la consistenza della manodopera. Anche nell'antica Roma, venivano effettuati censimenti, che servivano anche per determinare le tasse che ogni cittadino doveva corrispondere.

In tempi più moderni, con i registri parrocchiali, in quanto il Concilio di Trento (1565) rese obbligatoria la compilazione di registri parrocchiali per i battesimi, i matrimoni e le morti. La statistica si sviluppò poi con il calcolo delle probabilità Blaise Pascal e Pierre de Fermat, scienziati francesi del Seicento.

Fenomeno statistico

Un fenomeno statistico o variabile statistica è l'oggetto dell'indagine; è una caratteristica di ogni unità statistica appartenente alla popolazione. Un fenomeno statistico è caratterizzato dall'attitudine a variare, cioè ad assumere diversi valori (es. numero di esami superati; statura; peso; concentrazione di inquinante).

Popolazione

La popolazione o universo di riferimento è l'insieme di individui o oggetti che si vogliono studiare. Questi individui o oggetti vengono denominati unità statistiche. Non necessariamente è costituita da individui fisici (es. studenti al I anno STAL; elettorato italiano; buste di patatine prodotte da una macchina in un determinato periodo; i giorni dell'anno in cui viene misurata la concentrazione di un inquinante in una certa città). Un censimento è lo studio effettuato su un'intera popolazione.

Campione

Un campione è una parte, una fetta della popolazione. Il campione viene selezionato per problemi di tempo, di costo e di impossibilità. L'errore di campionamento è la differenza tra una caratteristica misurata sull'intera popolazione e una caratteristica misurata e la stessa riscontrata da un campione estratto da quella popolazione. Il grado di variabilità è una misura di come gli elementi della popolazione differiscono gli uni dagli altri in riferimento alla variabile sotto studio.

Parametro e statistica

Un parametro è un valore numerico che descrive una caratteristica della popolazione. Una statistica è un valore numerico che descrive una caratteristica di un campione.

Fattori che influenzano la dimensione di un campione

La variabilità della popolazione, l'errore che si è disposti a tollerare, le risorse disponibili in termini di tempo e denaro e la dimensione N della popolazione (la dimensione della popolazione è il numero delle unità statistiche della popolazione, simbolo è N. La dimensione del campione si indica con n).

Selezione di un campione

Il campione deve essere una versione in miniatura della popolazione. Un campione distorto non è rappresentativo della popolazione. Un campione casuale semplice è un campione scelto in modo tale che tutti i membri della popolazione abbiano pari opportunità di essere scelti per far parte del campione. Un campione casuale semplice può essere estratto con o senza reimmisione. Per esempio nel gioco del lotto vengono estratte 5 palline senza reimmisione; in ognuna delle 5 estrazioni ciascuna pallina ha la stessa probabilità di essere estratta; si tratta quindi di un campione casuale semplice di dimensione n=5 estratto da una popolazione N=90.

Indagine statistica

L'indagine statistica può essere effettuata sull'intera popolazione (censimento) o su un campione della popolazione statistica (indagine campionaria). La branca della statistica che si occupa dei censimenti è la statistica descrittiva che descrive il fenomeno sull'intera popolazione; quella che studia un campione è l'inferenza statistica che si occupa di trarre indicazioni dal campione che siano valide per la popolazione.

Tipi di dati

Il tipo di analisi statistica dipende dal tipo di dati raccolti, è importante identificare i dati prima di analizzarli. Ne esistono di due tipi principali: quantitativi e qualitativi.

  • Dati qualitativi descrivono una qualità, ovvero un valore non intrinsecamente numerico. Tali valori vengono solitamente detti categorie o modalità. I dati che assumono valori che non posseggono alcun ordine naturale, sono chiamati dati nominali (es. sesso: m/f; stato civile: celibe/nubile, sposato/a, divorziato/a, vedovo/a; colore occhi: blu, verdi, marroni, grigi). I dati per i quali l'ordine di assegnazione delle categorie ha un significato sono chiamati dati ordinali (es. livello di gradimento; livello di accordo; frequenza).
  • Dati quantitativi sono intrinsecamente numerici. I dati discreti sono quelli che si rilevano mediante conteggio (0,1,2,...) (es. numero pezzi difettosi; n. fratelli; esami sostenuti in una sessione). I dati continui sono il risultato di misurazioni e possono assumere ogni valore in un intervallo di numeri reali con un'unità di misura (es. statura; peso; concentrazione di polveri sottili).

Strumenti della statistica descrittiva

Gli strumenti della statistica descrittiva permettono di descrivere un campione o una popolazione sintetizzando i dati. La statistica descrittiva consente di descrivere un campione ma ciò che ci interessa è l'intera popolazione. Gli strumenti descrittivi numerici permettono di sintetizzare i dati numericamente (statistiche quali: media, mediana, moda, ecc.). Gli strumenti grafici aiutano a capire come i dati si comportano. Hanno la funzione di riassumere i dati visivamente.

Tecniche della statistica inferenziale

Le tecniche della statistica inferenziale ci permettono di trarre inferenze o conclusioni sulla popolazione a partire dal campione. Una inferenza è una deduzione o una conclusione. La teoria della probabilità è usata per calcolare la 'verosimiglianza' di osservare o selezionare un particolare campione dalla popolazione. Occorre quindi trarre conclusioni sulla popolazione basandosi su un campione osservato e sulla teoria delle probabilità.

Il simbolo sigma è una notazione sintetica, è il simbolo di sommatoria, utilizzata per scrivere formule statistiche. Deriva dalla lettera maiuscola dell'alfabeto greco Σ.

Statistica - Cap.2

Dati grezzi e tabella di frequenza

Quando i dati sono stati raccolti, il risultato iniziale è di solito una lista di quanto osservato su ogni unità statistica e per ogni variabile, i dati così organizzati sono detti dati grezzi. Per riassumere i dati grezzi di un campione bisogna costruire una tabella: la tabella di frequenza o di distribuzione della frequenza. La tabella registra ogni categoria, valore, o classe di valori che una variabile può assumere e il corrispondente numero di volte con cui essa ricorre nei dati, detto frequenza assoluta.

La frequenza della i-ma categoria è indicata con fi. Una tabella di frequenza semplice è costituita da due colonne: nella prima colonna ogni riga riporta uno dei valori della variabile di interesse; nella seconda colonna, ogni riga riporta il corrispondente numero di volte che tale valore ricorre nel campione.

Costruzione della tabella di frequenza

Una tabella di frequenza può essere costruita a partire da dati quantitativi, qualitativi o da dati quantitativi discreti; in questo caso è necessario ordinare i numeri in ordine crescente. Le classi con frequenza pari a zero possono spesso essere eliminate dalla tabella stessa. Si possono sviluppare tabelle di frequenza anche partendo da dati quantitativi continui: in questo caso non si può utilizzare un valore per ogni categoria, non è una tecnica efficace. Se siamo in presenza di variabili continue dobbiamo quindi definire le classi di valori. Per quanto riguarda il numero di classi, per ragioni di leggibilità, queste non devono essere meno di 5 e non più di 20. Per quanto riguarda la dimensione/ampiezza della classe questa viene elaborata nel seguente modo: (minimo - massimo).

Le classi devono quindi comprendere tutti i valori dell'insieme dei dati senza sovrapporsi. Una volta create le classi bisogna riportare le frequenze dei dati in esse contenute, le dimensioni delle classi possono essere modificate in modo da avere una più facile lettura delle tabelle.

Frequenza relativa e frequenza relativa cumulata

La frequenza relativa è il rapporto tra la frequenza assoluta fi e il numero totale delle osservazioni (dimensione del campione) n. La frequenza relativa può essere espressa come una frazione, un numero decimale o una percentuale. La somma di tutte le frequenze relative è uguale a 1. Essa può anche essere espressa in percentuale moltiplicando il valore trovato per 100.

La frequenza relativa cumulata di una classe è la somma delle frequenze relative di quella classe e di tutte le classi precedenti. La frequenza relativa cumulata di una classe indica la frazione (o percentuale) di unità nel campione che presentano una classe uguale o più piccola di quella in esame. La frequenza relativa cumulata si può calcolare per variabili almeno ordinali (quindi non per variabili qualitative nominali).

Rappresentazione grafica della distribuzione di frequenza

La distribuzione di frequenza organizza e sintetizza i dati ma non dà un buon impatto visivo; per rendere immediato il passaggio utilizziamo la rappresentazione grafica della distribuzione di frequenza.

  • Per dati qualitativi nominali utilizziamo aerogrammi (detti anche grafici a torta) o diagrammi a barre nei quali l'altezza delle barre rappresenta la frequenza assoluta o relativa.
  • Per dati qualitativi ordinali si utilizzano diagrammi a barre nei quali l'altezza delle barre rappresenta la frequenza assoluta o relativa.
  • Per dati qualitativi discreti si utilizzano istogrammi i quali sono simili a un diagramma a barre ma la scala di misura dell'asse delle ascisse deve tener conto che i dati sono intrinsecamente ordinati, le barre degli istogrammi devono essere le une attaccate alle altre.
  • Per dati quantitativi discreti si utilizzano diagrammi ad aste o bastoncini, questo approccio grafico è da preferire perché dà meglio l'idea della natura discreta dei dati.
  • Per dati quantitativi continui si utilizza un istogramma dove ogni rettangolo rappresenta una classe e la base è l'intervallo della classe mentre l'altezza è la frequenza corrispondente. Se le classi hanno ampiezza diversa, non è più corretto rappresentarle con rettangoli di altezza uguale alla frequenza! Invece, ogni rettangolo dovrebbe avere un'area pari alla frequenza corrispondente a quella classe. Introduco una nuova quantità: la densità di frequenza.

Tendenza centrale, variabilità e forma

Riepilogando:

  • La tendenza centrale o posizione di un insieme di dati indica dove, numericamente, i dati sono posizionati o concentrati.
  • La variabilità di un insieme di dati descrive quanto dispersi sono i dati intorno ai valori della tendenza centrale.
  • La forma di un insieme di dati descrive come i dati si distribuiscono intorno ai valori centrali; casi di simmetria o asimmetria validi per variabili almeno ordinali. Una volta rappresentato un istogramma si può tracciare una curva che rappresenta la distribuzione dei dati, la tendenza centrale è la posizione della classe con frequenza più alta; se la curva presenta un solo picco si dice unimodale, se ha due picchi allora è detta bimodale.

Quando le osservazioni equidistanti da un valore centrale presentano la stessa frequenza relativa, la distribuzione è simmetrica, la sua rappresentazione grafica (diagramma a barre, a bastoncini o istogramma) presenta simmetria rispetto a un asse verticale. Quando non succede quanto sopra, la distribuzione è asimmetrica. Si parla di asimmetria negativa quando l'estremità della curva è più lunga a sinistra e di asimmetria positiva quando la coda destra è più lunga.

Statistica - Cap.3

Statistica e parametro

Una statistica è un descrittore numerico calcolato dai dati campionari ed è usato per descrivere il campione. Le statistiche, di norma, si rappresentano con lettere romane. Un parametro è un descrittore numerico usato per descrivere la popolazione. I parametri, di norma, si rappresentano con lettere greche.

Tabelle di frequenza e indici di posizione

Le tabelle di frequenza organizzano i valori osservati di una variabile su un campione/una popolazione. Gli indici di posizione li riassumono con un solo numero/valore. Le principali misure di tendenza centrale sono:

  • La moda può essere calcolata per tutte le variabili. Per le variabili qualitative o quantitative discrete è la categoria con frequenza più alta del campione. La classe modale per variabili quantitative continue raggruppate in classi è la classe che presenta la densità più alta. È possibile che un campione presenti più di una moda, spesso nei campioni piccoli; se esistono 2 mode si parla di campione bimodale, 3 o più mode campione plurimodale. Se la variabile presenta categorie o valori con frequenze tutte uguali o pari a 1, non c'è una moda. (Attenzione quando viene chiesta la moda non va riportato il valore della frequenza, ma il nome/valore/intervallo della classe!).
  • La mediana si può calcolare per variabili almeno ordinabili. Essa è la categoria o il valore dell'osservazione centrale di una distribuzione ordinata di dati (ordinati in ordine crescente), è quindi il valore dell'osservazione al centro dei dati. Se n è pari, è calcolata come semi-somma dei valori in posizione n/2 e (n/2)+1. Se n è dispari, è rappresentata dal valore in posizione (n+1)/2. Se si dispone di una distribuzione di frequenza, allora la mediana è rappresentata dalla classe/valore che per prima presenta una frequenza relativa cumulata maggiore di 0,5 (50%). Se trovo una categoria o valore con frequenza relativa cumulata uguale a 0,5 (50%), occorre fare la semisomma di quel valore e del successivo (se la variabile è quantitativa).
Anteprima
Vedrai una selezione di 6 pagine su 21
Statistica, prof. A. Vernizzi Pag. 1 Statistica, prof. A. Vernizzi Pag. 2
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Statistica, prof. A. Vernizzi Pag. 6
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Statistica, prof. A. Vernizzi Pag. 11
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Statistica, prof. A. Vernizzi Pag. 16
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Statistica, prof. A. Vernizzi Pag. 21
1 su 21
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher leonardo.cerana di informazioni apprese con la frequenza delle lezioni di Economia e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano o del prof Vernizzi Achille.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community