Estratto del documento

Introduzione

La statistica è la scienza che studia con metodi matematici i fenomeni collettivi, per consentire alle

organizzazioni di assumere decisioni in condizioni di incertezza (ovvero, di assenza di informazioni).

Elementi di indagine statistica

L’indagine statistica è il processo attraverso cui la statistica raccoglie ed elabora informazioni, producendo

conoscenza; in particolare, è composta dalle seguenti attività: definizione degli obiettivi; pianificazione

della raccolta dei dati; raccolta dei dati; elaborazione e analisi dei dati; presentazione dei dati analizzati;

sintesi dei dati per produrre conoscenza.

Popolazione (definizione)

Dico popolazione l’insieme di tutte le unità oggetto di studio, ed indico con la sua dimensione. Dico

parametro una caratteristica specifica della popolazione.

Campione (definizione)

Dico campione il sottoinsieme delle unità osservate nella popolazione, ed indico con la sua dimensione.

Dico statistica una caratteristica specifica del campione.

Indagine totale (definizione)

Dico indagine totale (o rilevazione censuaria) l’indagine statistica che raccoglie i dati dell’intera

popolazione oggetto di studio.

Indagine campionaria (definizione)

Dico indagine campionaria (o campionamento) l’indagine statistica che raccoglie i dati di un sottoinsieme

della popolazione oggetto di studio.

Dico campionamento casuale semplice l’indagine campionaria in cui ogni possibile campione di

dimensione assegnata ha la stessa probabilità di essere selezionato, e in cui ogni unità della popolazione

ha la stessa probabilità di essere scelta.

Statistica descrittiva

La statistica descrittiva comprende metodi grafici e numerici utilizzati per sintetizzare ed elaborare i dati

raccolti, in modo da trasformarli in informazioni.

Statistica inferenziale

La statistica inferenziale fornisce le basi per previsioni e stime che consentono di trasformare le

informazioni in conoscenza.

Inferenza statistica (definizione)

Dico inferenza statistica il processo attraverso cui, a partire da risultati campionari, si traggono conclusioni

circa una intera popolazione.

Statistica descrittiva

Come osservato, la statistica descrittiva è la branca della statistica che studia i criteri di rilevazione,

classificazione, sintesi e rappresentazione dei dati appresi dallo studio di una popolazione o di un

campione.

Variabile statistica

La statistica raccoglie i dati da una popolazione o da un campione, e li classifica in variabili; le variabili

statistiche sono classificate in diverse categorie.

Variabile statistica (definizione)

Dico variabile statistica la funzione che associa un elemento di un insieme omogeneo di unità statistiche,

dette dati, ad uno ed un solo elemento di un insieme omogeneo di qualità del fenomeno osservato, dette

caratteristiche o modalità della variabile.

Tipologie di variabili

Esistono due tipologie di variabili: le variabili categoriche, e quelle numeriche.

Variabile categorica (definizione)

Dico variabile categorica una variabile le cui modalità sono espresse in forma verbale.

Variabili numeriche

Dico variabile numerica una variabile le cui modalità sono espresse in forma di numero.

Variabile discreta (definizione)

Dico variabile discreta una variabile numerica tale per cui l’insieme delle modalità è un insieme

numerabile, ovvero tale da assumere solo valori determinati (anche infiniti), e avente origine da un

processo di conteggio.

Variabile continua (definizione)

Dico variabile continua una variabile numerica tale per cui l’insieme delle modalità è un insieme non

numerabile, ovvero tale da assumere qualunque valore reale in un intervallo, e avente origine da un

processo di misurazione.

Livelli di misurazione

Le variabili rilevate statisticamente possono inoltre essere distinte in qualitative o quantitative, in relazione

ai diversi significati attribuibili alla differenza fra coppie di modalità.

Variabili qualitative

Una variabile qualitativa è una variabile tale per cui non è possibile attribuire alcun significato logico alla

differenza fra una coppia di modalità, in quanto questa non è misurabile quantitativamente.

Dati nominali (definizione)

Dico dati nominali le variabili qualitative per cui non esiste alcun criterio di ordinamento delle modalità.

Dati ordinali (definizione)

Dico dati ordinali le variabili qualitative per cui esiste un criterio di ordinamento delle modalità.

Variabili quantitative

Una variabile quantitativa è una variabile tale per cui la differenza fra una coppia di modalità detiene un

significato logico, in quanto questa è misurabile quantitativamente.

Scala ad intervallo (definizione)

Dico scala ad intervallo la scala che indica l’ordine e la distanza dei dati da un’origine arbitraria misurata

con una determinata unità di misura.

In una scala ad intervallo, il rapporto tra due modalità non detiene alcun significato logico.

Scala di rapporto (definizione)

Dico scala di rapporto la scala che indica l’ordine e la distanza dei dati da un’origine assoluta, e per cui

dunque il rapporto tra due modalità assume un significato logico preciso.

Rappresentazione di dati

Frequenza dei dati

, … , , … ,

Sia la variabile statistica che associa i dati alle modalità .

Frequenza assoluta e relativa

Frequenza assoluta (definizione) −esima,

Dico frequenza assoluta (o numerosità) della modalità ed indico con , il numero di volte in cui

tale modalità compare nell’insieme di dati. − ( )

≔ #

∈ [, ] ∀ ∈ [1, ],

Poiché per definizione vale la seguente relazione fondamentale:

∑ =

=

Frequenza relativa (definizione)

−esima.

Sia la frequenza assoluta associata alla modalità Dico frequenza relativa per la modalità

−esima,

ed indico con , il valore:

∈ [, ] ∀ ∈ [1, ],

per cui vale che e vale la seguente relazione fondamentale:

∑ =

=

Distribuzione di frequenza

Distribuzione di frequenza (definizione) , … , , … ,

Dico distribuzione di frequenza per l’insieme di dati rispetto alle modalità la tabella che

1 1

associa ad ogni modalità la rispettiva frequenza (assoluta o relativa).

Modalità Frequenze assolute Modalità Frequenze relative

1

1 1 1

⋮ ⋮ ⋮ ⋮

Diagrammi di rappresentazione

Rappresentazione di variabili qualitative

Le variabili qualitative sono rappresentate attraverso diagrammi a barre, a torta o di Pareto.

Diagramma a barre

Il diagramma a barre è un diagramma che presenta le modalità della variabile qualitativa (sull’asse delle

ascisse) corrispettivamente alla frequenza assoluta/relativa di ogni modalità (sull’asse delle ordinate).

Se il diagramma a barre rappresenta dati ordinali, ha significato l’ordine in cui sono posizionate le barre.

Diagramma a torta

Il diagramma a torta è un diagramma che presenta la frequenza assoluta/relativa di ogni modalità della

variabile qualitativa attraverso un settore di cerchio ad essa proporzionale.

−esima

In particolare, l’angolo fra i raggi del settore della modalità ha valore:

= ∙ °

Diagramma di Pareto

Il diagramma di Pareto è un tipo particolare di diagramma a barre, in cui le modalità sono presentate in

ordine crescente di frequenza, e ogni barra è sovrastata da un punto, che indica la frequenza cumulata per

ogni categoria.

I punti sono spesso connessi per formare una linea spezzata. In particolare, la frequenza cumulata per la

−esima

modalità è calcolata come segue:

≔ ∑ ≔

=

=

Il diagramma di Pareto è particolarmente utile per l’individuazione delle categorie più rilevanti nelle

frequenze dei dati.

Grafico per serie storiche

Il grafico per serie storiche è un diagramma che rappresenta la variazione della frequenza assoluta/relativa

di una singola modalità (presentata sull’asse delle ordinate) al variare del tempo (mostrato sull’asse delle

ascisse).

Rappresentazione di variabili quantitative

Per la rappresentazione di variabili quantitative si adottano diagrammi differenti da quelli

precedentemente osservati, e che talvolta richiedono una riclassificazione della distribuzione di frequenza.

Distribuzione di frequenza per variabili quantitative

Come già osservato, la distribuzione di frequenza è la tabella che associa ad ogni modalità di una variabile

(in questo caso quantitativa) la relativa frequenza assoluta/relativa. La rappresentazione di variabili

discrete è analoga a quella di variabili categoriche, senonché in questo caso in entrambe le sezioni della

tabella si hanno valori numerici.

Nel caso di variabili continue (o discrete con molte modalità) è necessaria una riclassificazione dei dati per

classi di intervalli, cioè in intervalli di valori del tipo seguente:

[ , )

, ∈ { , … , }.

con Secondo questa riclassificazione, la distribuzione di frequenza viene ricostruita

calcolando il numero di osservazioni non per ogni modalità, ma per ogni classe.

Classe Frequenze assolute Classe Frequenze relative

[ , ) [ , )

1 1 1 1

⋮ ⋮ ⋮ ⋮

[ , ) [ , )

In particolare, è possibile costruire: ∈ ℕ

1. classi di intervalli di ampiezza costante. In questo caso, sia l’ampiezza dell’intervallo; tale

ampiezza è calcolata come segue:

( , … , ) − ⁡( , … , )

= ∈ [5,20]

dove il termine al numeratore è detto campo di variazione, mentre è il numero di classi.

∈ ℕ

Se secondo tale calcolo si ha , l’ampiezza deve essere approssimata al naturale più vicino.

2. classi di intervalli di frequenza costante.

Densità di frequenza (definizione)

, −esima ≔

[ )

Sia la classe intervallare per una generica variabile quantitativa continua, e siano

l’ampiezza dell’intervallo, la frequenza relativa.

−esima,

Dico densità di frequenza relativa alla classe ed indico con , il rapporto fra la frequenza relativa

di tale classe e l’ampiezza dell’intervallo corrispondente.

Diagramma di frequenza

Il diagramma di frequenza è il diagramma che presenta le modalità della variabile quantitativa discreta

(sull’asse delle ascisse) corrispettivamente alla loro frequenza assoluta/relativa (sull’asse delle ordinate).

Istogramma

L’istogramma è il diagramma che presenta le classi intervallari della variabile quantitativa continua

(sull’asse delle ascisse) corrispettivamente alla loro frequenza assoluta/densità di frequenza (sull’asse delle

ordinate).

Nell’istogramma, l’area di ogni rettangolo costruito è proporzionale alla frequenza rilevata per la classe

corrispondente.

In relazione alla riclassificazione per classi adottata, si possono ottenere:

1. istogrammi con classi di ampiezza costante. In questo caso, l’asse delle ordinate presenta

alternativamente la frequenza assoluta o la densità di frequenza.

2. istogrammi con classi di ampiezza diversa. In questo caso, l’asse delle ordinate presenta

obbligatoriamente la densità di frequenza.

L’istogramma può presentare, infine, due tipi diversi di distribuzione di frequenze (assolute, relative) o di

densità di frequenze. In particolare, si distinguono:

1. l’istogramma simmetrico, in cui i valori sono distribuiti in modo approssimativamente regolare

attorno alla classe centrale.

2. l’istogramma asimmetrico, in cui i valori sono distribuiti in prevalenza attorno alle classi iniziali

(asimmetria positiva) o alle classi finali (asimmetria negativa).

Funzione di ripartizione e ogiva

Funzione di ripartizione

, … , , … ,

Sia una variabile statistica che associ i dati alle modalità .

1 1

Funzione di ripartizione (definizione) ,

Dico funzione di ripartizione, o funzione cumulativa delle frequenze, della variabile per il valore ed

[,

: ℝ → ],

indico con la funzione che associa ad la frequenza relativa con cui si osservano dati il cui

.

valore è inferiore o uguale ad

− ({

() ≔ ∙ # (⋃ ∈ { , … , }| ≤ }) ) ≔ { ≤ }

=

Proprietà fondamentali

Si osservano le seguenti proprietà fondamentali:

1. La funzione di ripartizione assume valori differenti a seconda che si calcoli per intervalli chiusi o

aperti di valori, a meno che la frequenza relativa per quei valori sia nulla:

{ < } ≠ { ≤ } >

se

< .

2. Sia Vale allora: { < ≤ } = () − ()

Forma analitica (per variabili discrete e ordinali)

< ⋯ < .

Sia una variabile discreta, o una variabile qualitativa ordinale, e siano le modalità di La

funzione di ripartizione di presenta allora la seguente forma analitica:

<

∈ [ , )

() = { +

[ , ),

ovvero, è una funzione costante negli intervalli e presenta un punto di discontinuità a salto in

+

∀ ∈ [1, ] ∩ ℕ.

Ogiva

, … , ,

[ )

Sia una variabile statistica continua, con i dati , e siano le classi dei valori assunti da

1

∈ [1, − 1] ∩ ℕ ∈ [2, ] ∩ ℕ, < .

per e e con

Ogiva (definizione) , : ℝ → [, ],

Dico ogiva, o curva delle frequenze cumulate, della variabile per il valore e indico con la

funzione definita analiticamente come segue: <

=

() = ∈ ( , )

{ ≥

per cui il grafico è una spezzata non decrescente.

Un metodo alternativo per il calcolo dell’ogiva prevede l’adozione dell’istogramma, e dunque il calcolo

[ , ).

delle densità di frequenza per ogni intervallo In tal caso, vale che:

<

+ ∙ ( − ) ≤ <

() = {

Proprietà fondamentali

: ℝ → [0,1]

Sia l’ogiva di una variabile quantitativa continua qualsiasi. Si osservano le seguenti proprietà

fondamentali:

1. L’ogiva per un singolo valore è nulla.

() = ∀ ∈ ℝ

< .

2. Sia Vale allora:

{ < < } = { ≤ ≤ } = () − ()

Rappresentazione di più variabili

Le seguenti sono le differenti tipologie di diagrammi con cui è possibile rappresentare un insieme di dati

riferiti a più di una sola variabile statistica.

Diagramma di dispersione

Il diagramma di dispersione è il diagramma in cui i dati statistici rilevati rispetto a due variabili sono

rappresentati come punti di un piano cartesiano, per cui i valori delle due variabili sono presentati

rispettivamente sull’asse delle ascisse e delle ordinate.

Il diagramma di dispersione presenta non solo i possibili valori di ogni variabile, ma anche la distribuzione

dei dati all’interno dei possibili valori, e consente in questo modo di esaminare:

1. l’eventuale relazione tra le due variabili statistiche.

2. la presenza di eventuali valori anomali, cioè che differiscono significativamente dagli altri valori

rilevati.

Il diagramma di dispersione non consente tuttavia di osservare la frequenza con cui si osservano valori

uguali per le due variabili.

Tabella a doppia entrata

, , … , , … ,

Siano due variabili statistiche qualsiasi, con modalità e rispettivamente. La

∈ (, ) { },

tabella a doppia entrata è la matrice dei valori detti frequenze congiunte (assolute o

relative), definiti come segue: ≔ { = ; = }

[1,

∀ ∈ ], ∈ [1, ],

dove è la frequenza assoluta/relativa.

Frequenze marginali (definizione)

In una tabella a doppia entrata, sono dette frequenze marginali assolute/relative (di riga/di colonna) le

, … , , … ,

frequenze assolute/relative totali e definite come segue:

Anteprima
Vedrai una selezione di 14 pagine su 63
Appunti di Statistica Pag. 1 Appunti di Statistica Pag. 2
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 6
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 11
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 16
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 21
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 26
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 31
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 36
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 41
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 46
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 51
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 56
Anteprima di 14 pagg. su 63.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 61
1 su 63
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher mrtambourine91 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pavia o del prof Tarantola Claudia.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community