Capitolo 1
La popolazione è l'insieme completo di tutte le unità oggetto di studio. La dimensione della popolazione, N, può essere molto grande o addirittura infinita. Il campione è il sottoinsieme delle unità osservate nella popolazione e la sua dimensione viene indicata con n.
L'obiettivo è quello di giungere a delle affermazioni, basate sui dati campionari, che abbiano una certa attendibilità anche sull'intera popolazione: è quindi necessario un campione rappresentativo della stessa popolazione. Questo si può ottenere applicando il principio della casualità.
Il campionamento casuale semplice è il procedimento usato per selezionare un campione di n oggetti da una popolazione, in modo tale che ciascuna unità della popolazione sia scelta rigorosamente a caso e abbia la stessa opportunità di essere scelta. Il campione ottenuto con questo metodo è noto come campione casuale.
Il parametro è una caratteristica specifica della popolazione. La statistica è una caratteristica specifica del campione.
La statistica descrittiva comprende metodi grafici e numerici che sono usati per sintetizzare ed elaborare i dati in modo da trasformarli in informazioni. La statistica inferenziale fornisce le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza.
Capitolo 2
Le variabili numeriche comprendono sia le variabili discrete sia quelle continue. Una variabile numerica discreta può avere un numero finito di valori; il tipo più comune di variabile discreta che incontreremo genera delle risposte che provengono da un processo di conteggio (es: numero di studenti).
Una variabile numerica continua può assumere un qualunque valore all'interno di un determinato intervallo di numeri reali e, di solito, è originata da un processo di misurazione (es: altezza).
Può essere fatta poi una distinzione tra variabili qualitative e quantitative e, ancora, all'interno delle ultime, tra nominali e ordinali.
Per rappresentare graficamente le variabili si può ricorrere alle distribuzioni di frequenza. Una distribuzione di frequenza è una tabella per organizzare i dati. La colonna di sinistra (che contiene le modalità o classi di misura) comprende tutte le possibili risposte relative alla variabile oggetto di studio, la colonna di destra contiene l'elenco delle frequenze (numero di osservazioni) per ogni classe.
Capitolo 3
Le misure di tendenza centrale sono in genere calcolate a partire da dati campionari invece che dalla popolazione. La media aritmetica di un insieme di dati è la somma dei valori di tutte le osservazioni divisa per il numero di osservazioni.
Se i dati si riferiscono all'intera popolazione, la media della popolazione, µ, è un parametro dato da:
N∑ xii=1µ= N x́
Se i dati provengono da un campione, allora la media campionaria, , è una statistica data da:
n∑ x́ i=1µ= n
Per individuare la mediana occorre anzitutto ordinare i dati in modo non decrescente o in modo non crescente. La mediana è l'osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente (o non crescente). Se n, la dimensione del campione, è un numero dispari, la mediana è l'osservazione centrale; se n è un numero pari, la mediana si ottiene dalla media delle due osservazioni centrali. Più in generale, si potrebbe dire che la mediana si trova nella posizione 0,5 (n +1) della sequenza ordinata.
Dato un insieme di osservazioni (numeriche o categoriche), la moda, se esiste, è la modalità che si presenta il maggior numero di volte.
Una misura di tendenza centrale, da sola, non fornisce una descrizione completa o sufficiente dei dati. Sono infatti necessarie altre misure di sintesi per valutare la variabilità e la dispersione delle osservazioni rispetto alla media. Tra queste troviamo: il campo di variazione, la differenza interquartile, la varianza, lo scarto quadratico medio e il coefficiente di variazione.
Il campo di variazione (o range) è la differenza tra il massimo e il minimo dei valori osservati. Poiché il campo di variazione prende in considerazione solo il massimo e il minimo, sebbene misuri la variabilità totale dei dati, non è una misura soddisfacente di dispersione, perché è influenzato dagli outlier.
La differenza interquartile misura la variabilità del 50% centrale dei dati: in una sequenza di osservazioni ordinate in modo non decrescente è la differenza tra l'osservazione Q e Q:
3 1differenza interquartile=Q -Q3 1
Si noti che i quartili, come i percentili, sono delle misure di tendenza non centrale e, come la mediana, si ottengono a partire dalle frequenze cumulate delle osservazioni. In particolare, il primo quartile si trova nella posizione 0.25 (n + 1) della sequenza di osservazioni ordinata in modo non decrescente, mentre il terzo quartile si trova nella posizione 0.75 (n + 1) della sequenza ordinata. Entrambe le posizioni devono essere arrotondate all'intero più vicino e, se la popolazione ottenuta si trova esattamente a metà tra altre due, la misura cercata si ottiene dalla media dei valori nelle due posizioni.
È possibile rappresentare una sintesi grafica, data dal diagramma a scatola e baffi, utilizzando i cinque numeri di sintesi. Questi si riferiscono a cinque misure descrittive: il minimo, il primo quartile, la mediana, il terzo quartile, il massimo.
Il campo di variazione e la differenza interquartile sono basati su due soli tra i dati disponibili. Occorre una misura che tenga conto del valore di ciascuna osservazione e poi consideri la media delle distanze tra ciascuna osservazione e la media delle osservazioni. Questa distanza, però, sarebbe negativa per i valori più piccoli della media. Se ognuna di queste differenze fosse elevata al quadrato, allora ciascuna osservazione contribuirebbe alla somma dei quadrati. La media dei quadrati delle differenze si chiama varianza.
La varianza della popolazione, σ2, è la somma delle differenze, al quadrato, tra ciascuna osservazione e la media della popolazione, divisa per la dimensione della popolazione N:
N∑ (xi - µ)2i=1σ2 = N
La varianza campionaria, s2, è invece la somma delle differenze, al quadrato, tra ciascuna osservazione e la madia del campione, divisa per la dimensione del campione, n, meno 1:
n∑ (x́i - x́)2i=1σ2 = n - 1
Elevando alla seconda gli scarti si giunge ad ottenere la media e la varianza in due unità differenti. Per questo si giustifica il calcolo del seguente indice. Lo scarto quadratico medio (o deviazione standard) della popolazione, σ, è la radice quadrata (con segno positivo) della variazione della popolazione ed è definito da:
N∑ (xi - µ)2i=1σ = √
Lo scarto quadratico medio campionario, s, è:
n∑ (x́i - x́)2i=1s = √
Chebychev determinò, per ogni insieme di dati, indipendentemente dalla forma della distribuzione, degli intervalli che contengono una percentuale minima di osservazioni. Disuguaglianza di Chebychev: per ogni popolazione con media µ, scarto quadratico medio σ e k ≥ 1, la percentuale di osservazioni che appartengono all'intervallo (µ - kσ ; µ + kσ) è:
almeno 100(1 - 1/k2)%
dove k rappresenta il fattore moltiplicativo dello scarto quadratico medio. La disuguaglianza di Chebychev si usa quando si conoscono media e varianza e si vuole conoscere la distribuzione. I passaggi sono i seguenti:
x́ - σ σ : moltiplico per k il σ
x́ - kσ kσ : moltiplico per k il σ
x x x́ ́ ́ - kσ + kσ + 1 - x́ ± 2kσ → non inferiore a 2k
Regola empirica (68%, 95% o 99,73%): Per molte popolazioni di grandi dimensioni, la regola empirica fornisce una valutazione della percentuale approssimativa di osservazioni il cui scostamento, in più o in meno dalla media, è pari al massimo a una, due o tre volte lo scarto quadratico medio:
- Approssimativamente il 68% delle osservazioni sono nell'intervallo µ ± 1σ;
- Approssimativamente il 95% delle osservazioni sono nell'intervallo µ ± 2σ;
- Quasi tutte le osservazioni (99,73%) sono nell'intervallo µ ± 3σ.
Per eliminare la distorsione che si crea quando si confrontano le variabilità di diverse realtà, dove una è molto più piccola dell'altra, si può fare ricorso alla grandezza percentuale di seguito espressa. Il coefficiente di variazione, CV, è una misura di variabilità relativa che esprime lo scarto quadratico medio come una percentuale della media (purché la media non sia nulla). Esso è dato come:
σCV × 100 = μ ≠0
con μ | |
Il coefficiente di variazione campionario è:
sCV × 100 = X ≠ 0
con X | |
Esistono poi strumenti numerici per descrivere una relazione lineare e misurarne la direzione: la covarianza e il coefficiente di correlazione lineare.
La covarianza, Cov, è una misura della relazione lineare tra due variabili. Un valore positivo indica una relazione diretta e un valore negativo indica una relazione inversa. Essa è data come:
N∑ (xi - μx)(yi - μy)i=1Cov(X, Y) = σ = xy
La covarianza campionaria è:
n∑ (xi - x́)(yi - ý)i=1Cov(X, Y) = s = xy n - 1
Il valore così trovato dipende dall'unità di misura, il che lo rende un indice inadeguato per valutare l'intensità della relazione lineare tra due variabili. Per questo si utilizza il seguente.
Il coefficiente di correlazione lineare è calcolato dividendo la covarianza per il prodotto degli scarti quadratici medi delle due variabili. Esso è dato come:
Cov(X, Y) ρ = σxσy
Il coefficiente di correlazione lineare campionario è:
Cov(X, Y) r = sxsy
dove sx e sy sono gli scarti quadratici medi campionari.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Riassunto esame Statistica Aziendale, prof. Gonano, libro consigliato Statistica Aziendale, McGraw, Hill
-
Riassunto statistica economica
-
Riassunto esame Statistica aziendale, prof. Coli
-
Riassunto esame Statistica aziendale, Prof. Grassini Laura, libro consigliato Statistica per le decisioni aziendali…