Anteprima
Vedrai una selezione di 5 pagine su 17
Appunti di statistica utilissimi per studiare e per superare l'esame! Pag. 1 Appunti di statistica utilissimi per studiare e per superare l'esame! Pag. 2
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Appunti di statistica utilissimi per studiare e per superare l'esame! Pag. 6
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Appunti di statistica utilissimi per studiare e per superare l'esame! Pag. 11
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Appunti di statistica utilissimi per studiare e per superare l'esame! Pag. 16
1 su 17
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

N

x X

́ = (1 : N) ∙ i

X=1 x

́

∑ (X – ) = 0

(con i che va da 1 a N) i

k

x x ∙ f

́ = (media ponderata)

k k

k=1

Tuttavia, gli operatori di tendenza centrale forniscono delle informazioni poco

efficaci nel descrivere le relazioni esistenti fra i casi di ogni variabile. La loro

centralizzazione uniforma l’analisi descrittiva degli esperimenti, ma decentralizza i

loro momenti omogenei (un momento omogeneo è la media dei valori di una

variabile presa con esponente positivo; per essere centrale un momento omogeneo ha

bisogno di includere gli scarti dalla media). Di conseguenza, per un’analisi dei dati

precisa ed esauriente è necessario l’utilizzo degli operatori di dispersione e di

posizione, i quali descrivono le differenze intersoggettive presenti fra i vari casi e la

loro tendenza centrale:

• Il range è l’operatore di dispersione che definisce gli intervalli di variazione

presenti fra particolari termini della distribuzione, può essere calcolato a partire dal

livello di scala ordinale.

W = X - X W’ = Q - Q

max min (differenza interquartile) 3 1

• L’ indice di Gini è l’operatore di dispersione che definisce il grado di omogeneità

(da 0 = min a (k-1) : k = max) dei valori di una variabile, può essere calcolato ad

ogni livello di scala. k2

E = 1- ∑ f

1 (con k che va da 1 a k )

Al fine di rendere confrontabile l’indice di Gini di una variabile con quello di più

variabili, l’operazione di ranging fa in modo che l’indice di Gini calcolato subisca

una trasformazione aritmetica che lo faccia variare fra 0 e 1: e = (E – min) : (max –

min). Nel caso dell’indice di Gini (per l’indice di Leti è diverso), min = 0 quindi

e = E : [(K – 1) : K].

• Gli scarti da un valore centrale di ogni variabile cardinale possono essere calcolati

x

́

mediante gli operatori di dispersione di devianza [DEV = ∑ (X -

X (con i che va da 1 a N) i

2 2

) ], la quale è integrata dal concetto di varianza [σ = DEV : N], il quale è precisato

X

dall’operatore deviazione standard [σ]. Nella devianza si eleva al quadrato per

rendere positivi tutti gli scarti dalla media; nella varianza si divide per N in modo da

relativizzare il risultato ottenuto e nella deviazione standard viene eseguita la radice

del risultato in modo da eliminare l’effetto di ingigantimento aritmetico dovuto

all’elevazione al quadrato degli scarti dalla media. Per rendere confrontabili più

x

́

risultati di σ occorre operare con il coefficiente di variazione [cv = σ : ∙ 100],

che esprime in percentuale il valore di deviazione standard.

• la simmetria è un indice di forma definito da un’operazione di posizione, che

definisce il modo in cui i valori di una variabile sono disposti rispetto alla mediana di

quella variabile. In una distribuzione asimmetrica negativa le osservazioni sono

addensate sui valori più alti della variabile, in questo caso infatti la moda presenta un

valore maggiore di quello della media; in una distribuzione asimmetrica positiva

accade il processo inverso; in una distribuzione simmetrica media, mediana e moda

coincidono. Pearson e Fisher hanno elaborato dei metodi aritmetici per calcolare la

simmetria di una variabile, basati sul rapporto tra momenti centrali e non centrali

della stessa variabile. In ogni caso, la simmetria è valida solo per le variabili di tipo

cardinale.

• la curtosi è un indice di forma definito da un’operazione di posizione, che definisce

il modo in cui i valori di una variabile sono disposti rispetto alla moda di quella

variabile. Se i valori sono più vicini alla moda la distribuzione è detta platicurtica; se

i valori dei casi sono molto distanti da quello della moda, la distribuzione è detta

leptocurtica; se i valori si distribuiscono in modo simmetrico, la curva che li

definisce non risulta né appuntita, né appiattita, e si definisce normale. . Pearson e

Fisher hanno elaborato dei metodi aritmetici per calcolare la curtosi di una variabile,

basati sul rapporto tra momenti centrali e non centrali della stessa variabile. In ogni

caso, la curtosi è valida solo per le variabili di tipo cardinale.

Per rendere confrontabili risultati statistici di distribuzioni diverse (ad esempio con

diverse unità di misura), l’operazione di standardizzazione trasforma le distribuzioni

di ogni variabile in distribuzioni con media = 0 e deviazione standard = 1.

x

́ ¿

Z = (X – : σ

i i x

Il risultato di ogni standardizzazione fornisce un punteggio in punti Z, confrontabile

con ogni altro punteggio di variabile standardizzata in punti Z.

STATISTICA INFERENZIALE

La statistica descrittiva fornisce delle informazioni non generalizzabili, ovvero

riferibili unicamente al gruppo di osservazioni analizzate. La statistica inferenziale

permette di dedurre informazioni generalizzate a partire da un campione

probabilistico, mediante l’utilizzo della probabilità. Secondo la teoria classica, la

probabilità P è definibile come un rapporto fra tutti i casi favorevoli e tutti gli esiti

possibili di un dato evento, ma, come afferma Andrej Nikolaevic Kolmogrov, ciò che

importa della probabilità non è tanto lo studio di una sua definizione esatta, bensì

l’analisi dei principi ai quali essa si attiene:

In un esperimento, si definisce spazio campionario Ω l’insieme degli eventi

elementari dell’esperimento, di conseguenza, ogni eventualità dell’esperimento in

questione rappresenta un sottoinsieme di Ω e l’insieme delle parti di Ω (B Ω)

contiene tutti i possibili eventi generabili dallo spazio campionario. L’insieme B Ω si

chiama spazio degli eventi. Data la natura della probabilità P(casi fav. : esiti poss.), i

valori numerici di probabilità di qualsiasi evento sono compresi fra 0 e 1, di

conseguenza, la somma delle probabilità di tutti gli eventi elementari dello spazio

campionario (probabilità dello spazio campione) dà sempre 1 come risultato. Ω, B Ω

e P rappresentano lo spazio probabilistico di un qualsiasi esperimento.

Se N eventi probabili presentano due insiemi disgiunti, allora la probabilità associata

all’ U dei due insiemi (probabilità di un evento composto) è pari alla somma delle

probabilità di N insiemi [(E E ) = NULLO → P( E U E ) = P(E ) + P(E )]. Tuttavia,

i ∩ J i J i j

nel calcolo della probabilità associata all’intersezione degli insiemi di più eventi

probabili composti è necessario moltiplicare fra loro le probabilità di ogni evento

ǀ

composto: P( E E ) = P(E E ) ∙ P(E ). Se gli eventi considerati presentano fra loro

i ∩ J 2 1 1

una probabilità condizionata, ad esempio in caso di mancata reintroduzione del

primo evento probabilistico, allora la probabilità del secondo evento stante il primo è

ǀ

P(E E ) ≠ P(E ); se invece i due eventi presentano fra loro un’indipendenza

2 1 1 ǀ

stocastica, allora P(E E ) = P(E ).

2 1 1

Data una matrice C ∙ V, può essere effettuata una distribuzione di frequenza anche

relativa ai dati probabilistici delle celle della matrice, in questo tipo di tabella di

contingenza i valori delle frequenze relative rappresentano i valori di probabilità,

come i valori di frequenza relativa cumulata rappresentano i valori di probabilità

cumulata ecc…

Nell’eseguire delle sperimentazioni probabilistiche, è necessario l’utilizzo di

variabili aleatorie. Una variabile è aleatoria quando è generata da un esperimento di

esito imprevedibile, generato in maniera completamente casuale. Se ad ognuno degli

eventi E di una variabile aleatoria è assegnato un codice mediante un numero reale

X(E) = X , l’insieme dei numeri reali che una variabile aleatoria può assumere con

i

probabilità positiva si chiama supporto della variabile aleatoria. Una variabile

aleatoria è discreta quando presenta un numero finito di elementi numerabili in modo

infinito; è continua quando presenta un numero infinito di elementi non numerabili.

Una variabile aleatoria continua può assumere tutti i valori in un intervallo dx a cui

risulta associata una funzione di probabilità φ(X) detta funzione di densità di

ba

probabilità: P(a ≤ X ≤ b) = ⌡ φ(X)dx. μ

Nelle variabili aleatorie si indica con il valore atteso o valor medio, il quale:

⁻ nelle variabili discrete si calcola con ∑ X ∙ P(X) = NP;

(con i che va da 1 a N) i

μ ❑

⁻ nelle variabili continue = E(X) = Xf(x)x.

(da + inf. a – inf.)

2

Si indica con σ la varianza, calcolabile: μ μ

⁻ 2 2 2

nelle variabili aleatorie discrete con σ = E(X- ) =∑ (X - )

(con i che va da 1 a N)

P(X) = NP(1- P); ∫ μ

⁻ 2 = 2

nelle variabili aleatorie continue con σ (X - ) f(X)dx.

(da + inf. a – inf.)

Le variabili aleatorie possono presentare una distribuzione unidimensionale

discreta (a ciascun evento può corrispondere un unico valore per ogni caso) o

bidimensionale con variabile dicotomica(a ciascun evento corrispondono due valori

per ogni caso, esprimibili in termini di successi ed insuccessi). In una distribuzione

binomiale di una variabile aleatoria qualsiasi, la probabilità che un evento si presenti

k n-k

esattamente K volte in N prove è data da P n! : [k!(n – k)!] ∙ p ∙ q dove le

,

K =

operazioni fattoriali rappresentano il calcolo combinatorio di N prove su K volte; p

rappresenta il valore di probabilità di un successo e q il valore di probabilità di un

insuccesso. La tavola delle probabilità binomiali fornisce i risultati dei possibili

calcoli relativi a questo tipo di operazioni.

La distribuzione normale di una variabile aleatoria presenta una curva

μ

perfettamente simmetrica, che delinea il suo centro nel valor medio e si sposta a

2

destra e a sinistra a seconda del valore simmetrico della varianza σ , la quale

rappresenta il grado di errore possibile nel calcolo del valore atteso. Quanto più la

μ

misurazione di è precisa, tanto più grande è l’area delimitata dai due valori

2

(negativo e positivo) di σ . Al fine di rendere un punteggio probabilistico

confrontabile all’interno della distribuzione normale, occorre effettuare la

standardizzazione di quel punteggio. In questo modo, grazie alla tavola relativa alle

aree sottese alla distribuzione standardizzata, è possibil

Dettagli
Publisher
A.A. 2017-2018
17 pagine
1 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher gerardo.qui di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Bo Gianluca.