Estratto del documento

STATISTICA

LA FREQUENZA ASSOLUTA E RELATIVA:

La frequenza è un numero che sintetizza come si distribuiscono le modalità di una variabile

statistica. Quindi prima di tutto avviene una rilevazione statistica in cui io

rilevo vari dati grezzi e poi le frequenze mi permettono di rappresentare in

modo sintetico le statistiche fondamentali del fenomeno.

Esempio: le variabilità statistiche sono i possibili esiti dei lanci, mentre le

modalità sono 2 ovvero testa e croce e la frequenza indica il numero di volte

in cui si presenta una certa modalità.

n

La FREQUENZA ASSOLUTA di un fenomeno è il numero intero di volte

j

che questo si presenta durante una rilevazione statistica. (lanciando 10 volte una moneta, il lato

testa si presenta 6 volte, quindi 6 è la frequenza assoluta del fenmeno testa).

f

La FREQUENZA RELATIVA è il rapporto tra la frequenza assoluta del fenomeno e il numero

j

totale dei casi esaminati nella rilevazione statistica. (lancio 10 volte la moneta, il lato testa ha una

frequenza relativa di 0,6 ossia nel 60% dei casi (frequenza

percentuale) perché faccio 6/10).

La distribuzione delle frequenze (che presuppone che ci sia

ordinabilità) di una variabile statistica si rappresenta con una

tabella dove nella prima colonna ci sono le modalità della variabile

e nella seconda colonna ci sono le frequenze asssolute e/o le

frequenze relative delle stesse.

Le FREQUENZE ASSOLUTE CUMULATE sono la somma delle frequenze assolute che si

succedono dalla prima all’ultima classe in una distribuzione di

frequenze. (la frequenza cumulata assoluta della seconda classe è pari

alla somma delle frequenze assolute della prima e della seconda classe,

e così via.)

Se divido le frequenze cumulate assolute per il totale, ho le frequenze

cumulate relative, se moltiplico poi per 100 ho le frequenze

cumulate percentuali.

La somma delle frequenze relative è 1 e la somma delle

 frequenze percentuali è pari al 100%.

Le frequenze cumulate hanno senso se le modalità del carattere sono ordinabili.

 MEDIA permette di sintetizzare attraverso un solo valore le modalità

di distribuzione di dati e dà info sull’ordine di grandezza di un carattere

E’ la somma dei valori numerici divisa per il numero di valori numerci considerati.

La media ponderata ha valori che pesano diversamente uno dall’altro e corrisponde alla somma

dei prodotti di ciascun numero per il rispettivo peso, diviso per la somma dei pesi.

Calcolata solo per caratteri quantitativi

 Dipende da tutti i valori osservati e quindi dà ad ognuno lo stesso peso, questo vuol dire che

 risente dei valori anomali

Gode della proprietà di Cauchy (è compresa tra il valore minimo e quello massimo)

 Se moltiplico la media per il numero di unità osservate ottengo la somma dei valori delle unità

 (che non viene quindi alterata dalla media stessa)

Se prendo ogni valore e lo sottraggo alla media di tutti i valori, e poi sommo tutto quello che

 ottengo avrò 0.

(5,8,4,7) media=6

(5-6) + (8-6) + (4-6) + (7-6) = 0

Così come ottengo un valore minimo se:

(5,8,4,7) media=6

(5-6)^2 + (8-6)^2 + (4-6)^2 + (7-6)^2 = (-1) ^2 + (2)^2 + (-2)^2 + (1)^2 = 0

1 + 4 + 4 + 2 = 10

La media aritmetica gode delle proprietà:

1. La proprietà di Cauchy:

2. La somma dei valori osservati è uguale al valore medio moltiplicato per il numero di unità:

per cui si può, quindi, dire che la media aritmetica lascia invariata la somma dei valori osservati.

3. La somma delle differenze tra i valori e la loro media aritmetica è pari a zero:

4. La somma degli scarti al quadrato dei valori da una costante c è minima quando c è uguale alla

media aritmetica.

MODA

Calcolata sia per caratteri quantitativi che qualitativi

 Se ho una distribuzione senza classi, per i caratteri qualitativi e quantitativi, la moda

 corrisponde alla frequenza più elevata; con caratteri quantitativi con classi, la moda è la

classe modale a cui corrisponde la densità di frequenza più elevata

Fornisce info solo su una modalità del carattere, quella prevalente, e ignora le altre

 Dipende solo dalle frequenze

 È valida solo se vi è una netta prevalenza di una modalità rispetto alle altre

 Non esiste se tutte le modalità hano la medesima frequenza/densità o se queste sono

 molto simili

MEDIANA

E’ la modalità rappresentata dal’unità centrale in un collettivo ordinato di valori.

Essa divide il collettivo in due sottoinsiemi di uguale numerosità: uno con modalità di ordine più

basso e l’altro con modalità di ordine più alto.

Se il numero totale dei valori è dispari la posizione centrale è data da (n+1)/2 e se è pari ci sono

due unità centrali le cui posizioni sono date da n/2 e n/(2+1) e quindi la mediana è data dalla

media aritmetica dei due dati centrali.

E’ definita solo per caratteri quantitativi e qualitativi ordinabili.

 Non è sensibile a dei valori anomali (che si differenziano di molto da tutti gli altri) perché

 considera solo le unità centrali

MISURE DI POSIZIONE:

Percentili: per i caratteri con modalità ordinate i percentili sono quei valori che dividono la

distribuzione in centro parti di uguale numerosità. I percentili sono quindi 99.

Quartili: dividono la distribuzione in quattro parti di uguale numerosità (la mediana corrisponde al

secondo quartile, Q ).

2

VARIABILITA’: definita solo per caratteri quantitativi ed esprime la tendenza delle unità di un

collettivo ad assumere modalità tra loro diverse. E’ = a zero se e solo se tutte le unità della

distribuzione hanno stessa modalità del carattere.

VARIANZA media aritmetica degli scarti dalla media elevati al quadrato

Il numeratore è detto DEVIANZA:

 Data una variabile casuale X, si definisce scarto, la differenza fra un qualsiasi valore xi della

 '

( )

−μ =x =¿

x

variabile ed il valore medio µ. scarto

i

Il valor medio dello scarto è sempre uguale a zero in una distribuzione statistica.

 “La varianza identifica la dispersione dei valori della variabile X attorno al valor

 medio e tanto è più piccola, più i valori della variabile sono concentrati attorno al

valor medio” questo vuol dire che io ho al centro un valore medio ed intorno a lui tanti valori

della variabile X e la varianza mi indica come si disperdono questi valori.

(la misura di quanto i valori si discostano quadraticamente rispettivamente dalla media

aritmetica o dal valore atteso)

Siccome la varianza è al quadrato, si preferisce usare la DEVIAZIONE STANDARD (scarto

 quadratico medio)

√ 2

=

σ σ

E’ uguale a zero quando tutti i valori della variabile sono uguali e quindi non c’è variabilità

 nella distribuzione.

E’ positiva in ogni caso e misura il grado di variabilità di una distribuzione

 Tanto è maggiore tanto più i valori sono dispersi e tanto è minore tanto più i valori di X sono

 concentrati attorno al valore medio.

Viene usata nella teoria delle decisioni come misura della rischiosità di una distribuzione.

 Se due distribuzioni hanno la stessa media e varianza diversa, la distribuzione con varianza

 maggiore è la più rischiosa (lo scarto è maggiore).

COVARIANZA di due variabili statistiche è un numero che dice la misura di quanto queste due

variano assieme, quindi la loro concordanza/discordanza.

σ :

xy

> 0 concordanza: bassi X con bassi Y; alti X alti Y. (punti prevalgono nel 1° e 3° quadrante)

< 0 discordanza: bassi X con alti Y; alti X bassi Y. (2° e 4° quadrante)

= 0 incorrelazione, ovvero assenza di una relazione lineare

La covarianza non è un indice normalizzato, infatti può assumere valori all’interno di:

CORRELAZIONE: Per normalizzare la covarianza si costruisce il coefficiente di correlazione lineare

di Bravis

Pearson:

 Una correlazione è una relazione tra due variabili tale che a ciascun valore della prima

corrisponda un valore della seconda, seguendo una certa regolarità.

Proprietà del coefficiente di correlazione lineare:

 - pXY = 1 se tra X e Y sussiste un perfetto legame lineare e i due caratteri sono concordi

(Y = a + bX con b > 0)

- pXY = -1 se tra X e Y sussiste un perfetto legame lineare e i due caratteri sono discordi

(Y = a + bX con b < 0=

- pXY = 0 se i due caratteri sono linearmente indipendenti oppure se la loro relazione non è

lineare.

L’indipendenza statistica implica l’indipendenza lineare, ma non vale il viceversa. Non posso

 escludere che non ci siano altri tipi di indipendenze.

Esperimento deterministico: risultato non cambia se non cambio le condizioni dell’esperimento. (lo

ripeto e ho lo stesso risultato sempre)

Esperimento casuale o prova: risultati diversi anche se non cambio le condizioni. (lo ripeto e ho

risultati diversi)

Spazio campionario o evento certo (=omega): insieme di tutti i risultati possibili associati ad un

esperimento casuale.

Evento elementare(i): è ogni risultato dell’esperimento casuale (ogni elemento dello spazio

campionario )

Evento (con lettere maiuscole A, B): qualsiasi insieme di eventi elementari (sottoinsieme dello

spazio campionario )

Evento impossibile ( ): è la negazione di dato che è l’evento certo

 

PROBABILITA’

PROBABILITA’: insieme delle parti di (o famiglia dei sottoinsiemi di indicata con p().

 )

è un insieme che contiene tutti gli insiemi che si possono formare con gli eventi elementari

dello spazio campionario .

se contiene k eventi elementari allora p() contiene 2^k eventi.

 

proprietà – Assiomi di Kolmogorov:

 appartiene a p()

 

Se l’evento A appartiene a p() allora anche l’evento A negato appartiene a p()

 Se l’evento A e B appartengono a p() allora anche A intersecato (unito) B appartiene a p()

 p() identifica il dominio della funzione di probabilità funzione d’insieme a valori reali

 

definita su p() con proprietà:

P()=1 postulato di normalizzazione

 

P(A) 0 per ogni A che appartiene a p() postulato di non negatività (la probabilità non

  

può essere negativa)

P(A1 unito A2 unito A3…..) = P(A1) + P(A2) + P(A3) + … per ogni successione di eventi di p()

 a 2 a 2 incompatibili (presi a caso due eventi distinti, la loro intersezione è sempre uguale

all’evento impossibile)

il codominio della funzione di probabilità è pari a R (insieme dei numeri reali) o al suo

sottoinsieme [0,1]

Concezione classica

La probabilità di un evento A è il rapporto tra il numero dei casi favorevoli al verificarsi di A e il

numero totale dei casi possibili, ammesso che questi siano equiprobabili.

Concezione frequentista

Secondo questa interpretazione, la probabilità di un evento A è il limite dalla frequenza relativa

con cui A si verifica in una lunga serie di prove ripetute sotto condizioni simili.

Per cui: dove n(A) indica il numero di volte in cui si verifica il risultato A in un insieme

molto grande n di prove ripetute in modo indipendente.

Alla base di questa teoria si ha la legge empirica del caso, secondo la quale in una serie di prove di

un dato esperimento, ripetuto un gran numero di volte in circostanze il più possibile simili,

ciascuno degli eventi possibili si manifesta con una frequenza che è pressappoco uguale alla sua

probabilità. L’approssimazione, ovviamente, cresce col crescere del numero delle prove.

Concezione soggettivista

La probabilità è la valutazione che il singolo soggetto può coerentemente formulare, in base alle

proprie conoscenze, del grado di avverabilità di un evento.

La probabilità viene, pertanto, identificata con un prezzo, è il prezzo che un soggetto ritiene equo

pagare per:

- ricevere 1 se A si verifica,

- ricevere 0 se A non si verifica.

Se A e B sono due eventi dello spazio campionario Ω e P(A) > 0, allora la PROBABILITÀ

CONDIZIONATA di B dato A è pari a:

teoremi:

 ( ) ( ) per ogni evento A di

 

=1−P

P Á A

∅¿

P( = 0 la probabilità dell’evento impossibile è 0

 

( )

0 ≤ P A ≤1 per ogni evento A di

 

⊂B

A ≤

Se allora P(A) P(B) se A è sottoinsieme di B allora la probabilità di A è più

 

piccola o uguale a quella di B ∩

P(A U B) = P(A) + P(B) – P(A B) se A intersecato in B allora è = alla probabilità di A +

 

quella di B – la probabilità della loro intersezione)

Probabilità condizionata e indipendenza:

Se A e B sono due eventi dello spazio campionario e P(A) > 0, allora la probabilità

 

cond

Anteprima
Vedrai una selezione di 5 pagine su 19
statistica Pag. 1 statistica Pag. 2
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
statistica Pag. 6
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
statistica Pag. 11
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
statistica Pag. 16
1 su 19
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche MAT/06 Probabilità e statistica matematica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher S_94A di informazioni apprese con la frequenza delle lezioni di istituzioni di matematica e fondamenti di biostatistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bergamo o del prof Finazzi Francesco.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community