Estratto del documento

STATISTICA .

Capitolo 1 “ perché studiare la statistica?”

La statistica è la scienza che trae informazioni dall'uso dei dati; si parte dalla raccolta dei dati, per poi analizzarli così da

DECISIONI SOTTO INCERTEZZA

ricavare un’informazione. *PRENDERE 【raccolta➡analisi ➡informazione 】

Le decisioni sono incerte , l'affermazione non rileverà qualcosa di certo, vero ma sarà dunque verosimile o probabile.

● Popolazione = insieme completo di tutte le unità soggette di studio [ non osservo completamente ]

➜"N"

● Campione = sottoinsieme delle unità osservate nella popolazione "n"

● Parametro = caratteristica della popolazione ad esempio altezza media della popolazione italiana ( non lo osservo

perché non posso analizzare la popolazione )

● Statistica = caratteristica specifica del campione

Attraverso una statistica posso fare una previsione su un parametro , la statistica se il campione è ben preso sarà

verosimile al parametro della popolazione .

Campione casuale semplice procedimento

- le unità sono scelte a caso

- ciascuna unità ha la stessa possibilità di essere scelta

- ogni campione di dimensione “n” ha la stessa probabilità di essere selezionato

1/N mi da la probabilità di scelta ; il campione ottenuto con questo procedimento è noto come CAMPIONE CASUALE

La statistica si divide in due branche:

1. : raccoglie dati e li sintetizza ad esempio attraverso grafici ... ( ad es media )

Statistica descrittiva

2. : si occupa di vedere se la statistica calcolata sul campione ti dice qualcosa di

Statistica inferenziale

verosimile sulla caratteristica della popolazione .

Fornisce le basi per fare stime e previsioni , prendo l'informazione e la tramuto in conoscenza . Si prende in

considerazione la probabilità per la previsione

Statistica descrittiva :

- collezione di dati già esistenti o tramite sondaggi

- presentazione dei dati in maniera efficiente : tabelle e grafici

- sintetizzare i dati attraverso delle formule : es media campionaria

Statistica inferenziale :

- stima dei parametri che non osservo

- verifica delle ipotesi : verifico o falsifico una determinata informazione ; per fare ciò devo campionare anche più volte

se ottengo risultati che rimangono nello stesso “range” allora verifico altrimenti falsifico .

L’inferenza mi fa trarre conclusioni su determinate informazioni

PROCESSO DECISIONALE

1. Identificazione del problema

2. Raccolta dati

3. Sintetizzazione dei dati

4. Informazione

5. Conoscenza

6. Confronto dati con la teoria

7. Decisione

Più il campione è grande e più il risultato sarà verosimile alla popolazione .

STATISTICA DESCRITTIVA .

Capitolo 2

I dati possono essere :

- categorici : sono dati che sottintendono alcune specifiche categorie ( es : stato civile, diritto di voto, colore degli

occhi ) . Sono dati di tipo QUALITATIVO

- numerici: a loro volta divisi in DISCRETI ( numeri compresi nell'insieme N) e CONTINUI ( numeri

nell'insieme R) , sono dati che riguardano numeri. Sono dati di tipo QUANTITATIVO

Si possono dividere anche in dati

- ordinali : quando presuppone delle categorie o un ordine ( dato qualitativo , categorico; c'è una scala )

- nominali : non esiste un ordine ( la risposta è sì o no, buono o cattivo , colore degli occhi )

Dati a scala

- di rapporto : sono dati che possono far riferimento a uno zero assoluto ( es temperatura)

- ad intervallo : non c'è uno zero assoluto, il confronto avviene attraverso paragoni, differenza fra misurazioni

Rappresentazione grafica dei dati

I dati in forma grezza sono illeggibili, bisogna sintetizzare le informazioni affinché si passi al lettore il messaggio finale ;

occorre organizzare i dati attraverso tabelle e grafici . Il tipo di grafico dipende dalla variabile che devo sintetizzare .

Variabili categoriche : , , a ,

distribuzione di frequenza diagramma a barre torta diagramma di pareto ( oltre al

conteggio della variabile ho anche la cumulata )

Variabili numeriche : ( differisce che nelle variabili categoriche

grafico per serie storiche , distribuzione di frequenze

ho già la categoria , qui in quelli numerici devo creare io gli intervalli), ( versione numerica del

istogramma e ogiva

diagramma di pareto) , ( metto a grafico due variabili )

diagramma ramo-foglia , diagramma a dispersione

DATI CATEGORICI

tabella delle distribuzioni di frequenza : i numeri della tabella possono essere riportati a grafico ( barre e torta) ; l'altezza

della barra o la fetta della torta rappresenta la frequenza del dato in quella categoria.

Grafico a barre sull'asse delle X metto le categorie , sull'asse delle Y metto la frequenza ( il conteggio )

Grafico a torta devo passare dalle frequenze a una percentuale ( valore / il numero totale * 100 ) ; il problema con il

passaggio alle percentuali consiste nel fatto che non posso confrontare situazioni diverse questo perché fatto 100 la torta

vado a dividerla nelle varie percentuali , con il grafico a torta vado a perdere la grandezza del denominatore ( esaminando

ad esempio il numero totale dei pazienti, perdo la grandezza dell ospedale ) ; nel diagramma a barre, invece, riportando il

numero totale si vede la grandezza e si possono confrontare le due strutture . Il grafico a torta è ottimo se non devo

confrontare tipi di dati diversi, cosa che invece posso fare con il conteggio e le frequenze

diagramma di pareto

Si usa con dati categorici , è un diagramma a barre dove nelle Y ho la frequenza e i miei dati posti sull’asse delle X sono

decrescente

ordinati in modo ,al di sopra delle barre troviamo una “linea” il grafico delle cumulate, ovvero una linea

che parte esattamente in corrispondenza dell’altezza della prima barra e termina in

corrispondenza del 100%, viene incrementata dal valore della colonna successiva;

in questo modo dove la cumulata è più ripida sarà il dato che influenza maggiormente.

A colpo d occhio il diagramma mi fa separare le cause rilevanti da quelle poco

rilevanti

Esempio : 400 prodotti difettosi divisi in 6 categorie , il numero dei difetti e la

frequenza di quel difetto .

Punto 1 : ordino i dati dal più frequente al meno frequente , punto 2: determinare la

% per ciascuna categoria (numero difetto: totale dei difetti x100). L’altezza mi dice la

percentuale di difetti per ogni categoria mentre sull’asse delle X troviamo le categorie.

Punto 3 mostro i risultati graficamente . Il grafico delle cumulate si ha aggiungendo

alla prima barra la percentuale della seconda, il primo punto è in corrispondenza

della barra , il secondo sarà alto prima barra + seconda barra

Il segmento inizia in corrispondenza della prima barra e finisce in corrispondenza del 100. Attraverso le cumulate riesco

a capire quanto contano i vari difetti ( i primi due difetti valgono per L 80% dei difetti ) . Quando la cumulata si

appiattisce rientro nei campi delle cause irrilevanti

VALORI NUMERICI

grafici per serie storiche

★ Si usa quando ho valori che cambiano nel tempo , sull'asse orizzontale ho il tempo mentre sull'asse

verticale ho la quantità in quel determinato tempo.

è facilmente interpretabile, si vede il trend generale

distribuzione di frequenza ( o istogramma ) e distribuzione cumulata ( o ogiva )

La distribuzione di frequenza è una lista / tabella che contiene delle classi , una volta avuto il dato devo suddividerlo in

segmenti e contare quanti dei miei dati cadono in quell intervallo, vado a vedere la frequenza di un accadimento in

quell’intervallo . Come si creano queste classi di intervallo?

- ogni classe di intervallo deve avere la stessa ampiezza , come si determina l’ampiezza ("w") : valore massimo -

valore minimo ( campo di variazione ) : numero di classi che voglio

- solitamente si usano da un 5 classi a un max di 20 classi

- gli intervalli non si sovrappongono mai

- bisogna arrotondare l’ampiezza dell’intervallo per ottenere gli estremi della nostra classe , se”campo di

variazione/ numero di classi” da un valore non finito lo devo approssimare

Passaggi per creare il grafico

- ordino i dati così da trovare il minimo e il massimo

- trovo il campo di variazione ( massimo - minimo )

- scelgo il numero di classi

- calcolo w ( ampiezza intervallo)

- MASSIMO E MINIMO DEVONO ESSERE COMPRESI

- l’altezza della barra è data dal numero di dati presenti in quell'intervallo ( ad es 12,13,17, l’intervallo che va da

10 a 20 avrà come altezza 3)

- devo utilizzare "ma meno di" ad esempio 10 ma meno di 20, 29 ma meno di 30...

- la somma delle frequenze mi da la grandezza del mio campione

- frequenza relativa frequenza/ totale

- creo il grafico , istogramma ; gli estremi degli intervalli sono rappresentati sull asse X , L'altezza delle barre è

data dalla frequenza o dalle percentuali [ le barre saranno ADIACENTI]

In base alla numerosità del campione decido la quantità e il numero di classi , quando ho troppe

classi cerco di evitare di avere una distribuzione troppo frastagliata, se ne ho poche invece devo

evitare che la mia distribuzione sia troppo piatta . Il numero di classi posso sceglierlo anche a

tentativi.

gli estremi sono detti CODE e solitamente hanno barre basse ma possiamo trovare vari

istogrammi : - a “U”

- a retta crescente

- a retta decrescente

- a campana

distribuzione di frequenza cumulata ( OGIVA )

differisce dal diagramma di pareto in quanto le classi le devo creare, per creare queste classi :

- ordino in maniera crescente o decrescente i dati

- calcolo la cumulata sommando al dato, il dato precedente ( il primo punto della cumulata corrisponde al primo

punto della frequenza , il secondo è la somma delle prime due frequenze è così via... l'ultimo punto mi deve dare

il numero dei dati) nella frequenza percentuale cumulata l'ultimo punto mi deve dare 100

Quando la mia ogiva diventa piatta sto andando a sommare cause irrilevanti o pochi conteggi

La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate o distribuite in modo

approssimativamente regolare attorno al centro ; la distribuzione si dice asimmetrica se le osservazioni non sono

distribuite in modo simmetrico rispetto al centro , può essere positiva se è obliqua a destra , o negativa se è obliqua a

sinistra

diagramma ramo-foglia

È una tabella , serve a individuare come sono distribuiti i nostri dataset quando abbiamo a che fare con le tabelle, si

separano le cifre significative ( ramo ) da quelle meno significative ( foglia)

Es : ramo le decine e foglia le unità

i dati devono essere ordinati;

Più si alzano i numeri e più cambio la mia considerazione di

ramo e di foglia: se dovessi avere a che fare con le centinaia, le

centinaia sono il mio ramo e le decine ( arrotondate per eccesso o

difetto) la mia foglia.

RELAZIONI FRA DUE VARIABILI

Posso usare sia tabelle che grafici ( solitamente per le categoriche si usano le tabelle a doppia entrata per quelle

numeriche si usa il diagramma a dispersione )

Diagramma a dispersione: posso accoppiare due variabili , sulla X variabile 1 e sulla Y variabile 2 , scegliere X e Y è

arbitrario . Posso vedere l’andamento delle due variabili se c'è un aumento o una riduzione fra la relazione delle due ,

quando riporto i dati sul grafico perdo la dimensione temporale ma acquisto la loro relazione . Visivamente posso dire

come sono legate le due variabili .

Tabella doppia entrata o tabella di contingenza , si usa per le variabili categoriche e viene elencato il numero di

osservazioni per combinazione fra le due variabili . R= righe C = colonne , i valori all'interno della tabella prendono il

nome di CONGIUNTE , le righe con i totali sono dette MARGINALI . Per riportare i valori della tabella su un grafico

si utilizza un diagramma a barre accostate .

Errori che si possono commettere :

1. devo evitare delle distorsioni nei dati che possono portare a degli errori nell'interpretazione dei dati ( i dati devono

mostrare le informazioni essenziali )

2. l’ampiezza delle barre deve sempre essere uguale

3. Attenzione alla compressione o alla distorsione dell Asse verticale

4. Omissione dello 0

5. Non fornire una base di riferimento per il confronto di dati di diversi gruppi

DESCRIZIONE NUMERICA DEI DATI .

capitolo 3

Misure di tendenza centrale = voglio sapere in media come sono distribuiti i miei dati e quanto sono dispersi . Media

aritmetica , mediana e moda

Misure di variabilità : campo di variazione ( e la differenza tra max e min) differenza interquartile, varianza ...

La media è la somma dei valori diviso la loro numerosità e questo fa sì che essa venga

influenzata dagli outlier (ovvero valori estremi poco probabili ) / n

= ∑

=1

Mediana = abbiamo una lista ordinata, e il valore in posizione centrale è

quell’osservazione che lascia il 50% dei componenti a destra e il 50% dei componenti a sinistra

+1

1. si calcola la posizione mediana oppure 0, 5 · ( + 1)

2

2. se “n” è pari si esegue la media dei valori che si trovano a destra e a

sinistra di quella posizione ( se la posizione mediana da come risultato 5,5

andrò a fare la media tra il valore in posizione 5 e quello in posizione 6) ;

se “n” è dispari la posizione mediana mi da la posizione esatta del numero

che corrisponde alla mediana

Moda è il valore che occorre più frequentemente. Ci può essere più di una moda come può anche non esserci, non è

influenzata da valori esterni , si usa sia per dati numerici che categorici .

Se media e mediana coincidono la mia distribuzione è

simmetrica , se la media è minore della mediana ho

obliquità a sinistra se la media è maggiore della mediana

l’obliquità è a destra

Misure di variabilità

Campo di variazione = differenza tra il minimo e il massimo . Svantaggi = ignora il modo in cui i dati sono

➔ distribuiti , è sensibile agli outlier ma non è influenzato dalla distribuzione della variazione

Differenza interquartile = andiamo a “buttare via” il 25% delle osservazioni più piccole e il 25% delle

➔ osservazioni più grandi; facendo la differenza di quello che mi rimane avrò la differenza interquartile.

per determinare la posizione dei quartili ci sono delle formule

[ 25% dei dati a sinistra] dopo di che trovo il valore del quartile e anche qui se

1 = 0, 25 · ( + 1) [ 50% dei dati a sinistra] serve faccio la media delle posizioni intermedie

2 = 0, 50 · ( + 1) [ 75% dei dati a sinistra]

3 = 0, 75 · ( + 1)

Varianza = è la media dei quadrati delle differenze fra ciascuna osservazione e la

➔ media; è una misura di dispersione, parliamo di varianza piccola se la distribuzione è

centrata vicino alla media,mentre parliamo di varianza grande se rappresenta la

2

2 Σ(−µ)

dispersione dei punti intorno alla media (varianza della

σ =

POPOLAZIONE) usando il quadrato vado a dare più peso alle differenze grandi, fa si

che variazioni positive o negative abbiamo lo stesso peso

Scarto quadratico medio = radice quadrata della varianza

➔ Coefficiente di variazione = scarto quadratico medio diviso la media, misura la

➔ ( )

variabilità relativa rispetto alla media = · 100%

TEOREMA DI CHEBYSHEV

Serve per sapere quanti dati contiene un intervallo. Per ogni popolazione con media , scarto quadratico medio e k>1, la

µ σ

2

percentuale di osservazioni che appartengono all’intervallo [ ; ] è [ ] o almeno 100[1-(1/ )]%

µ − σ µ + σ µ + σ

dove se k è piccolo equivale a un errore standard se k=3 sono 3 errori standard e circa il 89% dei dati

Le misure di tendenza centrali non sono sufficienti

MEDIA PESATA

La uso quando i miei pesi sono le frequenze W= pesi ;

LA COVARIANZA CAMPIONARIA

ci dice come si muovono assieme le coppie di variabili , non ci dice però della relazione causa-effetto ( quindi se è la X

che muove la y o viceversa ) inoltre è influenzata dalle unità di misura ( per questo si calcola il coefficiente di

correlazione)

COEFFICIENTE DI CORRELAZIONE

(,) (,)

= =

( popolazione) ( campione )

σ σ

Anche con la correlazione non ho il rapporto causa effetto, posso solo dire di avere una correlazione positiva se X si alza

e anche Y si alza, o negativa sei una si alza e l'altra si abbassa . Se è vicina a -1 la correlazione è negativa, mentre se la

correlazione spinge verso 1 sarà positiva, intorno allo zero la correlazione o è debole o è assente

Entrambe non mi dicono quale variabile influenza l'altra per questo ci avvaliamo di un equazione con la quale posso

dire se la mia X causa la mia Y ( relazione lineare )

= β + β

0 1 dove B1 rappresenta la pendenza e B0 l’ordinata all’origine calcolata come

= + −

0 1 1

PROBABILITÀ .

capitolo 4 ***

Nomenclatura :

● Esperimento aleatorio= processo con risultato incerto ( lancio del dato, estrazione di una carta...)

● Evento elementare = possibile risultato di un esperimento aleatorio

● Spazio campionario= somma di tutti i risultati di un esperimento aleatorio

● Evento = sottoinsieme di eventi elementari dello spazio campionario ( es dal lancio del dado mi escono numeri pari )

● Intersezione di eventi = distinguiamo due eventi A e B definiti su uno spazio campionario S

l'intersezione è l'

Anteprima
Vedrai una selezione di 7 pagine su 29
Statistica Pag. 1 Statistica Pag. 2
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Statistica Pag. 6
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Statistica Pag. 11
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Statistica Pag. 16
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Statistica Pag. 21
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Statistica Pag. 26
1 su 29
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher uggerimarta di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pavia o del prof Spelta Alessandro.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community