Anteprima
Vedrai una selezione di 6 pagine su 21
Appunti e esercizi di Economia e statistica  Pag. 1 Appunti e esercizi di Economia e statistica  Pag. 2
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Appunti e esercizi di Economia e statistica  Pag. 6
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Appunti e esercizi di Economia e statistica  Pag. 11
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Appunti e esercizi di Economia e statistica  Pag. 16
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Appunti e esercizi di Economia e statistica  Pag. 21
1 su 21
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

MODA

La moda pu essere calcolata per qualsiasi tipo do variabile ed è la categoria, o valore, con la

frequenza maggiore (in un istogramma il rettangolo più alto).

La moda non sempre fornisce informazioni utili e per alcuni campioni potrebbe essere assente

(frequenze con valori tutti uguali a 1).

Per esempio, per dati continuiate possono assumere molti valori diversi, non si parla di moda ma

di casse modale: la classe modale è l’intervallo di classe che presenta la densità (frequenza/

ampiezza) di frequenza più alta.

È possibile poi che alcune serie di dati presentino più di una moda, e questo succede spesso con i

campioni piccoli. Quando ci sono due mode si pala di un campione bimodale, quando sono molte

mode si ha un campione plurimodale. Sono dati

quantitativi continui

MEDIANA

La mediana è il valore dell’osservazione centrale di una distribuzione ordinata di dati.

La mediana è quindi una misura del valore centrale di un insieme di dati ordinati dal più piccolo al

più grande. L’esatta posizione al centro varia a seconda che il numero di osservazioni del

campione sia pari o dispari:

- Se n è dispari, la mediana è il valore nella posizione (n+1)/2

- Se n è pari, la mediana è la media dei valori nelle posizioni n/2 e n/2+1

Nella pratica, per individuarla, è necessario andare a stabilire le posizioni con i valori di ordinata

riordinati in modo crescente.

Se ad esempio, ho delle votazioni pari a 8,10,12,12,6,10,6,15,8,7,13,9,6,12,14 li riordino nel

seguente modo:

Posi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

zion

e

Valo 6 6 6 7 8 8 9 10 10 12 12 12 13 14 15

re x

Successivamente, mi accorgo che sono dispari quindi, come valore di mediana considero la

posizione 8 (e non la frequenza 10)

Considero ora questa tabella:

Posizio 1 2 3 4 5 6 7 8 9 10

ne

Variabil 27 28 29 29 29 30 30 31 31 32

e

Poiché n è pari, considero i valori di posizione 5 e 6. La mediana in questo caso è (29+30)/2=29,5

MEDIA ARITMETICA

La media si calcola solo per variabili quantitative

(discrete o continue) e si torva sommando tutti i

valori tra loro e dividendo poi per il numero delle

osservazione (dimensione campione).

Puo essere semplice, quando a denominatore si

sommano tutti i valori, o ponderata, quando a

numeratore si raggruppa. Questi due valori

potrebbero risultare diversi.

ESERCIZIO RIEPIGOLATIVO

- media: (18x7+…+30x5)/(7+… +5)=23.525 —> voto medio degli studenti

- mediana: n è dispari: 24; il 50% degli

studenti ha preso al massimo 24 e l’altro

50% ha preso almeno 24.

- Moda (voto con frequenza maggiore):

22—> la maggioranza ha preso

LEZIONE 4: MISURE DI DISPERSIONE O DI VARIABILITA’

Oltre a conoscere il valore medio del campione, è importante sapere quanto diversi sono i valori

del campione. Dobbiamo cioè sapere quanto i valori del campione sono distribuiti o dispersi

attorno alla media.

Le misure di dispersione o di variabilità si usano per variabili quantitative discrete e continue (no

qualitative) e misurano l’attitudine della variabile ad assumere diversi valori (cioè quanto i dati sono

dispersi attorno a un qualche indice di posizione). È ragionevole che queste misure assumano

valori positivi o al limite valore 0 (fenomeno con variabilità nulla, nessuna variazione).

CAMPO DI VARIAZIONE (o RANGE)

Differenza tra l’osservazione maggiore e quella minore del campione: R=Max-Min

Aumentando la dimensione del campione, aumenta l’influenza dei valori estremi e di conseguenza

R diventa distorto, inaffidabile.

A tale proposito, per dimensioni di campione maggiore, bisogna considerare un’altra misura di

dispersione o di variabilità che comprenda possibilmente tutti i dati del campione.

VARIANZA

Media dei quadrati degli scarti tra ciascun valore e la media campionaria.

I VALORI STANDARDIZZATI

Il valore standardizzato misura di quanti scarti quadratici medi un valore dista dalla media. z=

X - µ : σ

Un valore positivo indica che il valore è sopra la media, mentre un valore negativo indica che il

valore è sotto la media. È possibile utilizzare i punteggi z per identificare valori anomali (outlier).

Un valore anomalo è un valore che ha probabilità molto bassa di verificarsi.

! Varianza e scarto medio quadratico sono indici assoluti, cioè dipendenti dall’unità di misura e

dell’ordine di grandezza di cioè che analizziamo. Non consentono confronti di variabilità. Uso

quindi una misura che mi permette di tenere conto del valore della media, il coefficiente di

variazione che è una misura relativa che non risente dell’unita di misura.

CV= S (deviazione standard) : Xm (media campionaria in valore assoluto)

Le misure di pozione o di tendenza centrale e di dispersione sono importanti ma non sono le uniche

misure numeriche numeriche dalle quali ottenere informazioni su un insieme di dati. Altre misure,

chiamate misure di tendenza relativa, forniscono informazioni sulla posizione di un’osservazione del

campione. Una tra queste è la mediana, ma ce ne sono altre.

I PERCENTILI

Il p-esimo percentile di un insieme di dati è il valore per cui una percentuale pari a p delle

osservazioni è inferiore o uguale a esso. I dati devono essere ordinati.

- il 25esimo percentile si definisce PRIMO QUARTILE (Q1)

- Il 50esimo percentile si definisce SECONDO QUARTILE (Q2) o MEDIANA

- Il 75esimo percentile si definise TERZO QUARTILE (Q3) Dispari

Pari

LEZIONE 5: PRIMA ESERCITAZIONE

L’indagine statistica pu essere effettuata su intera popolazione, prende il nome di censimento, o

su un campione della popolazione, prende il nome di indagine campionaria.

Quando l’indagine è sull’intera popolazione, si usa una statistica descrittiva (descrive il fenomeno

sull’intera popolazione). Quando invece l’indagine è su un campione, si usa sia una statistica

descrittiva (descrive il fenomeno sul campione), sia un’inferenza statistica (trarre indicazioni dal

campione che siano valide per la popolazione).

Alla fine bisogna trarre conclusioni su di una popolazione basandosi su un campione osservato e

sulla teoria della probabilità (la probabilità si occupa di determinare un campione rappresentativo

della popolazione (va quindi da popolazione a campione) e risulta essere l’opposto dell’inferenza

statistica che si occupa di estendere all’intera popolazione i risultati).

ANALISI DI DATI QUALITATIVI BIVARIATI

Quando si osservano due variabili, i dati si possono organizzare attraverso una tabella a doppia

entrata o tabella di contingenza. Questa tabella avrà nelle righe i valori della prima variabile, e

nelle colonne i valori della seconda variabile. I numeri interi all’interno della tabella sono il numero

di volte in cui compare la corrispondente coppia di valori o categorie (frequenze congiunte

assolute). Queste categorie sono esclusive (l’una esclude l’altra).

Il totale 80 rappresenta la frequenza assoluta

(quante volte il numero si ripete nel campione)

con cui si presenta la categoria 1 per la

variabile x.

Questa frequenza si chiama frequenza

marginale assoluta. Dividendo poi per la taglia

del campione, ottengo quelle relative (45:479).

DISTRIBUZIONI CONDIZIONATE

Mi esprime come è andata la popolazione rispetto all’oggetto di studio.

Ad esempio, se io ho un campione di 28 studenti misti tra liceo, itis e commerciale e voglio sapere

quale categoria prepara meglio per l’università, devo inanzitutto ridurre il campione alla singola

categoria e prendere il nuovo totale non più 28 ma il numero si studenti per i singoli indirizzi. Se le

distribuzioni condizionate di una variabile data una modalità dell’altra sono uguali (valore per

valore) tra loro, allora si dice che le due variabili sono indipendenti, ovvero che non ce

connessione tra loro.

Le due variabili non sono indipendenti

perché il 21.1% è diverso da 66.7%. Basta

una diversa per concludere che non sono

dipendenti

DATI QUANTITATIVI: ANALISI BIVARIATA

Se X e Y sono entrambe quantitative si pu utilizzare il grafico di dispersione in cui le variabili sono

rappresentati come puntini nello spazio.

LA COVARIANZA

Quando si osservano due variabili diverse, A e B, riferiti a una medesima popolazione, si pu fare

riferimento a indici statistici che possono descrivere come i due insieme di dati variano tra loro. La

covarianza di due variabili è un numero che fornisce una misura di quanto le due varino assieme,

ovvero della loro dipendenza. Quando la covarianza è negativa (2 e 4 quadrante) indica che i dati

hanno comportamento discorde mentre pari a zero indica che i dati non sono in relazione diretta

tra loro.

LEZIONE 6: LA PROBABILITA’

Un esempio casuale è qualsiasi azione che ha come risultato un insieme di dati registrabili. Di un

esperimento casuale è solo possibile elencare a priori l’insieme dei possibili esiti.

Lo spazio campionario S, è l’insieme di tutti gli esiti elementari possibili di un esperimento. Un

esempio è il lancio del dado o della moneta.

Un evento è un esito o un insieme di esiti dell’esperimento che sono di interesse per il ricercatore,

e più formalmente, è un qualsiasi sottoinsieme dello spazio campionario S (probabilità che si

verifichi evento A o B).

Qualora si considerano die eventi contemporaneamente, bisogna considerare gli eventi A E B

(spazi comuni) oppure A O B (prendo entrambi gli insiemi). Due eventi A e B sono incompatibili se

non hanno casi in comune. Guardo ci che è

in comune…in

questo caso

niente Quale è la

probabilità

che uno

studente

sospeso

non

provenga

da Varese?

Probabilità

di n0on

venire da

Varese=

1probabilità che lo studente derivi da

Varese = 1-

258/6492 = 0.960

Probabilità di A: 220/500= 44%

Pubblicità e acquisto non sono indipendenti, dato

che la probabilità di A è diversa da quella sopra,

la pubblicità influenza l’acquisto

LEZIONE 7: VARIABILI CASUALI E DISTRIBUZIONI DI PROBABILITA’

Lo spazio degli esiti S è l’insieme di tutti i possibili esiti di un esperimento.

Un evento A è un sottoinsieme degli spazi degli esiti S.

A’ è l’evento complementare di A (tutti gli esiti di S che non stanno in A).

A B è l’evento di intersezione tra gli eventi A e B (esiti sia in A che in B).

A B è l’evento unione tra gli eventi A e B (o in A, o in B o in entrambi),

Due eventi sono incompatibili se non hanno elementi in

Dettagli
Publisher
A.A. 2022-2023
21 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher appunticonme di informazioni apprese con la frequenza delle lezioni di Economia e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano o del prof Cavicchioli Daniele.