Statistica

Appunti del corso di statistica del prof Oppoliti utili nel caso dell'insegnamento previsto dal corso CLEII e CLEA con esempi che il professore fa in aula e anche spiegazioni dettagliate dei …

Esame Statistica

Facoltà Economia

Università Università degli studi Gabriele D'Annunzio di Chieti e Pescara

Publisher exc3ss

A.A. 2022-2023

57 pagine

Appunti esame

Vota 4,5 / 5 (2)

Scarica

Estratto del documento

STATISTICA

Quando viene fatta un’indagine statistica sulla singola unità statistica io posso rilevare diverse variabili (sesso,

reddito etc.) se per esempio sto facendo l’indagine su tutti i cittadini del comune di Pescara e genererò la

matrice di unità variabili, per arrivare a questo risultato però ho già fatto una prima analisi per capire “chi” o

“cosa” rappresenterà l’unità variabile (cittadino abitante del comune di Pescara) e quali saranno le variabili o

le domande che dovrò fare ad ogni cittadino (Sesso, Reddito, Numero di Figli etc.).

Non è sempre semplice però la scelta di queste informazioni, ci sono alcuni dati per i quali è più difficile

generare quella struttura matriciale, ad es. pensando ai Social Media, in questo momento c’è un forte

dibattito sul green pass, chi è contro e chi è a favore, se la politica vuole conoscere il sentiment dei cittadini,

può prendere come base di dati o dataset i commenti o i post che i cittadini fanno sui social, oppure se io ho

un e-commerce posso usarlo per capire come presentare il mio prodotto etc. etc. chiaramente abbiamo una

quantità enorme di informazioni e di immagini, e qui interviene la tecnologia che permette agli statistici di

avere a disposizione questi dati in una forma che possano essere utilizzati, quando ci si trova a lavorare con i

testi (es un twitt) bisogna sintetizzare per capire se quel testo rappresenta una posizione pro o contro ad

esempio, a volte devo farlo con delle immagini o con i video etc.

In statistica a volte non è possibile avere tutte le unità statistiche a disposizione, o meglio non sarà possibile intervistare

l’intero collettivo statistico (Collettivo = Insieme di unità statistiche omogenee rispetto ad alcuni caratteri di cui si

acquisiscono informazioni per studiarne le modalità) ma si lavora su un campione (sottoinsieme) es. se devo fare una

statistica sui cittadini del comune di Pescara chiaramente verrà intervistata solo una parte e non tutti i cittadini,

successivamente si riporterà il risultato di questo campione ad un livello più generale, es. io ho un budget per le

interviste che mi permette di avere i dati di 100 persone dell’intera popolazione di Pescara che è circa 120mila persone,

successivamente bisogna “generalizzare” ad un livello più ampio cioè dell’intera popolazione, questa meccanica è

relativa all’ambito dell’inferenza statistica, non è sempre possibile generalizzare il risultato che si ottiene.

Per ottenere i dati statistici ci sono 2 modalità:

Indagine Statistica: i dati che si vogliono acquisire si riferiscono ad una popolazione finita, le cui unità sono entità

(persone, imprese, abitazioni, etc.) esistenti, individuabili e osservabili

Esperimento: quando persone, animali o oggetti vengono sottoposti a un “trattamento” per osservare su di essi la

risposta ossia la reazione al trattamento (avviene soprattutto in ambito medico per testare es. effetti dei farmaci), quelli

che hanno partecipato alla sperimentazione si chiameranno “trattati”

La statistica ha come interesse principale lo studio dei “fenomeni collettivi”, il singolo individuo non ci interessa.

Terminologia Statistica

● Unità Statistica: Unità di riferimento su cui io voglio svolgere la mia analisi, le informazioni che rileverò lo

farò relativamente all’unità statistica, l’oggetto di osservazione di ogni fenomeno individuale che costituisce

il fenomeno collettivo (l’unità elementare su cui viene osservato il fenomeno oggetto di studio)

● Collettivo Statistico: è l’insieme delle unità statistiche

● Carattere/Variabile: Sono le informazioni rilevanti che io devo raccogliere per ogni singola unità statistica,

es se l’unità statistica è una persona potrei essere interessato a raccogliere le seguenti variabili o caratteri:

se è maschio o femmina, il salario, altezza, peso etc.

● Modalità/Attributo: sono le possibili risposte es: Maschio o Femmina della specifica variabile sesso (non

quantitativa)

● Fattore: è un termine che riferito ad una variabile specifica che permette in base alle sue modalità di

risposta di suddividere il collettivo statistico in sottogruppi

Per poter realizzare un’indagine statistica in maniera appropriata bisogna acquisire delle informazioni principali che

riguardano prima di tutto va identificata quella che è l’unità statistica successivamente bisogna identificare le variabili

che possono essere osservate su ognuna di esse e infine dopo aver generato la matrice di unità variabile bisogna

cercare e utilizzare le metodologie che ci permettono di identificare l’informazione sottesa a quella matrice

Le variabili possono essere distinte e classificate principalmente secondo due tipologie: 1

● Variabile categoriali/qualitativi: rappresenta un attributo dell’unità statistica e spesso divide le unità in gruppi

● Variabile quantitativa: si riferisce ad una quantità misurabile, sono delle variabili che possono essere definiti

solo dopo un processo di “misurazione” cioè esiste uno strumento che permette di misurare la variabile (es:

l’altezza, il peso)

Esempio:

Year: categoriale Height: quantitativa

Gender: categoriale Weight: quantitativa

HigherSAT: categoriale Exercise:

SAT: quantitativa quantitativa

GPA: quantitativa TV: quantitativa

Sibling: quantitativa Pulse: quantitativa

Award: categoriale

Le variabili idonee vanno scelte con cura durante la costruzione della matrice variabile dei dati, più accurata è

la fase iniziale di scelta delle variabili e più avrò dei dati affinati e sarà semplice riuscire a trovare la risposta

alla domanda che mi viene posta inizialmente.

Se le variabili non sono direttamente relazionate al problema che sto affrontando, quelle variabili sono di

disturbo e in alcuni casi possono anche essere ridondanti.

A volte per riuscire a rappresentare graficamente la matrice bisogna ridurre la dimensionalità delle variabili,

es. sul piano cartesiano posso rappresentare solo 2 o massimo 3 variabili.

Le indagini che vengono effettuate sulle popolazione possono essere fatte in due modi o censuarie o

campionarie, quelle censuarie vengono fatte sulla TOTALITA’ della popolazione, le campionarie sono fatte su

un sottoinsieme ridotto di tutta la popolazione, chiaramente nel caso in cui si sceglie la modalità campionaria,

devo fare attenzione a che le unità statistiche siano rappresentative e non presentino distorsioni (es: se sto

facendo un’indagine statistica per decretare il livello di reddito o di ricchezza o povertà dell’individuo e

raccolgo i dati del campione solo nel quartiere più povero o più ricco della città, avrò delle distorsioni, devo

assicurarmi che non ci siano queste problematiche, solitamente si usa il metodo di scelta delle unità

statistiche da interrogare in maniera casuale). 2

Classificazione dei caratteri Qualitativi:

● Sconnessi: Caratteri/Variabili che hanno come modalità denominazioni verbali per le quali non esiste

(e non è possibile stabilire) un ordinamento (sesso, religione, regione di residenza, luogo di nascita,

tipo di laurea)

● Ordinabili: Hanno per modalità denominazioni verbali per le quali esiste un ordinamento naturale

(titolo di studio, anno di iscrizione all’università, grado di soddisfazione, voto)

Classificazione dei caratteri Quantitativi:

● Discreti: le modalità sono numeri interi 0,1,2,... (numero di addetti di un’azienda, numero di

componenti di una famiglia, numero di chiamate in arrivo da un call center)

● Continui: le modalità sono tutti numeri reali compresi in un determinato intervallo (altezza, peso,

tempo di attesa, durata di una conversazione telefonica, reddito)

(schema riassuntivo della classificazione delle tipologie di caratteri/variabili)

Per riconoscere a volte i caratteri quando non si riesce a riconoscere la collocazione della variabile si può

utilizzare il seguente schema: 3

Cap. 2 Distribuzioni Statistiche

Dopo aver individuato l’unità statistica, aver scelto i caratteri o le variabili, e aver raccolto i dati ed avere

quindi un collettivo statistico, bisognerà fare una sintesi per migliorarne la lettura, la prima cosa che si andrà a

fare sarà quello di realizzare la distribuzione statistica cioè una rappresentazione del modo in cui le diverse

modalità di un carattere si distribuiscono nelle unità statistiche che compongono il collettivo.

Le distribuzioni semplici disaggregate:

Indichiamo con una X il carattere/variabile di interesse (es: il peso, l’altezza, il sesso etc.) e con x ,x ,...,x le

1 2 n

modalità con cui quel carattere/variabile si può presentare all’interno del collettivo.

Ad esempio avremo x come modalità con cui si presenta quel carattere nella prima unità, x è la modalità

1 2

“assegnata” al carattere nella seconda unità e così via fino a xN dove N è il numero delle unità statistiche.

Esempio:

Nome Colore Capelli

Mario Rosso

Lucia Castano

Francesco Biondo

X = “Colore Capelli”

x = Rosso

x = Castano

x = Biondo

Le distribuzioni di frequenza:

La frequenza dice quante volte quella modalità è presente all’interno di una distribuzione, ad ogni modalità

del carattere X corrisponderà la rispettiva frequenza n:

Modalità (x ) Frequenza (n )

i i

x n

1 1

x n

2 2

… …

x n

k k

Totale N

La definizione di Distribuzione di Frequenza parte da due componenti fondamentali le modalità del carattere

presenti nella distribuzione e le frequenze associate ad esse cioè il numero delle volte che quella modalità si

ripete all’interno di quella distribuzione, k è la numerosità delle modalità distinte che si presentano per quello

specifico carattere all’interno del collettivo statistico

Dove n ,n ,...,n sono le frequenze delle modalità x ,x ,...,x e il totale N è rappresentato dalla somma delle

1 2 k 1 2 k

frequenze che deve necessariamente corrispondere al numero totale delle unità statistiche presenti nel

collettivo statistico. 4

Queste sono le frequenze assolute, ma esistono anche le frequenze relative e le frequenze percentuali, il

passaggio da una frequenza assoluta ad una frequenza relativa o percentuale avviene semplicemente

dividendo dalla frequenza x il numero totale delle osservazioni N ad esempio se prendiamo l’esempio della

figura di sopra relativo al caratte

Anteprima

Vedrai una selezione di 13 pagine su 57