Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
STATISTICA
Quando viene fatta un’indagine statistica sulla singola unità statistica io posso rilevare diverse variabili (sesso,
reddito etc.) se per esempio sto facendo l’indagine su tutti i cittadini del comune di Pescara e genererò la
matrice di unità variabili, per arrivare a questo risultato però ho già fatto una prima analisi per capire “chi” o
“cosa” rappresenterà l’unità variabile (cittadino abitante del comune di Pescara) e quali saranno le variabili o
le domande che dovrò fare ad ogni cittadino (Sesso, Reddito, Numero di Figli etc.).
Non è sempre semplice però la scelta di queste informazioni, ci sono alcuni dati per i quali è più difficile
generare quella struttura matriciale, ad es. pensando ai Social Media, in questo momento c’è un forte
dibattito sul green pass, chi è contro e chi è a favore, se la politica vuole conoscere il sentiment dei cittadini,
può prendere come base di dati o dataset i commenti o i post che i cittadini fanno sui social, oppure se io ho
un e-commerce posso usarlo per capire come presentare il mio prodotto etc. etc. chiaramente abbiamo una
quantità enorme di informazioni e di immagini, e qui interviene la tecnologia che permette agli statistici di
avere a disposizione questi dati in una forma che possano essere utilizzati, quando ci si trova a lavorare con i
testi (es un twitt) bisogna sintetizzare per capire se quel testo rappresenta una posizione pro o contro ad
esempio, a volte devo farlo con delle immagini o con i video etc.
In statistica a volte non è possibile avere tutte le unità statistiche a disposizione, o meglio non sarà possibile intervistare
l’intero collettivo statistico (Collettivo = Insieme di unità statistiche omogenee rispetto ad alcuni caratteri di cui si
acquisiscono informazioni per studiarne le modalità) ma si lavora su un campione (sottoinsieme) es. se devo fare una
statistica sui cittadini del comune di Pescara chiaramente verrà intervistata solo una parte e non tutti i cittadini,
successivamente si riporterà il risultato di questo campione ad un livello più generale, es. io ho un budget per le
interviste che mi permette di avere i dati di 100 persone dell’intera popolazione di Pescara che è circa 120mila persone,
successivamente bisogna “generalizzare” ad un livello più ampio cioè dell’intera popolazione, questa meccanica è
relativa all’ambito dell’inferenza statistica, non è sempre possibile generalizzare il risultato che si ottiene.
Per ottenere i dati statistici ci sono 2 modalità:
Indagine Statistica: i dati che si vogliono acquisire si riferiscono ad una popolazione finita, le cui unità sono entità
(persone, imprese, abitazioni, etc.) esistenti, individuabili e osservabili
Esperimento: quando persone, animali o oggetti vengono sottoposti a un “trattamento” per osservare su di essi la
risposta ossia la reazione al trattamento (avviene soprattutto in ambito medico per testare es. effetti dei farmaci), quelli
che hanno partecipato alla sperimentazione si chiameranno “trattati”
La statistica ha come interesse principale lo studio dei “fenomeni collettivi”, il singolo individuo non ci interessa.
Terminologia Statistica
● Unità Statistica: Unità di riferimento su cui io voglio svolgere la mia analisi, le informazioni che rileverò lo
farò relativamente all’unità statistica, l’oggetto di osservazione di ogni fenomeno individuale che costituisce
il fenomeno collettivo (l’unità elementare su cui viene osservato il fenomeno oggetto di studio)
● Collettivo Statistico: è l’insieme delle unità statistiche
● Carattere/Variabile: Sono le informazioni rilevanti che io devo raccogliere per ogni singola unità statistica,
es se l’unità statistica è una persona potrei essere interessato a raccogliere le seguenti variabili o caratteri:
se è maschio o femmina, il salario, altezza, peso etc.
● Modalità/Attributo: sono le possibili risposte es: Maschio o Femmina della specifica variabile sesso (non
quantitativa)
● Fattore: è un termine che riferito ad una variabile specifica che permette in base alle sue modalità di
risposta di suddividere il collettivo statistico in sottogruppi
Per poter realizzare un’indagine statistica in maniera appropriata bisogna acquisire delle informazioni principali che
riguardano prima di tutto va identificata quella che è l’unità statistica successivamente bisogna identificare le variabili
che possono essere osservate su ognuna di esse e infine dopo aver generato la matrice di unità variabile bisogna
cercare e utilizzare le metodologie che ci permettono di identificare l’informazione sottesa a quella matrice
Le variabili possono essere distinte e classificate principalmente secondo due tipologie: 1
● Variabile categoriali/qualitativi: rappresenta un attributo dell’unità statistica e spesso divide le unità in gruppi
● Variabile quantitativa: si riferisce ad una quantità misurabile, sono delle variabili che possono essere definiti
solo dopo un processo di “misurazione” cioè esiste uno strumento che permette di misurare la variabile (es:
l’altezza, il peso)
Esempio:
Year: categoriale Height: quantitativa
Gender: categoriale Weight: quantitativa
HigherSAT: categoriale Exercise:
SAT: quantitativa quantitativa
GPA: quantitativa TV: quantitativa
Sibling: quantitativa Pulse: quantitativa
Award: categoriale
Le variabili idonee vanno scelte con cura durante la costruzione della matrice variabile dei dati, più accurata è
la fase iniziale di scelta delle variabili e più avrò dei dati affinati e sarà semplice riuscire a trovare la risposta
alla domanda che mi viene posta inizialmente.
Se le variabili non sono direttamente relazionate al problema che sto affrontando, quelle variabili sono di
disturbo e in alcuni casi possono anche essere ridondanti.
A volte per riuscire a rappresentare graficamente la matrice bisogna ridurre la dimensionalità delle variabili,
es. sul piano cartesiano posso rappresentare solo 2 o massimo 3 variabili.
Le indagini che vengono effettuate sulle popolazione possono essere fatte in due modi o censuarie o
campionarie, quelle censuarie vengono fatte sulla TOTALITA’ della popolazione, le campionarie sono fatte su
un sottoinsieme ridotto di tutta la popolazione, chiaramente nel caso in cui si sceglie la modalità campionaria,
devo fare attenzione a che le unità statistiche siano rappresentative e non presentino distorsioni (es: se sto
facendo un’indagine statistica per decretare il livello di reddito o di ricchezza o povertà dell’individuo e
raccolgo i dati del campione solo nel quartiere più povero o più ricco della città, avrò delle distorsioni, devo
assicurarmi che non ci siano queste problematiche, solitamente si usa il metodo di scelta delle unità
statistiche da interrogare in maniera casuale). 2
Classificazione dei caratteri Qualitativi:
● Sconnessi: Caratteri/Variabili che hanno come modalità denominazioni verbali per le quali non esiste
(e non è possibile stabilire) un ordinamento (sesso, religione, regione di residenza, luogo di nascita,
tipo di laurea)
● Ordinabili: Hanno per modalità denominazioni verbali per le quali esiste un ordinamento naturale
(titolo di studio, anno di iscrizione all’università, grado di soddisfazione, voto)
Classificazione dei caratteri Quantitativi:
● Discreti: le modalità sono numeri interi 0,1,2,... (numero di addetti di un’azienda, numero di
componenti di una famiglia, numero di chiamate in arrivo da un call center)
● Continui: le modalità sono tutti numeri reali compresi in un determinato intervallo (altezza, peso,
tempo di attesa, durata di una conversazione telefonica, reddito)
(schema riassuntivo della classificazione delle tipologie di caratteri/variabili)
Per riconoscere a volte i caratteri quando non si riesce a riconoscere la collocazione della variabile si può
utilizzare il seguente schema: 3
Cap. 2 Distribuzioni Statistiche
Dopo aver individuato l’unità statistica, aver scelto i caratteri o le variabili, e aver raccolto i dati ed avere
quindi un collettivo statistico, bisognerà fare una sintesi per migliorarne la lettura, la prima cosa che si andrà a
fare sarà quello di realizzare la distribuzione statistica cioè una rappresentazione del modo in cui le diverse
modalità di un carattere si distribuiscono nelle unità statistiche che compongono il collettivo.
Le distribuzioni semplici disaggregate:
Indichiamo con una X il carattere/variabile di interesse (es: il peso, l’altezza, il sesso etc.) e con x ,x ,...,x le
1 2 n
modalità con cui quel carattere/variabile si può presentare all’interno del collettivo.
Ad esempio avremo x come modalità con cui si presenta quel carattere nella prima unità, x è la modalità
1 2
“assegnata” al carattere nella seconda unità e così via fino a xN dove N è il numero delle unità statistiche.
Esempio:
Nome Colore Capelli
Mario Rosso
Lucia Castano
Francesco Biondo
X = “Colore Capelli”
x = Rosso
1
x = Castano
2
x = Biondo
3
Le distribuzioni di frequenza:
La frequenza dice quante volte quella modalità è presente all’interno di una distribuzione, ad ogni modalità
del carattere X corrisponderà la rispettiva frequenza n:
Modalità (x ) Frequenza (n )
i i
x n
1 1
x n
2 2
… …
x n
k k
Totale N
La definizione di Distribuzione di Frequenza parte da due componenti fondamentali le modalità del carattere
presenti nella distribuzione e le frequenze associate ad esse cioè il numero delle volte che quella modalità si
ripete all’interno di quella distribuzione, k è la numerosità delle modalità distinte che si presentano per quello
specifico carattere all’interno del collettivo statistico
Dove n ,n ,...,n sono le frequenze delle modalità x ,x ,...,x e il totale N è rappresentato dalla somma delle
1 2 k 1 2 k
frequenze che deve necessariamente corrispondere al numero totale delle unità statistiche presenti nel
collettivo statistico. 4
Queste sono le frequenze assolute, ma esistono anche le frequenze relative e le frequenze percentuali, il
passaggio da una frequenza assoluta ad una frequenza relativa o percentuale avviene semplicemente
dividendo dalla frequenza x il numero totale delle osservazioni N ad esempio se prendiamo l’esempio della
i
figura di sopra relativo al caratte