Anteprima
Vedrai una selezione di 4 pagine su 15
Statistica descrittiva - teoria Pag. 1 Statistica descrittiva - teoria Pag. 2
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Statistica descrittiva - teoria Pag. 6
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Statistica descrittiva - teoria Pag. 11
1 su 15
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Modalità

Le modalità sono le diverse manifestazioni delle variabili statistiche (le diverse possibili risposte che posso ricevere dall'intervistato riguardo alla stessa domanda), si identificano con lettere minuscole (x, y, z...) x (piccolo) in generale rappresenta una qualsiasi modalità e devo trovare un modo per specificare a quale manifestazione sto facendo riferimento: x + aggiungo un numero accanto (a seconda di quante sono le risposte). Es. variabile X lavoro? Manifestazione x1 si lavoro / x2 no non lavoro. Variabile Y genere? Manifestazione y1 maschio / y2 femmina. Variabile Z età? Manifestazione z le manifestazioni sono tantissime. K: numero di modalità osservate per ogni variabile (numero di risposte possibili date per la stessa domanda), vale solo per le modalità realmente osservate. Es. nel lavoro (X) le modalità sono 2 quindi k=2: lavora x1; non lavora x2. Nel genere k=2: maschio x1; femmina x2!!! x + un numero n: mi.

Permette di assegnare un codice ad ogni modalità (se ne ho più di una). La modalità x in generale è associata ad una persona ma come faccio a capire a chi? (generalmente le indagini vengono svolte su ampia scala): (il lavoro / non lavoro è riferito in generale o alla 1^/2^/... persona che ho intervistato?)

Possibili manifestazioni in astratto:

  • Modo di manifestarsi sull'individuo singolo
  • GENERICA MODALITÀ del CARATTERE X xi → Nella statistica descrittiva il simbolo xi indica il valore assunto dalla variabile X nella i-esima osservazione con i che varia da 1 a k (numero massimo di modalità osservabili).

Quando sappiamo che una variabile si identifica con k possibili manifestazioni ognuna deve essere associata ad un simbolo xi i è un valore che varia da 1 a k → Xi: generica modalità osservabile e osservata di x non dico su chi l'ho osservata, mi preoccupo solo quante e quali modalità sono state osservate.

Esempio:

età in una stanza 10 persone con 4 età differenti4 xi (x1= 18 anni; x2= 19 anni; x3= 20 anni; 4= 21 anni)

K=4 MODALITÀ del CARATTERE X per l’u-esima UNITÀ STATISTICA xuXu è una persona a cui è assegnato un dato, modalità osservata sulla persona specificau (u=unità, persona singola, non sulla generalità)

24.02 COLLETTIVO STATISTICO: insieme di unità su cui si rilevano i caratteri (insieme di persone su cui svolgo l’indagine)

u UNITÀ STATISTICA: ogni singola unità che compone il collettivoN NUMEROSITÀ del COLLETTIVO: quanti elementi appartengono all’insieme di interesseN (è un valore) u=1, … , N (u è un indice che varia da 1 a N)

Es. se siamo in 110 nella stanza l’unità può variare per 110 volte

Devo dare un simbolo a ciò che ho osservato rispetto ad x su ogni unità ho tante xu quante sono le unità del

colonna: N= CARATTERISTICHE (le domande poste alle famiglie) Terza colonna: xi= RISPOSTE (le modalità osservate per ogni caratteristica) Quarta colonna: xu= VALORI (i valori che variano da 1 a N per ogni caratteristica)colonna:Trova le modalità (il dato è LE REGIONI e le possibili "risposte" date sono 4 regioni in particolare) k=4 (Friuli, Lombardia, Piemonte, Veneto), la i varia da 1 a 4 perché 4 sono le regioni di residenza che ho osservato
X= regione
u= ogni regione, ad ognuna do un numero in modo da formare simboli
Supponiamo che x1 Lombardia, x2 Piemonte x3 Friuli x4 Veneto in termini di xi
Terza colonna (il dato è il TITOLO DI STUDIO e le possibili "risposte" sono 6)
xu: titolo di studio (diploma x1, elem x2…) xi: quante modalità di titoli di studio sono state osservate (nessuno, elementare, media, diploma, laurea, post-laurea) e sono 6 quindi k=6; i varia da 1 a 6
Decido chi è x1, x2, x3… ; il titolo di studio ha forza crescente o decrescente e le ordino in ordine crescente quindi:
Nessuno xi
Elementare x2
Media x3
Diploma x4
Laurea x5
Post-laurea x6
Quarta colonna (il numero diimmobili corrisponde alla nuova xu: 16 (16 righe);
  • xi: 4 0,1,2,3; i varia da 1 a 4 (x1 0 immobili; x2 1 immobile; x3 2 immobili; x4 3 immobili)
Esempio:
  • u= i singoli alunni
  • N= 23 alunni
  • Caratteri / variabili=
    • genere X
    • numero di libri letti X
Modalità osservabili xi=
  • analizzo singolarmente i vari caratteri:
  • genere: modalità osservabili in questo caso k=2 quindi xi varia da 1 a 2 e
    • divido: maschio: x1
    • femmina: x2
  • numero di libri letti: modalità osservabili k non è definito perché le
    • risposte possono essere infinite, il meccanismo sarebbe:
    • zero libri: x1
    • un libro: x2
    • tre libri: x3
    • ...
Modalità osservate xu=
  • analizzo singolarmente i vari caratteri:
  • genere: u varia da 1 a 23 (N=23 alunni in tot), ci sono 23 valori di x
  • numero di libri letti: si avranno 23 risposte differenti, ogni alunno
darà la propria SUCCESSIONE DI DATI I dati non vengono sempre forniti come matrice di dati ma possono essere forniti in riga tramite successione di dati. SEMPLICE: riguardo un solo dato (es. mi interessa solo l'età)
  • X1, x2, x3, x4, xu, ..., xN
  • 1, 18, 24, 36, ..., 85, 61.000.000
Il totale forma la N (i dati sono divisi da un DELIMITATORE che è la virgola, il punto e virgola o lo spazio). DOPPIA: riguardo 2 dati (es. età (X) e genere(Y) le unità statistiche sono tra
  • (xu, yu), (xy, yu), (xN, yN), (x1, y1), (x2, y2), ...
  • (18, maschio), (0, femmina), (85, femmina), (101, maschio)
Ad ogni parentesi corrisponde un'unità statistica, il numero di parentesi corrisponde al numero di persone. TRIPLA: riguarda 3 dati (es. età, genere, titolo di studio)
  • (xu, yu, zu), (xu, yu, zu), (xN, yN, zN), (18, maschio, diplomato), (0, femmina, nessuno), (85, femmina, ...
  1. elementare), (01, maschio, media); i dati all'interno di ogni unità statistica appartengono alla stessa u (unità)
  2. SERIE STORICA: dati disaggregati dove l'u statistica è il TEMPO (es. giorni in cui si osserva un fenomeno, l'unità statistica è il singolo giorno)
  3. SERIE TERRITORIALE: l'unità statistica è il territorio, una ripartizione geografica (es. distribuzione degli ospedali nelle varie province dell'Emilia-Romagna)

TIPOLOGIA DI CARATTERI: a seconda della loro natura originale

Generati da una misura / conteggio quantitativi:

  • Generati da stringhe / attributi qualitativi:

CARATTERI QUALITATIVI: hanno modalità che sono stringhe o attributi (es. CAP, nazionalità, sesso). Quando le modalità che i dati possono assumere sono sottoforma di sostantivo o attributo.

Sconnessi: non è possibile stabilire un ordinamento delle modalità (es. sesso, non

c'è priorità tra i due, non posso ordinarli in ordine preciso)Ordinali / ordinabili: le modalità possono essere ordinate secondo in ordine preciso crescente o decrescente (es. titolo di studio, taglia di un abito)

CARATTERI QUANTITATIVI: se nascono da operazioni di conteggio e hanno valore numerico (es. età, numero figli…)

Discreti: sono sempre numeri interi (senza virgola, finiti) derivano da un'operazione di conteggio (es. numero di case, figli, macchina…) non trovo mai un dato in mezzo a due dati molto vicino (se uno ha 2 figli e uno 3 non posso trovare uno che abbia 2,5 figli)

Continui: spesso hanno la virgola derivano da un'operazione di misura (es. altezza, ricchezza, peso, età…) tra due dati molto vicino posso sempre trovarne uno in mezzo ai due (se uno pesa 18kg e uno 19kg posso trovare qualcuno che pesa 18,5kg) Spesso i dati continui vengono discretizzati grazie ad uno strumento

Prima di fare analisi devo capire di che natura sono i dati. L'obiettivo della STATISTICA DESCRITTIVA è trovare strumenti che mi consentono di riassumere cosa c'è in una matrice di dati univariata in modo da sintetizzarli le informazioni su una colonna. DISTRIBUZIONI DI FREQUENZA SEMPLICE Ragionando sulla statistica univariata, per semplificare una matrice di dati, posso usare la distribuzione di frequenza semplice: per ogni riga una modalità osservata da un carattere, nella seconda colonna le frequenze assolute semplici (che si lavora su una sola variabile). Si parte dalle matrici di dati per arrivare alla costruzione delle DISTRIBUZIONI DI FREQUENZA SEMPLICE (permette la diminuzione delle righe e una visione più chiara della situazione). Costruzione di una tabella con: - Prima colonna nome prima variabile X (regione) e sotto elenco delle modalità: - xi (Friuli, Lombardia, Piemonte, Veneto) - Seconda colonna conto quante famiglie (unità)

statistiche) assumono ogni modalità (per ogni regione quante famiglie ci vivono). Il numero di famiglie di chiama FREQUENZA ASSOLUTA SEMPLICE, conteggio di unità statistiche che assumono l'i-esima modalità del carattere (varia da 1 a k), nel nostro esempio 5 è n1 (numero famiglie in Friuli) e l'ultimo è nk (4 famiglie in Piemonte)

L'ultima riga serve per il totale che deve corrispondere a NRegioni (X) Numero di famiglie pe

Dettagli
A.A. 2021-2022
15 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alessia.alberghini di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bologna o del prof Roli Giulia.