Anteprima
Vedrai una selezione di 3 pagine su 6
Introduzione alla statistica Pag. 1 Introduzione alla statistica Pag. 2
Anteprima di 3 pagg. su 6.
Scarica il documento per vederlo tutto.
Introduzione alla statistica Pag. 6
1 su 6
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Big data e data science

I big data sono dataset grandi e complessi e sono definiti tramite il volume, velocità e varietà. Ad esempio, i dati prodotti dall'attività sui siti web o i testi prodotti dall'attività sui social network. Le sfide poste dai big data richiedono competenze sia di statistica che di informatica oltre che conoscenze di dominio, come economia, e si parla di data science.

Statistica nelle attività operative: quando l'attività operativa presenta delle difficoltà, la decisione si realizza in varie fasi:

  1. Individuazione e descrizione dello scopo delle attività
  2. Analisi della situazione di partenza
  3. Esame dei mezzi e degli strumenti da utilizzare
  4. Previsione dei risultati conseguiti
  5. Decisione finale

Pensiamo alla decisione di aprire un supermercato in una certa zona. La statistica diviene necessaria per il reperimento e analisi dei dati concernenti gli esercizi simili nella zona e con la.

La statistica si capiscono le preferenze dei consumatori. In ogni attività operativa di qualche rilevanza e complessità la statistica può essere di ausilio per assumere decisioni ponderate, fondate sull'osservazione e sulla previsione dei fatti.

Terminologia: i dati assumono la veste di statistiche se sono il risultato dell'osservazione intenzionale di una molteplicità di casi individuati finalizzata alla conoscenza e alla composizione di un fenomeno. Si chiama collettivo statistico la molteplicità, l'insieme di casi individuali, in cui si manifesta il fenomeno oggetto di studio. L'espressione è appropriata sia per designare la totalità dei casi (popolazione) sia la parte della totalità dei casi (campione). In un sondaggio sull'opinione degli italiani sull'euro basata su 150 persone intervistate. Il collettivo statistico è l'insieme degli intervistati e si tratta di un campionamento dato che su tutti i

cittadini italiani ne sono stati scelti 150. Si chiama unità statistica il caso individuale componente del collettivo statistico (come una scuola) e deve essere definita in modo rigoroso, mentre per carattere si intende ogni aspetto elementare e ogni caratteristica dell'oggetto di rilevazione nelle unità statistiche del collettivo. Nel nostro esempio, l'unità statistica è il singolo intervistato o il singolo cittadino mentre, il carattere è la sua opinione. Si chiamano modalità del carattere i diversi modi con cui questo si manifesta nelle unità statistiche del collettivo che nell'esempio sono "favorevole" e "non favorevole". Le modalità devono essere esaustive, ossia rappresentare tutti i possibili modi di essere del carattere e non essere sovrapposte. Ecco le tipologie: Fonti di variabilità: misurazioni ripetute della stessa unità statistica (errore di misurazione); misurazione di.

Diverse unità statistiche (variabilità del carattere nella popolazione come il livello di colesterolo in due persone); risultati di processi casuali (lancio della moneta). Consideriamo l'immagine in figura. Le aree scure raffigurano le contee degli USA che hanno registrato tra il 1980-1989 i tassi più bassi di mortalità per cancro al rene. Si nota come le aree rurali siano le più salutari. Allo stesso tempo i tassi più alti si trovano in zone anch'esse rurali. Perché? Il motivo principale è che le contee delle aree rurali hanno minor popolazione e sono soggette a maggior variabilità. Regione grande: 1000 casi/1000000 abitanti = 1 per mille; con un abitante in più (1001) non cambia nulla. Nelle regioni piccole 1 caso/1000 abitanti = 1 per mille ma se i casi sono 2 allora saranno 2 per mille cioè, il doppio.

Misurazione dei caratteri: la misurazione è in realtà la descrizione verbale del carattere.

nell'unità osservata; per i caratteri discreti è un conteggio, per i continui si tratta di una vera misurazione. Misurare un carattere qualitativo significa osservare le modalità che si presentano nelle singole unità statistiche. Le modalità possono essere predefinite e inserite come tali nel questionario o nella scheda di rilevazione. Questo passaggio non sussiste quando le modalità sono desunte a posteriori dalla descrizione dettagliata che il rilevatore fa dello stato della singola unità relativamente al carattere in questione, in questo caso la determinazione delle modalità è basata sulla risposta a più quesiti. La variabile si indica con la lettera maiuscola, la modalità con la minuscola. Determinare le modalità di un carattere qualitativo equivale a costruire una scala di riferimento fatta di nomi o espressioni ed essa può essere nominale oppure ordinale. La scala nominale consente soltanto di

classificare le unità del collettivo statistico in tanti gruppi distinti quante sono le modalità del carattere, gruppi che internamente presentano omogeneità rispetto al carattere considerato. La scala ordinale consente di classificare le unità statistiche in gruppi omogenei e di graduare i gruppi in base all'ordine che le modalità presentano. Per i caratteri discreti la misurazione si risolve in un conteggio. La scala con cui si misura un carattere discreto è la cosiddetta scala proporzionale. Le modalità del carattere sono espresse da numeri, talché esse consentono di classificare le unità statistiche del collettivo in gruppi omogenei, di graduare i gruppi secondo il valore della modalità e di misurare la differenza tra i gruppi tramite le differenze o il rapporto tra le modalità. Per i caratteri continui la misurazione di un carattere continuo comporta un'approssimazione dovuta al troncamento dei numeri, i

limiti di precisione dello strumento di misura uniti allacapacità limitata di lettura impongo di usare pochi decimali. La prima scelta è relativa al livello di precisione che si vuole raggiungere che è legato all'ordine di grandezza del fenomeno. Dopo di ciò, ovviamente, capiamo quale strumento usare per compiere la nostra indagine. Successivamente, il rilevatore annota i risultati esprimendoli nell'unità prescelta ed effettuando l'adeguata approssimazione. Se è al cm allora 147 sarà compreso tra 146,5 e 147,5 se è al mm allora tra 146,95 e 147,05. Ogni volta che si procede alla misurazione di un carattere continuo la misura sottintende un intervallo chiamato "di tolleranza". Come eccezione possiamo prendere l'età dove al massimo potremo dire [52,53) se l'età è 52 anni. La scala con cui si misurano i caratteri continui è quella proporzionale, con l'eccezione dei

Caratteri per i quali lo 0 è un numero convenzionale che non significa assenza del carattere. NB: spesso nella matrice dei dati le modalità delle variabili qualitative vengono espresse in numeri ma non scaturiscono da una misurazione, sono solo una facilitazione. Le scale di misurazione vanno da: nominale -> ordinale -> intervalli -> rapporti. Si può passare da una scala informativa ad una meno informativa ma è raro il viceversa (se non facendo ipotesi non verificabili). Le variabili ordinali possono essere trasformate in quantitative con lo scoring: basso=1, medio=2, alto=3 ma occorre cautela dato che il sistema dei punteggi è arbitrario e se cambia il punteggio allora cambia tutto.

Genesi dati statistici: i dati statistici traggono origine da un'attività intenzionalmente svolta all'acquisizione di informazioni sul fenomeno o sui fenomeni di interesse. Dal punto di vista dell'utilizzatore, le fonti si distinguono in primarie e

casuale stratificato: la popolazione viene suddivisa in gruppi omogenei chiamati strati e da ogni strato viene selezionato un campione casuale semplice.Campione casuale sistematico: viene selezionata una unità a caso e poi viene selezionata ogni k-esima unità successiva.Campione per quote: la popolazione viene suddivisa in gruppi omogenei chiamati quote e viene selezionato un numero di unità proporzionale alle quote.Campione per convenienza: vengono selezionate le unità più facilmente accessibili o disponibili.Campione per giudizio: vengono selezionate le unità in base al giudizio dell'esperto.Campione per snowball: vengono selezionate le unità iniziali e poi vengono reclutate altre unità attraverso il passaparola.

sistematico: supponendo che il numero delle unità della popolazione N sia multiplo della dimensione del campione n, assumendo che le unità sianoelencate in una lista, definiamo il passo di campionamento N/n=p e selezioniamocasualmente un numero minore o uguale a tale rapporto. Se r è il numero casualeestratto, si definisce campione sistematico l’insieme delle unità contraddistinte dainumeri [r,r+p; r, r+p(n-1)]; se non è multiplo di n si assume come passo dicampionamento l’intero più vicino al rapporto.

Campione casuale stratificato: suddividiamo la popolazione in più classi che contengono unità tra loro omogenee ed estraiamo un campione casuale semplicedi opportuna grandezza.

Campione casuale a grappolo: popolazione suddivisa in sottoinsiemi dai quali prendiamo un campione casuale semplice e consideriamo tutte le unitàappartenenti.

Campione casuale a due stadi: ci si limita alla rilevazione di un

campione semplice• estratto dal grappolo.Campione per quote: popolazione divisa in strati, definite le persone da intervistare• per ogni quota e l'intervistatore sceglie delle persone da intervistare per ogni strato.Campione a valanga: si individuano persone che a loro volta ne individuano altre.Campione per testimoni privilegiati: chiamate persone esperte sull'argomento.Alla base vi è il piano di indagine che specifica tutti gli aspetti attinenti allo svolgimento dello studio e la scelta del piano di campionamento.Esperimenti: si parla di esperimento quando persone, animali o oggetti vengono sottoposti ad un trattamento per osservare su di essi la risposta, ossia la reazione al trattamento. Per trattamento si intende una specifica condizione sperimentale nella quale le unità statistiche vengono osservate, tale condizione è determinata dal livello assunto da uno o più caratteri detti fattori.Studi di osservazione: esiste una situazione

intermedia rispetto ai due processi

Dettagli
Publisher
A.A. 2021-2022
6 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cocco0 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Grilli Leonardo.