Anteprima
Vedrai una selezione di 3 pagine su 7
Statistica Pag. 1 Statistica Pag. 2
Anteprima di 3 pagg. su 7.
Scarica il documento per vederlo tutto.
Statistica Pag. 6
1 su 7
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Controllo di qualità (verificare la riproducibilità dei dati)

4) Analisi dei dati:

  • Codifica
  • Memorizzazione dei dati su supporto adeguato
  • Analisi statistica

5) Interpretazione dei risultati e verifica dei dati

6) Conclusioni: Divulgazione dei risultati

Accuratezza: proprietà di un sistema di misura a fornire dati che coincidono con la qualità effettivamente misurata.

Precisione: proprietà di un sistema di misura a fornire dati poco dispersivi o molto vicini al loro valore medio

Campionamento: processo che consente di selezionare un sottoinsieme di unità statistiche per giungere a conclusioni generalizzabili per tutta la popolazione.

Perché eseguirlo:

  • Tempo (troppo per studiare l'intera popolazione)
  • Costi (risorse spesso limitate)
  • Difficoltà e identificare l'intera popolazione

Buon metodo: definire la popolazione oggetto di studio, compilare un elenco dal quale estrarre campioni a caso.

Cattivo metodo:

scegliere il campione su basi e criteri di convenienza.

Campionamento casuale semplice: meccanismo di estrazione di 1 campione di popolazione finita, con criterio probabilistico, dove ciascuna unità ha la stessa probabilità di essere inclusa.

Modalità di campionamento:

  • Con reintroduzione (1 elemento dopo essere stato selezionato, è reintrodotto nella lista dove ha le stesse probabilità di essere selezionato in estrazioni successive)
  • Senza reintroduzione (1 elemento dopo essere stato selezionato, non viene reintrodotto)

Campionamento rappresentativo: come ottenerlo

  1. Creare una lista che includa ogni unità della popolazione interessata, assegnare a ogni unità un numero tra 1 e N (dimensione totale popolazione)
  2. Decidere il numero di unità da campionare (n) attraverso dei calcoli
  3. Usare un generatore di numeri casuali compresi tra 1 e il numero di unità
  4. Campionare le unità a cui i numeri coincidono con quelli generati
Misurare le variabili: si usano le scale di misura
  • Scala nominale: si classificano le osservazioni con un valore di etichetta (es. maschio, femmina..)
  • Scala ordinale: valori diversi secondo un criterio di ordine (es. 0=nessun titolo, 1=elementari, 2=medie..)
  • Scala a intervalli: consente di misurare solo grandezze per le quali il valore zero non indica l'assenza della quantità che si sta misurando. Con queste scale è possibile ordinare le misure e calcolare la distanza tra 2 misure.
  • Scala di rapporto: consente di misurare grandezze per le quali il valore zero indica l'assenza della quantità che si sta misurando. Con queste scale è possibile ordinare le misure, calcolare la distanza tra 2 misure e calcolare il rapporto tra 2 misure.
rapporti: rappresenta il livello più alto di misurazione, quando lo zero è assoluto.

Sintesi dei dati: contare quante volte è stata osservata ogni singola modalità.
Si usa la Tabella di frequenza: si usa per:
  • Riassumere un grande insieme di dati
  • Ottenere info riguardo i dati esaminati
  • Disporre di una base per la costruzione dei grafici
Per costruire la distribuzione di frequenza è necessario:
  1. Ordinare i dati
  2. L'operazione di spoglio
Tabella di frequenza: rappresentazione del numero di volte (ni), con cui ciascuna modalità della variabile (X), si presenta in un campione.

Frequenza assoluta: (ni o f) il numero di volte in cui una specifica modalità si presenta nel campione.
Frequenza relativa: si calcola quando si vuole conoscere la proporzione delle osservazioni (ni/n assume valori compresi tra 1 e 0).
Frequenza cumulata: si calcola per ottenere info sulle osservazioni che assumono valori inferiori o superiori alla

Modalità di interesse. I Grafici: essenziali nell'analisi preliminare dei dati rilevati e nella rappresentazione dei risultati.

Vantaggi: evidenziano a "colpo d'occhio", suggeriscono le caratteristiche principali di un fenomeno.

Svantaggi: Soggettivi.

Caratteristiche ottimali di un grafico ed elementi necessari: Semplicità, Chiarezza, Accuratezza.

Tipologie:

  1. X dati Qualitativi:
    • Diagramma a Torta: usato per evidenziare il contributo di ciascuna parte rispetto al totale.
    • Diagrammi rettangoli distanziati: sull'asse delle ascisse abbiamo i nomi, etichette o simboli (le altezze dei rettangoli sono le frequenze, asse delle ordinate).
  2. X dati Quantitativi:
    • Dot-Plot: per ogni osservazione viene disegnato un punto su un asse a riferimenti numerici, consente di individuare facilmente il valore minimo e il valore massimo della variabile e quelli più frequenti.
    • Grafico Ramo-Foglia: il ramo comprende tutte le cifre del valore da rappresentare tranne

La cifra finale che costituisce la foglia; si ordinano i dati in senso crescente, i rami si collocano in colonna con separazione di una linea verticale delle foglie. Per cogliere le caratteristiche più importanti delle distribuzioni di frequenza si utilizzano le statistiche descrittive. Esse sono indici numerici, che con un numero cercano di cogliere le caratteristiche più importanti di una distribuzione di dati. Si possono calcolare in:

  • Campione: li indichiamo con le lettere dell'alfabeto romano, le definiamo statistiche.
  • Popolazione: li definiamo parametri, alfabeto greco.

Variabili Quantitative:

  1. Media: rapporto tra la somma dei dati numerici ed il numero dei dati. Campionaria: indicata con il simbolo (x), è data dalla somma (E) di tutte le osservazioni (i) diviso il numero di osservazioni (n).
  2. Mediana: è il valore centrale tra i dati numerici; Me = (n+1)/2
  3. Moda: è il valore che si presenta con la maggior frequenza, non è

influenzatada valori estremi.

Definizioni:

  • Distribuzione UNImodale: una sola media presente
  • Distribuzione Bimodale: due differenti valori della variabile, con stessa frequenza massima
  • Distribuzione MULTImodale: se vi sono + di 2 valori diversi della variabile con la frequenza massima stessa
  • (Se xi non è ripetuto allora non c'è moda)

I Quartili: dividono in 4 tutte le osservazioni statistiche o sono usati come indice di posizione che fornisce info sulla struttura della distribuzione.

Significato: si ottengono dividendo l'insieme di dati ordinati in 4 parti uguali, più precisamente; il 1° quartile è il valore che lascia alla sua sinistra il 25% degli elementi della distribuzione (detto anche 25esimo percentile). Il 2° quartile coincide con la mediana, lascia alla sua sinistra il 50% dei dati (detto 50esimo percentile). Il 3° quartile è il valore che lascia il 75% a sinistra e il 25% a destra (detto 75esimo percentile).

Calcolo

quartili: (Q1=n+1/4; Q2=2(n+1)/4; Q3=3(n+1)/4)

Misure descrittive di dispersione : importanti per quantificare la variabilità di una distribuzione

  • Range: è una misura della dispersione totale dell'insieme dei dati, molto semplice da calcolare ma non tiene conto di come i dati vengono distribuiti tra il valore più piccolo e quello più grande. (Xmax-Xmin).
  • Scarto semplice: lo scarto misura quanto ciascun dato si discosta dalla media. (xi-x)
  • Varianza: Popolazione / Campione
  • Deviazione standard: è una misura di distanza dalla media, ha sempre valore positivo
  • Intervallo interquartile: misura di variabilità che fa riferimento a Q2 (la mediana), esso è dato dalla differenza tra il 3° quartile e il 1° quartile. (Q3-Q1)

La forma della distribuzione:

  • Asimmetrica positiva (Moda<Mediana<Media)
  • Asimmetrica negativa (Moda>Mediana>Media)
Simmetrica campanulare (Moda=Mediana=Media)
  • Box-Plot: (il grafico + efficiente per esaminare una distribuzione), è una rappresentazione grafica dei dati composta da un rettangolo situato tra Q1 e Q3, diviso da una linea in corrispondenza della mediana e una che va dal valore minimo a quello massimo.
  • Outlier: un'osservazione che dista dal boxplot + di 1,5 volte il range interquartile, per individuarlo si stabilisce un confine superiore e uno inferiore.
  • La Probabilità: essa si basa sul paradigma degli esperimenti o dei fenomeni aleatori (il risultato differisce ogni volta). Deve essere chiaro quale sia lo spazio campionario (S), ovvero l'insieme di tutti gli esiti possibili.
  • Evento: il risultato di un esperimento casuale che può essere:
    • Certo (si verifica sempre)
    • Probabile (può verificarsi oppure no)
    • Impossibile (non si verifica mai)
  • Spazio probabilistico: (p) ad un evento (s), si affianca una probabilità (p)
  • Quantificare una

probabilità:

Classica: P(E) = m/n (p(E) = probabilità che l'evento accada / m = casi favorevoli / n = casi possibili)

Frequenzistica: p(E) = f/n (f = frequenza dell'evento / n = totale delle frequenze)

Interpretazione Bayessiana o Soggettiva: usata per gli eventi irripetibili, essa è il grado di fiducia soggettiva che un individuo ripone nel verificarsi di un evento, su basi e convinzioni del momento. P(A) / 1 - P(A)

Assiomi di Kolmogorov: leggi per il calcolo delle probabilità

La probabilità è un numero compreso tra 0 e 1, 0 < 1, 0 non si verifica, 1 si verifica, 0,5 è la probabilità che accada.

Evento composto: un qualsiasi evento da 2 o più eventi semplici

Probabilità condizionata: probabilità di B dato A, rappresenta la probabilità che si verifichi l'evento B a condizione che si verifichi l'evento A. (Indipendentemente se il verificarsi di uno dei due eventi non ha alcun effetto sull'altro).

Misure di Validità

ltagi negativi al test diagnostico.
Dettagli
A.A. 2021-2022
7 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Riccardocavallo00 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Sassari o del prof Solinas Maria Giuliana.