Anteprima
Vedrai una selezione di 3 pagine su 8
Statistica - Appunti Pag. 1 Statistica - Appunti Pag. 2
Anteprima di 3 pagg. su 8.
Scarica il documento per vederlo tutto.
Statistica - Appunti Pag. 6
1 su 8
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

STATISTICA

La statistica è la scienza che si occupa di come raccogliere e utilizzare dati al fine di estrarre informazione. La statistica permette di quantificare, non eliminare, l'incertezza nei vari contesti.
  • Popolazione: insieme completo di tutte le unità oggetto di studio. La dimensione della popolazione, N, può essere anche infinita.
  • Campione: sottoinsieme della popolazione, unità osservate. Si indica con n la dimensione. n
  • Campione casuale: campione scelto a caso dove ogni unità aveva la stessa possibilità di essere scelta dalla popolazione 1/N.
  • Parametro: caratteristica specifica della popolazione. Rimarrà sconosciuto a noi statistici. Se lo fosse la statistica non esisterebbe.
  • Statistica: caratteristica specifica del campione, funzione dei dati. È ottenuta svolgendo calcoli o analisi nel campione.
Esistono due grandi capitoli della statistica:
  • Statistica descrittiva: metodi grafici enumeri per sintetizzare e elaborare dati
    • Statistica inferenziale: metodi per ottenere previsioni, stime di parametri e verificare ipotesi
    Esistono varie classificazioni delle variabili di interesse:
    • Variabili categoriche: appartengono a gruppi o categorie. Sono spesso ottenute rispondendo a domande con risposta chiusa.
      • Variabili ordinali -> si/no; poco/molto; lun, mar, merc…
      • Variabili non-ordinali -> città, lavoro, marca
    • Variabili numeriche.
      • Variabile numerica discreta -> può assumere un numero finito di valori
      • Variabile numerica continua -> può assumere un valore qualsiasi in un intervallo di numeri reali, spesso originata da misurazione (tempo, distanza, temperatura, peso).
    Regola pratica per distinguere le variabili discrete da quelle continue: se è importante distinguere ogni valore che la variabile numerica può assumere, allora la variabile è discreta. Altrimenti si tratta di variabile continua (non numeri per sintetizzare e elaborare dati).èimportante distinguere valori simili). Il prezzo di un'azione è continua. La distribuzione di frequenza è una tabella per riassumere i dati e consiste in:
    • Modalità (o classi di misura): tutte le possibili risposte o realizzazione dellavariabile
    • Frequenze: numero di frequenze per ogni modalità di classe
    È semplice costruire distribuzioni di frequenza per variabili che assumono pochi valori.
    1. Scegliere il numero di classi
    2. Calcolare l'ampiezza dell'intervallo: (Valore massimo - Valore minimo) / Ampiezza dell'intervallo = Numero di classi
    3. Contare quante osservazioni cadono in ogni classe per ottenere le frequenze
    Le classi devono coprire tutti i valori osservati della variabile e non devono sovrapporsi. Le classi possono avere ampiezza diversa, ma per facilitare l'interpretazione della distribuzione di frequenza è preferibile avere classi della stessa ampiezza. La distribuzione di frequenza dàun’informazione aggregata. La frequenza relativa è una standardizzazione della frequenza. Il calcolo ètriviale. Per ogni classe: Frequenza relativa = Frequenza / numero totale diosservazioni Due proprietà fondamentali delle frequenze relative: • Ogni frequenza relativa è compresa tra zero e uno; • La somma di tutte le frequenze relative è uguale a uno. Nell’istogramma delle frequenze relative, se le classi sono di diversa ampiezza,l’area della barra (non l’altezza) rappresenta la frequenza relativa. Le frequenze relative cumulate, semplicemente, sommano o ‘cumulano’ lefrequenze relative nelle classi ordinate. Per calcolare la frequenza cumulata del dato in oggetto, dobbiamosemplicemente sommare la sua frequenza assoluta al totale precedente. Inparole più semplici, occorre sommare all'ultima frequenza cumulata calcolatala frequenza assoluta dell'elemento corrente. In molti casi, i dati tendono aconcentrarsi intorno ad un particolare valore. L'istogramma delle frequenze può visualizzare questa tendenza e dare un' impressione qualitativa del fenomeno. Misure di centralità, o misure di tendenza centrale, danno una misura quantitativa del fenomeno. Media, mediana e moda sono tipiche misure di centralità.
    • Moda: è la modalità che si presenta il maggior numero di volte. Esattamente come nella moda "fashion": un vestito è di moda quando lo indossa la maggior parte delle persone.
    • Media: è la somma dei valori osservati diviso il numero di osservazioni - Se i dati si riferiscono a un'intera popolazione si tratta di un parametro - Se i dati si riferiscono ad un campione si tratta di una statistica.
    • Outlier: valori estremi molto grandi o molto piccoli rispetto alla maggior parte dei valori osservati. In un istogramma, gli outlier si trovano lontano dal centro dei dati.
    Questo è un concetto.

    Importante perché la media è molto sensibile agli outlier, a differenza della mediana, ed è per questo che è importante.

    • Mediana: è l'osservazione centrale di un insieme di osservazioni ordinate in modo crescente (o decrescente)
      • Se il numero di osservazioni n è dispari, la mediana è l'osservazione centrale
      • Se il numero di osservazioni n è pari, la mediana è la media delle due osservazioni centrali

    Alcuni fattori importanti da ricordare per la mediana: la mediana divide la distribuzione delle frequenze in due parti uguali, 50% a sinistra e 50% a destra. Se la distribuzione di frequenza è simmetrica, la media e la mediana coincidono. Se la distribuzione di frequenza è asimmetrica positiva, la media tende a essere maggiore della mediana (outlier positivi tendono a trovarsi a destra e alzano il valore della media). La differenza tra media e mediana è una misura di asimmetria della distribuzione.

    di frequenza. La media, pur non essendo robusta agli outlier, rimane una misura di centralità molto importante. Nella statistica inferenziale (e in probabilità), la media ha un ruolo più importante della mediana. In generale, nella statistica descrittiva, media e mediana danno due informazioni diverse, complementari ed entrambe utili. Queste misure di centralità sono sicuramente importanti ma non danno una descrizione completa dei dati, non riflettono la variabilità o la dispersione dei dati. Come ad esempio fa il range. - Range: differenza tra massimo e minimo dei valori osservati. Variabile facile da calcolare ma è estremamente sensibile agli outliers e non dà informazioni sulla variabilità degli altri valori osservati. Il quantile al livello α, indicato con q, è il valore dei dati che divide la distribuzione di frequenza relativa in due parti, α e (1- α). Esempio: con α = 0.25, q divide la distribuzione di frequenza relativa in due parti, 0.25 e 0.75.

    distribuzione di frequenza relativa in 0.25, 0.5 e 0.75. In un istogramma di frequenze, il quantile è un valore sull'asse delle x. I quantili sono una funzione crescente del livello di α. Dato che non sempre esiste un valore dei dati che divide la distribuzione di frequenza esattamente in α e (1- α), abbiamo bisogno di una definizione più esatta. Il quantile al livello α ∈ (0, 1), q è il più piccolo valore tale per cui la sua α frequenza relativa cumulata è maggiore o uguale a α. I quantili possono essere di diverso tipo: percentili, decili, quartili.

    Range interquartile: misura la variabilità del 50% centrale dei dati (ampiezza della pancia della distribuzione). È robusto agli outlier come la mediana, ed è generalmente rappresentato in un boxplot (grafici potenti che permettono di sintetizzare e visualizzare distribuzioni). = Q3 - Q1

    Il range interquartile si basa su due valori Q1 e Q3 e non tiene

    standard / media) * 100.

    PROBABILITÀ

    La probabilità è un numero compreso tra 0 e 1 e indica quanto è probabile o verosimile che un dato si realizzi. Un evento che ha probabilità 0 non si realizzerà, al contrario di un evento che ha probabilità 1.

    Secondo la definizione classica, assumendo che tutti gli eventi elementari dello spazio campionario siano ugualmente possibili, la probabilità di un evento A è:

    probabilità = esiti favorevoli / esiti possibili

    Secondo l'interpretazione frequentista, la probabilità di un evento è la sua frequenza relativa in un numero molto elevato di ripetizioni dell'esperimento aleatorio.

    La probabilità è il limite della proporzione di volte in cui l'evento A si verifica in un numero molto elevato di ripetizioni dell'esperimento aleatorio:

    P(A) = lim n->∞ (na/n)

    dove na è il numero di volte in cui A si è verificato ed n è il numero totale delle ripetizioni.

    ripetizioni.
    L'approccio frequentista è molto utile quando è possibile ripetere l'esperimento aleatorio molte volte, ricordando che ripetere un esperimento infinite volte è impossibile.
    • Esperimento aleatorio: processo che porterà a due o più risultati senza che si possa prevedere con certezza quale risultato si realizzerà. (Lancio di un dado o vendite future di immobili).
    • Evento elementare, O, è un risultato o esito dell'esperimento aleatorio. Al fine di un esperimento si realizza uno e uno solo evento elementare.
    • Spazio campionario: S, è l'insieme di tutti i possibili risultati o eventi elementari.
    • Evento, E, è un sottoinsieme di eventi elementari dello spazio campionario. (Un evento si verifica
Dettagli
A.A. 2021-2022
8 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher stefano.mattaboni di informazioni apprese con la frequenza delle lezioni di Statistica 1 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università della Svizzera italiana - Usi o del prof Mancini Andrea.