Analisi dei dati per la ricerca

Aggiornato il 11/12/2023

di valentinabenassi_

Publisher

Vota

Contenuto originale e autentico, validato dal Team di Esperti di Skuola.net

Analisi dei dati per la ricerca - statistica.Per SCO II (triennale) ed EDIPA I (magistrale).Appunti completi con esercizi - teoria e pratica.Appunti, slide e integrazione del libro.Anno …

Esame Analisi dei dati - statistica

Facoltà Scienze della comunicazione e dell'economia

Dal corso del Prof. Pelle Elvira

Università Università degli Studi di Modena e Reggio Emilia

A.A. 2022-2023

82 pagine

Appunti esame

Scarica

Estratto del documento

FUNZIONE DI PROBABILITÀ

Il coeff. binomiale si calcola:

ES. DISTRIBUZIONE BINOMIALE:

Distribuzione binomiale: poiché solo DUE esiti (o si possiede o non si possiede)

Si stima che il 55% delle famiglie italiane possieda un suv. In un campione di 15 italiani,

a. qual è la probabilità che esattamente 10 posseggano un suv?

b. qual è la probabilità che almeno 13 posseggano un suv?

c. qual è la probabilità che meno di 13 posseggano un suv?

Dalla lettura dei dati osserviamo:

55% possiede suv → 0.55 = π

N.=15

a. P(x=10) → Dobbiamo calcolare la formula precedente:

10 15-10( 15/10 ) * 0.55 per (1-0.55)

10 5= 15! /(10! *5!) per 0.55 per 0.45 = 0.14036!

!= fattoriale → dunque il prodotto di dei numeri interi da 1 a n.

b. P(X≥ 13)= dunque la probabilità di x=13 + quella di x=14 + quella di x=15

Dobbiamo calcolare le tre probabilità e sommarle tra loro

13 : 2 13 2

P(x=13)→ (15/13) 0.55 0.45 = 15! / (13! *

0.55 * 0.45
Stessa identica cosa poi anche per le probabilità di 14 e di 15 → vedi slide dellaregistrazione.
PS: PER OGNI CALCOLO POSSIAMO OTTENERE SEMPRE E SOLO UN NUMEROCOMPRESO TRA 0 E 1.
c. P(x<13) → dunque somma di tutte le probabilità minori di 13 →P(x<13)= 1- P(X≥ 13)= 1-0,01063=0.98935
DISTRIBUZIONE DI POISSON:
Viene impiegata quando la variabile che stiamo studiando è composta dal conteggio delleoccorrenze → ovvero che andiamo a contare quante volte un determinato accadimento diverifica.
Perciò:
La distribuzione di Poisson viene impiegata quando il fenomeno aleatorio è composto dalconteggio delle occorrenze in uno specifico intervallo di tempo, in una determinata area o inun altro contesto.
MEDIA e VARIANZA:
ES. POISSON
Una squadra di calcio segna un numero di goal a partita che si ritiene distribuito secondouna Poisson e mediamente segna 1.5 goal a partita.
(1) Si dica qual è la probabilità che nella

prossima partita la squadra non segni goal.(2) Si dica qual è la probabilità che nella prossima partita la squadra segni più di 4 goal.

La variabile casuale è il n. di goal segnati in una partita (In media in questo caso 1.5 a partita). X = n. goal a partita

Probabilità che nella prossima partita la squadra non segni goal → P(X=0) Dunque λ = 1.5
Probabilità che nella prossima partita la squadra segni più di 4 goal → P(X>4) Probabilità che sia maggiore di 4 significa che la squadra segni 5 goal o più (∞) Dovrò calcolare dunque l'unione per infiniti eventi → calcolare la somma di infinite probabilità. Dopo aver svolto i calcoli = 0.0186 → 1.86% di probabilità che la squadra nella prossima partita faccia > 4 goal.

VARIABILI ALEATORIE CASUALI CONTINUE: Le variabili continue diversamente da quelle discrete (in cui i fenomeni che potevamo modellare erano fenomeni

che potevano assumere solo modalità intere ES. successo o insuccesso ecc. → in quel caso variabili aleatorie discrete) possono assumere anche valori con numeri reali. ES. Una variabile aleatoria continua è una v.a. i cui valori possibili sono numeri reali: il ritardo di un treno; la temperatura di domani alle 12; il peso di un neonato; il prezzo in un istante futuro di un titolo finanziario; il tasso d'interesse futuro; i ricavi di un'azienda il prossimo anno. Una dunque può assumere solo valori interi mentre quella continua anche valori con numeri reali. Dunque le trattiamo a parte poiché principalmente è diverso il modo di esprimere la loro distribuzione di probabilità. In statistica descrittiva abbiamo descritto la distribuzione di frequenza di variabili continue per intervalli. ES. carattere ritardo del treno → USIAMO L'ISTOGRAMMA. Se abbiamo infinite osservazioni possiamo affinare l'istogramma.

→Abbiamo infinite osservazioni, possiamo affinare l’istogramma fino a sostituirlo con una curva: la funzione di densità.

→La seconda funzione è del tutto analoga a quella dell’istogramma → le aree rappresentano probabilità anziché frequenze.

ES. l’area evidenziata sotto la curva vale 0.25 (dunque ci indica che la probabilità di osservare un valore tra 5 e 10 è 0.25, in simboli:

L’area al di sotto di una curva in matematica si calcola per mezzo degli integrali.

FUNZIONE DI DENSITA’ →Si definisce funzione di densità di una v.a. X continua la funzione f(x), non negativa, e la cui area sottesa (integrale), corrispondente a un dato intervallo, è uguale alla probabilità che X assuma valori in quell’intervallo:

Questa funzione deve rispettare certe proprietà:

la funzione è sempre ≥ 0
La somma delle probabilità deve fare 1 → l’area che sta sotto

tutta la curva deve essere pari ad 1, ovvero tutta la probabilità. 3. Area di un determinato punto è sempre pari a zero → FOCUS e DIVERSITÀ VARIABILI: - Nel caso di variabile casuale discreta dobbiamo fare caso se c'è ≥ o > (perché c'è differenza) VALE PER LE V.A DISCRETE - Invece per le variabili casuali continue (vado dunque considerare infiniti valori) Essendo nell'ambito del continuo, la probabilità che x assuma esattamente un valore specifico è 0. Dunque non c'è differenza tra ≥ e > VALE PER LE V.A CONTINUE FUNZIONI DI RIPARTIZIONE → Ci definisce che la nostra variabile casuale dunque che il nostro carattere assume un valore più piccolo di un determinato valore x). ES. Proprietà che la funzione di ripartizione deve seguire: Inoltre: LA DISTRIBUZIONE NORMALE: La distribuzione continua che si incontra più frequentemente è la normale (o gaussiana) la cui

La densità ha la seguente forma. Principali caratteristiche:

Sono più probabili valori intorno al valore centrale μ.
Scostamenti a destra e sinistra (rispetto al valore centrale) hanno la stessa probabilità → SIMMETRIA (si tratta di una distribuzione simmetrica: ovvero quando media, moda e mediana coincidono).

Funzione della densità:

La media μ è la media della distribuzione. Al variare di μ la distinzione si sposta lungo l'asse x.

La varianza invece (sigma al quadrato): se abbiamo una varianza grande allora significa che i valori si discostano di più rispetto alla media.

Dunque in sintesi abbiamo un'infinità di distribuzioni al variare di μ e σ.

Perciò la probabilità per una v.a. normale:

Sfortunatamente, non c'è un'espressione esplicita per calcolare queste probabilità, però potremo calcolarle riferendoci a una particolare normale.

NORMALE STANDARD:

Tra tutte le v.c. Normali,

individuare la seconda cifra decimale di Z. Una volta individuato il valore di Z nella tabella, si troverà il corrispondente valore di Ф(z) nella cella corrispondente. Ad esempio, se si cerca il valore di Ф(z) per z = 1.96, si individua la riga con la cifra intera 1 e la colonna con la cifra decimale 9, e si trova il valore di Ф(z) nella cella corrispondente. La tabella della normale è uno strumento molto utile per calcolare le probabilità associate a una distribuzione normale standard, in quanto permette di trovare rapidamente i valori di Ф(z) senza dover effettuare calcoli complessi. È importante notare che la tabella della normale fornisce solo i valori di Ф(z) per z positivi. Per ottenere i valori di Ф(z) per z negativi, è necessario utilizzare la simmetria della distribuzione normale. Ad esempio, se si cerca il valore di Ф(z) per z = -1.96, si può utilizzare il fatto che Ф(-z) = 1 - Ф(z), e quindi si troverà il valore di Ф(z) sottraendo il valore trovato per z = 1.96 da 1. In conclusione, la tabella della normale è uno strumento fondamentale per lavorare con la distribuzione normale standard, permettendo di calcolare rapidamente i valori di Ф(z) e quindi le probabilità associate alla distribuzione.

Cercare la seconda cifra decimale di Z. Dunque questo è l'unico caso in cui ci dobbiamo fermare alla seconda cifra decimale!

Però sulla tavola sono riportati tutti i valori fino a 3, perché per una probabilità più grande consideriamo tutto U.

Ф(z) è usata per rappresentare la funzione ripartizione (ovvero a funzione delle f. cumulate) di una variabile causale standard.

MA COSA SUCCEDE QUANDO POSSEDIAMO VALORI NEGATIVI, visto che nella tavola non possiedo valori negativi?

Per i valori negativi andiamo a sfruttare la simmetria della distribuzione, poiché l'area es. di -2 è uguale all'area che corrisponde a 2.

È sufficiente conoscere Ф(z) per i valori positivi di z, se z è minore di 0 si usa la relazione:

MA COSA SUCCEDE QUANDO CONSIDERIAMO UN VALORE COMPRESO IN UN INTERVALLO? P (a>z>b)

Per calcolarlo: Ф(b) - Ф(a) → ottenendo dunque il valore che serve.

(LA LEZIONE DEL 16 DICEMBRE ERANO SOLO ESERCIZI)

QUADERNO)Lezione del 19/12:CAMPIONE e STRATEGIE AL CAMPIONAMENTO:
POPOLAZIONE:
L'obiettivo ultimo è studiare qualche caratteristica di una popolazione. Si definisce popolazione l'insieme degli elementi che costituiscono l'oggetto di studio. Può essere:

Finita: costituita da un numero finito di unità
Infinita: costituita da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente

In altri termini, una popolazione è una collettività le cui componenti sono dette unità statistiche. Si definisce unità statistica l'unità elementare su cui vengono osservati i caratteri oggetto di studio.
CENSIMENTO:
Quando la raccolta dati si attua osservando tutti gli individui di una popolazione parliamo di censimento. Riusciamo a raccogliere un grande numero di informazioni, ma ci sono anche dei svantaggi legati ai costi.
Vantaggi:

Ricchezza delle informazioni raccolte

Esaustività

Limiti:

Difficoltà nel condurlo: ci sono sempre individui difficili da localizzare. E questi individui potrebbero avere caratteristiche che li distinguono dal resto della popolazione.
Costi molto elevati.
Tempi di elaborazione dei dati molto lunghi.

Quando non possiamo (vogliamo) osservare l'intera popolazione facciamo ricorso al campionamento, cioè osserviamo una parte della popolazione.

Dunque quando non osserviamo TUTTA la popolazione, ma solo una porzione (che prende il nome di campionamento).

Si definisce campione statistico un insieme di unità selezionato, secondo determinati criteri, dalla popolazione.

Per svolgere questa operazione ci serve il campione statistico e generalmente questo

Anteprima

Vedrai una selezione di 18 pagine su 82