Risposte aperte paniere di statistica
Moda e densità di classe
Docente: Coccarda Raoul
A proposito della moda, si richiede di descrivere:
- Che cos'è la densità di classe e come si calcola.
- La formula della moda per valori suddivisi in classi.
- Che cos'è una distribuzione amodale ed una distribuzione plurimodale.
Quando le classi sono equi-ampie si può utilizzare, ai fini del calcolo delle misure centrali e di variabilità, il valore centrale di classe, tenendo conto che tale procedura presenta un certo grado di approssimazione dei risultati. Qualora, invece, le classi non siano equi-ampie è necessario disegnare per ogni classe un rettangolo che ha per altezza la densità di classe, data dal rapporto fra la frequenza assoluta ni e l’ampiezza di classe (ai-1, ai) e per base l’ampiezza di classe stessa. Mo=Lmo+...
La distribuzione amodale presenta frequenze tutte uguali. La moda può essere definita come una misura di tendenza centrale che si applica ai caratteri qualitativi e quantitativi ordinabili, in modo crescente o decrescente. Rappresenta la modalità di un carattere che si presenta più volte o che evidenzia il valore di frequenza più elevato in un insieme di osservazioni. Una distribuzione di valori di un carattere può presentare più mode (in questo caso si definisce “plurimodale”), quando si registra più volte la stessa frequenza.
Statistica bayesiana
A proposito della statistica bayesiana:
- Spiegare su quale concetto di probabilità si fonda.
- Spiegare che essa è definita anche come statistica delle cause.
- Rappresentare la configurazione dello spazio campionario.
Il cosiddetto approccio bayesiano alla probabilità è incentrato sulla determinazione della probabilità dopo aver attuato un esperimento ovvero di aver stabilito la probabilità prima di avere effettuato lo svolgimento dell’esperimento stesso. La particolarità di tale impostazione va ricercata nel fatto che, data la conoscenza dell’esito di un esperimento, si va a ricercare la probabilità che esso sia dovuto a una o più cause. Non a caso, la statistica bayesiana è anche definita statistica delle cause.
Errore di I e II tipo e potenza del test
Commentare brevemente:
- Il significato di errore di I tipo.
- Il significato di errore di II tipo.
- Il significato di potenza del test e la interrelazione fra teoria della stima e verifica di ipotesi.
Se si rifiuta l’ipotesi di interesse sotto quella alternativa quando si sarebbe dovuta accettare, si commette un errore del I tipo. Se si accetta l’ipotesi di interesse sotto quella alternativa quando si sarebbe dovuta rifiutare, si commette un errore del II tipo. In entrambi i casi si assume una decisione errata o si commette un errore di valutazione. In linea generale è più grave commettere un errore del I tipo che uno del II. Potenza del test: Si consideri un’ipotesi alternativa H1:μ=μ0. La potenza del test è il complemento a 1 dell’errore di II tipo (1-β). Si può affermare che la potenza del test corrisponde alla probabilità di rifiutare H0 quando questa è falsa. Quindi si cerca di avere un valore molto alto di questa probabilità, come si ribadisce che α deve avere un valore molto basso al fine di garantire una bassa probabilità di commettere l’errore di I tipo.
Ipotesi nulla e alternativa
Commentare brevemente:
- Il significato di ipotesi nulla e alternativa.
- Il significato di verifica di ipotesi con test unilatero dx.
- Il significato di verifica di ipotesi con test unilatero sx e bilatero.
Il concetto di test parametrico presuppone di affrontare la verifica di ipotesi sui parametri di una popolazione normale da cui sono estratti i campioni. L’approccio di Neyman e Pearson, noto come test di ipotesi, prende in considerazione esplicitamente l’ipotesi alternativa rispetto a quella di interesse o nulla. Le due ipotesi in opposizione sono: quella nulla o di interesse, definita H0 e quella alternativa, definita H1. L’ipotesi H0 è quella considerata vera fino a prova contraria. L’ipotesi H1 è quella in contrapposizione. Le procedure che permettono di decidere se accettare o rifiutare una data ipotesi o di stabilire se un dato campione osservato differisce dai risultati attesi sono definite test statistici o test d’ipotesi o test di significatività dette anche regole di decisione. Se l’ipotesi nulla H0 è un’affermazione sul valore assunto da un parametro incognito di una popolazione, l’ipotesi alternativa H1 risponde ad una delle seguenti affermazioni: il parametro è maggiore o uguale del valore ipotizzato (test unilatero con coda a destra); il parametro è minore o uguale del valore ipotizzato (test unilatero con coda a sinistra); il parametro è diverso del valore ipotizzato (test bilatero o a due code).
Differenza fra stimatore e stima
Commentare brevemente:
- La differenza fra stimatore e stima.
- La proprietà di non distorsione o correttezza.
- La proprietà di efficienza e di consistenza.
Per quanto riguarda la stima puntuale non si può dire a priori che essa sia buona o cattiva in quanto non conoscendo il vero valore del parametro, essendo esso incognito, non è possibile fare confronti. Con stimatore affidabile o non affidabile, si intende fare riferimento al metodo di stima impiegato le cui proprietà non sono valutabili facendo riferimento a un singolo campione, ma all’universo di tutti i campioni possibili. Le proprietà degli stimatori “ottimali” sono la: distorsione o correttezza; efficienza e consistenza. Distorsione. Lo stimatore T si dice corretto o non distorto se il suo valore medio o atteso è dato da: E(T)=μ per tutti i possibili valori di μ. La distorsione dello stimatore T è data dalla differenza fra il suo valore medio o atteso e il valore del parametro della popolazione da stimare ovvero: B(T)=E(T)-μ. Efficienza. Lo stimatore T si dice efficiente se la differenza fra se stesso e il valore del parametro della popolazione da stimare è il più basso possibile ovvero l’efficienza è una misura di dispersione o di variabilità dello stimatore. Se si hanno più stimatori (T1, T2,...,Tn), il confronto tra di essi in termini di efficienza viene svolto attraverso il confronto fra le relative varianze; si dirà, ad esempio, che T1 è più efficiente di T2 se la Var(T1)< Var(T2) e via di seguito e quindi si ha una efficienza relativa. Se invece lo stimatore T1, ad esempio, è più efficiente di qualsiasi altro stimatore del parametro di interesse si può dire che esiste una efficienza assoluta. Consistenza. Uno stimatore T si dice consistente se la sua precisione aumenta all’aumentare della dimensione campionaria. Si dice che uno stimatore T è asintoticamente consistente se al tendere all’infinito della numerosità campionaria il suo valore o realizzazione tende al valore del parametro ignoto della popolazione. Ciò è possibile solo se lo stimatore T è consistente in media quadratica ovvero se tende a zero l’errore quadratico medio.
Legge dei grandi numeri e disuguaglianze
Commentare brevemente:
- La legge debole dei grandi numeri.
- La legge forte dei grandi numeri.
- La disuguaglianza di Markov e la disuguaglianza di Chebyshev.
Si può utilizzare la Disuguaglianza di Chebyshev per avere informazioni sulla varianza. Essa stabilisce che, per ogni distribuzione di dati di una popolazione, la percentuale di essi non si allontanano dalla media per una certa quantità dello scarto quadratico medio è pari almeno a: (1- 1/k2)*100%. La disuguaglianza può assumere la notazione completa rappresentata dalla seguente disuguaglianza: |x - μ|≥k ≤1/k dove k è la quantità espressa da un numero puro positivo. Dalla diseguaglianza di Chebyshev deriva la Legge dei grandi numeri che assume due connotazioni: quella forte e quella debole. Legge debole. Date n variabili mutuamente indipendenti con media μ e varianza σ2 ed un numero positivo a si può affermare che il limite per x che tende a ∞ della probabilità della differenza tra la media delle v.c. stesse e il valore atteso μ in termini assoluti sia maggiore di un valore intero positivo a è uguale a zero. In simboli si avrà: limx→∞ P[|(X1+X2+...+Xn)/n-μ|]≥a]=0 Si può dedurre che la media μ converge in probabilità alla media aritmetica delle Xi per i=1,...,n. Legge forte. Date n variabili mutuamente indipendenti con media μ e varianza, si può affermare che la probabilità che al limite per n che tende a +∞ la media aritmetica delle stesse sia uguale a μ in valore assoluto, è pari a 1. In simboli si avrà: limn→∞P((X1+X2+...+Xn)/n= μ|=1. Disuguaglianza di Markov. Nella situazione in cui non si è a conoscenza della distribuzione della v.c., si potrebbe avere l’esigenza di definire dei limiti alla probabilità. In questa circostanza può tornare utile, pur con forti limiti, utilizzare la disuguaglianza di Markov dove la probabilità della v.c. X, che deve essere maggiore o uguale alla quantità h, non deve superare il rapporto tra la media e la stessa quantità h e quindi può essere trovata conoscendo solo il valore atteso. La notazione è: P(X≥h) ≤E[x]/h dove X è una v.c. non negativa e E[x] è la media o il valore atteso.
Scarti e indici di dissomiglianza
Con quale notazione si calcola:
- Lo scarto semplice dalla media e dalla mediana.
- Lo scarto medio assoluto dalla media e dalla mediana.
- L'indice di dissomiglianza.
Scarto semplice dalla media: È la sommatoria della differenza semplice in valore assoluto fra i valori osservati e il loro valore medio SCsem= Σ |xi− ̅x|.
Scarto semplice dalla mediana: È la sommatoria della differenza semplice in valore assoluto fra i valori osservati e il loro valore mediano SCsem= Σ |xi− Mediana|.
Scarto medio assoluto dalla media: È la sommatoria della differenza in valore assoluto fra i valori osservati e il loro valore medio rapportati al numero delle osservazioni SCass= Σ |xi− ̅x|/n.
Scarto medio assoluto dalla mediana: È la sommatoria della differenza in valore assoluto fra i valori osservati e il loro valore mediano rapportati al numero delle osservazioni SCass= Σ |xi− Mediana|/n.
Indice semplice di dissomiglianza: È un indice che permette di valutare la dissomiglianza fra due distribuzioni di valori osservati suddivisi in classi ed è dato dalla sommatoria delle differenze medie delle corrispondenti frequenze relative Idiss=Σ |fi1−fi2|/2.
Calcoli di mediana e stime puntuali
Con quali formule si calcolano:
- La mediana per valori singoli.
- La mediana per classi con il procedimento 1.
- La mediana per classi con il procedimento 2.
La mediana occupa la posizione che si ottiene dalla formula: (n+1)/2. Dopo aver ordinato l’insieme dei dati in sequenza crescente o decrescente e assegnato la relativa posizione si applicano due principi:
- Se il numero di modalità è dispari la mediana occupa la posizione (n+1)/2 ed il suo valore è corrispondente a quello della posizione trovata.
- Se il numero di modalità è pari la mediana occupa sempre la posizione (n+1)/2 ma il suo valore è corrispondente a quello delle due posizioni limitrofe trovate.
Stime puntuali e script di R
Con quali notazioni si esprime:
- La stima puntuale del valore atteso di una proporzione campionaria.
- La stima puntuale della varianza di una proporzione campionaria.
- La stima puntuale della deviazione standard di una proporzione campionaria.
Con quali script di R si implementano:
- La tabella a doppia entrata e le relative frequenze congiunte assolute.
- La tabella delle frequenze teoriche.
- La tabella delle contingenze assolute e quella delle contingenze assolute al quadrato diviso le frequenze teoriche.
Calcolo delle differenze tra campioni
Da due popolazioni normali si estraggono due campioni e si studia la differenza fra le due medie campionarie x1 e x2 con varianze note σ12 e σ22 e si vuole individuare:
- La notazione per la regione di rifiuto.
- La notazione per il calcolo della z empirica.
- Il sistema di ipotesi per un test bilatero.
Da due popolazioni normali si estraggono due campioni e si studia la differenza fra le due proporzioni campionarie p1 e p2 con n1 e n2 si vuole individuare:
- La notazione per la regione di rifiuto.
- La notazione per il calcolo della z empirica.
- Il sistema di ipotesi per un test unilatero dx.
Calcolo della varianza campionaria
Da una popolazione finita si è estratto un campione di 24 osservazioni e si è ottenuto il valore della varianza campionaria pari a 0,41. Con quali script di R si calcola:
- Il valore del quantile della statistica test.
- La probabilità che la varianza sia maggiore di 0,45.
- La probabilità che la varianza sia minore di 0,39.
Classi e Indici di Gini
Dati i seguenti valori di x (7,11,15,16,19) con quali script di R:
- Si costruiscono classi per K=2.
- Si calcola l'indice di eterogeneità di Gini semplice e massimo.
- Si calcola l'indice di eterogeneità di Gini normalizzato.
Dai i seguenti valori di x (7,11,15,16,19):
- Costruire classi per K=2.
- Calcolare le frequenze relative.
- Calcolare l'indice di eterogeneità di Gini semplice, massimo e normalizzato.
Contingenza e frequenze marginali
Dai seguenti valori del carattere X che assume le modalità (1,1,2,3,4,4,4) e il carattere Y che assume le modalità (A,A,B,C,D,D,D):
- Individuare la contingenza assoluta di I riga I colonna.
- Individuare la frequenza marginale di I colonna.
- Individuare la frequenza marginale di I riga.
Dai seguenti valori del carattere X che assume le modalità (1,1,2,3,4,4,4) e il carattere Y che assume le modalità (A,A,B,C,D,D,D):
- Costruire la tabella a doppia entrata.
- Individuare la frequenza congiunta assoluta di I riga I colonna.
- Individuare la frequenza teorica di I riga I colonna.
Equazione della retta stimata
Data l’equazione della retta stimata y(stim)=12,5 + 0,76*x calcolare quale valore stimato si ottiene per la variabile dipendente y fissati i seguenti valori di x:
- a) x=13,8 allora y^= 22,16
- b) x=12,4 allora y^= 21,92
- c) x=16,1 allora y^= 24,73
- d) x=15,3 allora y^= 24,13
Distribuzione di probabilità Bernoulliana
Data la distribuzione di probabilità Bernoulliana con p=0,07 calcolare:
- a) La probabilità che x=0.
- b) La probabilità che x= 1.
- c) Il valore atteso, la varianza e la deviazione standard.
P Bernoulliana p=0,07:
- a) p(x=1)= p=0,07
- b) p(x=0)=1-p=0,93
- c) E(x)=p=0,07; Var(x)=p(1-p)=0,0651; Dstd(X)=√p(1−p)=0,2645
Script di R per distribuzione Bernoulliana
Data la distribuzione di probabilità Bernoulliana con p=0,07 con quali script di R si calcola:
- a) La probabilità che x=0.
- b) La probabilità che x= 1.
- c) Il valore atteso, la varianza, la deviazione standard e il coefficiente di variazione.
P Bernoulliana p=0,07:
- Probabilità X=1:
p<- 0,07 - Probabilità X=0:
q<- 1-p - Valore atteso:
Ex <-p - Varianza:
VarX<- p*q - Deviazione standard:
...
Script di R per distribuzione Binomiale
Data la distribuzione di probabilità Binomiale con p=0,49 ed n=50 e stabilito un livello di significatività dell’5% con quali script si calcolano:
- a) Il limite superiore dello stimatore intervallare per la proporzione.
- b) Il limite inferiore dello stimatore intervallare per la proporzione.
- c) La numerosità campionaria e l’ampiezza dell’intervallo.
#INTERVALLO DI CONFIDENZA PER LA PROPORZIONE
#DATI
p<-0,49
n<-50
I.inf<-p-qnorm(0,975)*sqrt(p*(1-p)/n)
I.sup<-p+qnorm(0,975)*sqrt(p*(1-p)/n)
amp_it<-z*qnorm(0.975)*sqrt(p*(1-p)/n)
num_camp<-(qnorm(0.975)/amp_int)^2*p*(1-p)
Distribuzione uniforme discreta
Data la distribuzione di probabilità Uniforme discreta con N=10 con quali script si calcola:
- a) La probabilità che x=8;
- b) La probabilità che x< 2;
- c) La probabilità che x>7 e che x sia ricompreso fra 8 e 4.
#DATI N<-10
#PROB X=8 p(x)=1/N P8<-1/N
#PROB X<2 escluso lo 0 P1<- 1/N pmin2<-p1 pmin3<.p1+p2
#PROB X>7 P9<-1/N P10<-1/N pmag7<-p8+p9+p10
#PROB 4<X<8 P5<-1/N P6<-1/N P7<-1/N pcomp<-p5+p6+p7
Data la distribuzione di probabilità Uniforme discreta con N=10 calcolare:
- a) La probabilità che x=8;
- b) La probabilità che x< 2;
- c) La probabilità che x> 7 e che x sia ricompreso fra 8 e 4.
a. PROB che x=8 p(x)=1/N quindi p(x=8) =1/10=0,1
b. PROB che x<2 p(x<2)=p(x=1)=1/10=0,1
c. PROB che x>7 p(x>7)=p(x=8)+p(x=9)+p(x=10)=1/10+1/10+1/10=0,3
d. PROB che 4<x<8 p(4<x<8)=p(x=5)+p(x=6)+p(x=7)=1/10+1/10+1/10=0,3
Script di R per distribuzione uniforme discreta
Data la distribuzione di probabilità Uniforme discreta con N=11 quali script si implementano per calcolare:
- a) Valore atteso.
- b) Varianza.
- c) Deviazione standard e coefficiente di variazione.
Distribuzione di frequenza
Data la seguente distribuzione di frequenza della v.c.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Paniere Statistica
-
paniere Statistica aperte
-
Paniere Statistica - risposte multiple e aperte
-
Paniere Matematica e statistica