Estratto del documento

Appunti sui dati linguistici

Dati relativi alla popolazione

Tutti i dati relativi alla popolazione sono difficili da raccogliere, poiché la popolazione è troppo grande per fare un censimento completo. Si utilizza un campione rappresentativo della popolazione, attuando un metodo predefinito per costruire il campione, come il metodo casuale.

Campioni probabilistici

I campioni probabilistici si dividono in due sottoclassi:

  • Campioni stratificati: Sono suddivisi in strati individuati in base al valore di una variabile, come il sesso (2 strati). Si procede estraendo 2 campioni casuali dai 2 strati, poi alla raccolta dei dati in vari modi, per esempio per registrazione del parlato spontaneo o su dati registrati (controllata). Riguardo la scrittura, si può raccogliere i temi di una scuola media oppure sottoporre i soggetti alla produzione di un compito appositamente creato (produzione inconsapevole o controllata dall'osservatore - spontanea o no).
  • Campioni casuali semplici: Utilizzano generatori di numeri casuali (il numero casuale corrisponde a un individuo). Entrambi sono simili perché a priori si conoscono le probabilità assegnate a ciascun individuo.

Analisi dei dati

Le analisi dei dati possono avvenire secondo due prospettive:

  • Analisi semplici dei dati
  • Relazioni tra i dati: In questo caso si predispone uno strumento (per esempio un questionario) dove vengono inserite domande per raccogliere informazioni sulla proprietà degli individui che ci interessano, dette variabili, che possono essere valori (variabili come il ceto sociale: basso, medio, alto, medio-alto e medio-basso). Le variabili non sono tutte dello stesso tipo, sono un insieme di proprietà che si collocano su livelli diversi. Per esempio, l'età è uguale per tutti, ma non è così per il ceto sociale o il profitto scolastico come unità di misura.

Tipi di dati e frequenze

Ci sono dati di tipo nominale (di categoria), in ordine, e misure che generano tre scale: distinzioni nominali (in categoria, sesso - razze umane), distinzione ordinale, e distinzione a intervalli.

F rappresenta la frequenza con cui abbiamo suddiviso le nostre classi ed è assoluta quando non dipende dalla numerosità del nostro insieme. FM = 30 vuol dire che sono presenti 30 maschi nella popolazione.

Frequenza relativa e percentuali

La frequenza relativa è il numero di individui con la caratteristica che ci interessa diviso il numero totale dell'insieme di riferimento > FM 30/100 > 3/10 oppure 30/50 > 3/5. La percentuale è la frequenza relativa rapportata a 100, quindi 3/5 corrisponde al 60% e 3/10 al 30%. Nei dati di natura ordinale, si possono usare entrambe le frequenze. Tutti questi indici ci danno tutte le proprietà dei nostri insiemi.

Scale a intervalli e parametri

Nelle scale a intervalli possiamo ottenere altri parametri:

  • Media: Per esempio, calcolare l'età media attribuita dagli insiemi e non dagli individui > media aritmetica > si prendono i diversi individui, si sommano tra loro e si dividono per il numero degli individui stessi. Tuttavia, la media aritmetica è insufficiente perché è un parametro che non dice tutto su come stanno le cose, è una misura di tipicità, cioè quanto una certa proprietà è posseduta da un certo insieme.
  • Moda: È una misura di tipicità perché è un valore posseduto dal maggior numero dei casi.
  • Mediana: È una misura di tipicità perché è un valore che si colloca nel mezzo una volta che ordino i casi in senso crescente e decrescente.

Variabilità

Supponiamo di avere più insiemi: (3-4-8), (2-5-8), (1-5-9); la media, che è una misura di tipicità, per tutti è uguale (x = 5) perché non crea distinzioni. Gli estremi 3-8, 2-8, 1-9, creano un campo di variazione diverso nei tre insiemi ma con la stessa media, anche questo campo è poco indicativo. Tra 3-4-8 e 2-5-8, la media è uguale a 5, e si può vedere la differenza tra i singoli valori e la media stessa, quindi -2, -1, 3, 3, -3, 0, -3; ogni differenza è uno scarto e sommando gli scarti il totale è uguale a 0, quindi non serve a niente.

Calcolo della varianza

Elevando al quadrato un numero qualsiasi, otteniamo sempre numeri positivi e quindi risultati non nulli. La varianza è la sommatoria di tutti gli scarti della media diviso il numero degli individui. Abbiamo ottenuto una misura quadratica, e per renderla lineare estraiamo la radice quadrata di tutta la formula sommatoria. Una varianza alta indica dati meno omogenei. La varianza è una misura di variabilità.

Scarto quadratico medio

Lo scarto quadratico medio è la radice quadrata della varianza, indicando la distanza media di ciascun individuo dalla media, ovvero quanto mediamente i dati variano intorno alla media.

Statistica induttiva

La statistica induttiva ci dice qual è la probabilità che, nell’estendere le proprietà del campione alla popolazione, non commettiamo errore. Le probabilità di errore sono la base delle previsioni statistiche; è impossibile annullarle, ma bisogna ridurle al minimo possibile (95%).

Concetto di distribuzione dei dati

Il concetto di distribuzione dei dati è riconducibile a un grafico che mostra come si distribuiscono i casi intorno a certi valori. Rappresento un valore in funzione dell’altro; per esempio, ho 18 individui che assumono esattamente i valori corrispondenti. A volte i dati si dispongono in maniera più ordinata, oppure tanti diversi andamenti, ma uno è molto importante perché esprime l'andamento normale, noto come curva normale. I valori di y massimi sono vicini alla media, e la media è il valore intorno a cui si concentrano il maggior numero dei casi, dividendo la campana in due parti perfettamente simmetriche.

Scale nominali e intervalli

Le scale a intervalli sono più precise e dettagliate, mentre le scale nominali sono meno indicative (maschi/femmine, cattolici/musulmani).

Raccolta dati tramite questionari

La raccolta dati tramite questionari prevede che ogni domanda definisca una variabile all’interno della quale mettiamo i valori. Ad esempio, l’età costituisce una scala a intervalli.

Anteprima
Vedrai una selezione di 3 pagine su 8
Dati linguistici Pag. 1 Dati linguistici Pag. 2
Anteprima di 3 pagg. su 8.
Scarica il documento per vederlo tutto.
Dati linguistici Pag. 6
1 su 8
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze antichità, filologico-letterarie e storico-artistiche L-LIN/02 Didattica delle lingue moderne

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cecilialll di informazioni apprese con la frequenza delle lezioni di Linguistica generale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università del Salento o del prof De Masi Salvatore.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community