Appunti sui dati linguistici
Dati relativi alla popolazione
Tutti i dati relativi alla popolazione sono difficili da raccogliere, poiché la popolazione è troppo grande per fare un censimento completo. Si utilizza un campione rappresentativo della popolazione, attuando un metodo predefinito per costruire il campione, come il metodo casuale.
Campioni probabilistici
I campioni probabilistici si dividono in due sottoclassi:
- Campioni stratificati: Sono suddivisi in strati individuati in base al valore di una variabile, come il sesso (2 strati). Si procede estraendo 2 campioni casuali dai 2 strati, poi alla raccolta dei dati in vari modi, per esempio per registrazione del parlato spontaneo o su dati registrati (controllata). Riguardo la scrittura, si può raccogliere i temi di una scuola media oppure sottoporre i soggetti alla produzione di un compito appositamente creato (produzione inconsapevole o controllata dall'osservatore - spontanea o no).
- Campioni casuali semplici: Utilizzano generatori di numeri casuali (il numero casuale corrisponde a un individuo). Entrambi sono simili perché a priori si conoscono le probabilità assegnate a ciascun individuo.
Analisi dei dati
Le analisi dei dati possono avvenire secondo due prospettive:
- Analisi semplici dei dati
- Relazioni tra i dati: In questo caso si predispone uno strumento (per esempio un questionario) dove vengono inserite domande per raccogliere informazioni sulla proprietà degli individui che ci interessano, dette variabili, che possono essere valori (variabili come il ceto sociale: basso, medio, alto, medio-alto e medio-basso). Le variabili non sono tutte dello stesso tipo, sono un insieme di proprietà che si collocano su livelli diversi. Per esempio, l'età è uguale per tutti, ma non è così per il ceto sociale o il profitto scolastico come unità di misura.
Tipi di dati e frequenze
Ci sono dati di tipo nominale (di categoria), in ordine, e misure che generano tre scale: distinzioni nominali (in categoria, sesso - razze umane), distinzione ordinale, e distinzione a intervalli.
F rappresenta la frequenza con cui abbiamo suddiviso le nostre classi ed è assoluta quando non dipende dalla numerosità del nostro insieme. FM = 30 vuol dire che sono presenti 30 maschi nella popolazione.
Frequenza relativa e percentuali
La frequenza relativa è il numero di individui con la caratteristica che ci interessa diviso il numero totale dell'insieme di riferimento > FM 30/100 > 3/10 oppure 30/50 > 3/5. La percentuale è la frequenza relativa rapportata a 100, quindi 3/5 corrisponde al 60% e 3/10 al 30%. Nei dati di natura ordinale, si possono usare entrambe le frequenze. Tutti questi indici ci danno tutte le proprietà dei nostri insiemi.
Scale a intervalli e parametri
Nelle scale a intervalli possiamo ottenere altri parametri:
- Media: Per esempio, calcolare l'età media attribuita dagli insiemi e non dagli individui > media aritmetica > si prendono i diversi individui, si sommano tra loro e si dividono per il numero degli individui stessi. Tuttavia, la media aritmetica è insufficiente perché è un parametro che non dice tutto su come stanno le cose, è una misura di tipicità, cioè quanto una certa proprietà è posseduta da un certo insieme.
- Moda: È una misura di tipicità perché è un valore posseduto dal maggior numero dei casi.
- Mediana: È una misura di tipicità perché è un valore che si colloca nel mezzo una volta che ordino i casi in senso crescente e decrescente.
Variabilità
Supponiamo di avere più insiemi: (3-4-8), (2-5-8), (1-5-9); la media, che è una misura di tipicità, per tutti è uguale (x = 5) perché non crea distinzioni. Gli estremi 3-8, 2-8, 1-9, creano un campo di variazione diverso nei tre insiemi ma con la stessa media, anche questo campo è poco indicativo. Tra 3-4-8 e 2-5-8, la media è uguale a 5, e si può vedere la differenza tra i singoli valori e la media stessa, quindi -2, -1, 3, 3, -3, 0, -3; ogni differenza è uno scarto e sommando gli scarti il totale è uguale a 0, quindi non serve a niente.
Calcolo della varianza
Elevando al quadrato un numero qualsiasi, otteniamo sempre numeri positivi e quindi risultati non nulli. La varianza è la sommatoria di tutti gli scarti della media diviso il numero degli individui. Abbiamo ottenuto una misura quadratica, e per renderla lineare estraiamo la radice quadrata di tutta la formula sommatoria. Una varianza alta indica dati meno omogenei. La varianza è una misura di variabilità.
Scarto quadratico medio
Lo scarto quadratico medio è la radice quadrata della varianza, indicando la distanza media di ciascun individuo dalla media, ovvero quanto mediamente i dati variano intorno alla media.
Statistica induttiva
La statistica induttiva ci dice qual è la probabilità che, nell’estendere le proprietà del campione alla popolazione, non commettiamo errore. Le probabilità di errore sono la base delle previsioni statistiche; è impossibile annullarle, ma bisogna ridurle al minimo possibile (95%).
Concetto di distribuzione dei dati
Il concetto di distribuzione dei dati è riconducibile a un grafico che mostra come si distribuiscono i casi intorno a certi valori. Rappresento un valore in funzione dell’altro; per esempio, ho 18 individui che assumono esattamente i valori corrispondenti. A volte i dati si dispongono in maniera più ordinata, oppure tanti diversi andamenti, ma uno è molto importante perché esprime l'andamento normale, noto come curva normale. I valori di y massimi sono vicini alla media, e la media è il valore intorno a cui si concentrano il maggior numero dei casi, dividendo la campana in due parti perfettamente simmetriche.
Scale nominali e intervalli
Le scale a intervalli sono più precise e dettagliate, mentre le scale nominali sono meno indicative (maschi/femmine, cattolici/musulmani).
Raccolta dati tramite questionari
La raccolta dati tramite questionari prevede che ogni domanda definisca una variabile all’interno della quale mettiamo i valori. Ad esempio, l’età costituisce una scala a intervalli.
-
Laboratorio di analisi di dati linguistici - reduplicazione in giapponese e nelle lingue del mondo
-
Strutture Dati
-
Banche Dati
-
Banca dati dati di Diritto commerciale