Testo e computer – Riassunti
La linguistica computazionale include: la capacità di selezionare i dati linguistici, la conoscenza dei metodi formali per l’analisi di questi dati e la padronanza delle tecniche informative.
Fonti della linguistica computazionale
Le fonti alle quali la linguistica computazionale si rivolge sono essenzialmente due: i testi dei parlanti di una lingua e i parlanti stessi.
Cosa sono i dati linguistici?
Essi sono prodotti del linguaggio (come le parole, ad esempio). Possono essere suddivisi in ecologici, ovvero quei dati che possono essere raccolti in un contesto di naturalezza, e controllati, ovvero quei dati che vengono ricavati tramite la somministrazione di testi ai parlanti. Un testo rappresenta, chiaramente, l’habitat naturale dei dati linguistici.
I corpora
Cos’è un corpus?
È una collezione di testi, selezionati ed organizzati in modo da soddisfare i criteri che li rendono funzionali per le analisi linguistiche. Un corpus testuale è la principale fonte di dati in LC (per LC s’intende linguistica computazionale). Il fattore scatenante per la loro creazione è dato dall’avvento della tecnologia informatica, possiamo desumere infatti che il concetto di corpus sia precedente a quello di computer. Oggigiorno il termine è diventato sinonimo di corpus elettronico, l’uso del computer è essenziale nell’uso dei corpora. Essi si selezionano in base a delle caratteristiche, quali:
- Generalità: Il grado di generalità dipende dal grado in cui i suoi testi sono stati selezionati in maniera trasversale. I corpus specialistici o verticali hanno un grado minimo di generalità, in quanto comprendono i testi appartenenti ad una precisa varietà linguistica (sublanguage) o ad un determinato dominio tematico. Il linguaggio è settoriale (linguaggio medico, ad esempio, oppure giuridico, ecc.) e può avere caratteristiche precise (linguaggio infantile). In direzione opposta ai corpus specialistici troviamo quelli generali, detti anche plurifunzionali, progettati spesso come risorse di riferimento per lo studio di una lingua (ad esempio per creare dizionari) e per questo detti anche corpus di riferimento.
- Modalità: La modalità (scritta o orale) di produzione dei testi è un parametro fondamentale per la produzione dei testi. Abbiamo i corpus di lingua scritta (libri, lettere, articoli di giornali), i corpus di lingua parlata (testi originariamente orali e poi trascritti, come le conversazioni spontanee o le trasmissioni radiofoniche) da non confondere con i corpus audio o multimodale - detto anche audiovisivo - ed infine, i corpus misti che contengono entrambi i suddetti corpus, un esempio è il BNC.
- Cronologia: Incontriamo corpus sincronici (come il Brown Corpus) dove sono presenti testi appartenenti alla stessa finestra temporale, e appartengono ad una precisa fase della lingua; e quelli diacronici che appartengono a periodi diversi, il cui scopo è monitorare il mutamento linguistico.