Estratto del documento

Testo e computer – Riassunti

La linguistica computazionale include: la capacità di selezionare i dati linguistici, la conoscenza dei metodi formali per l’analisi di questi dati e la padronanza delle tecniche informative.

Fonti della linguistica computazionale

Le fonti alle quali la linguistica computazionale si rivolge sono essenzialmente due: i testi dei parlanti di una lingua e i parlanti stessi.

Cosa sono i dati linguistici?

Essi sono prodotti del linguaggio (come le parole, ad esempio). Possono essere suddivisi in ecologici, ovvero quei dati che possono essere raccolti in un contesto di naturalezza, e controllati, ovvero quei dati che vengono ricavati tramite la somministrazione di testi ai parlanti. Un testo rappresenta, chiaramente, l’habitat naturale dei dati linguistici.

I corpora

Cos’è un corpus?

È una collezione di testi, selezionati ed organizzati in modo da soddisfare i criteri che li rendono funzionali per le analisi linguistiche. Un corpus testuale è la principale fonte di dati in LC (per LC s’intende linguistica computazionale). Il fattore scatenante per la loro creazione è dato dall’avvento della tecnologia informatica, possiamo desumere infatti che il concetto di corpus sia precedente a quello di computer. Oggigiorno il termine è diventato sinonimo di corpus elettronico, l’uso del computer è essenziale nell’uso dei corpora. Essi si selezionano in base a delle caratteristiche, quali:

  • Generalità: Il grado di generalità dipende dal grado in cui i suoi testi sono stati selezionati in maniera trasversale. I corpus specialistici o verticali hanno un grado minimo di generalità, in quanto comprendono i testi appartenenti ad una precisa varietà linguistica (sublanguage) o ad un determinato dominio tematico. Il linguaggio è settoriale (linguaggio medico, ad esempio, oppure giuridico, ecc.) e può avere caratteristiche precise (linguaggio infantile). In direzione opposta ai corpus specialistici troviamo quelli generali, detti anche plurifunzionali, progettati spesso come risorse di riferimento per lo studio di una lingua (ad esempio per creare dizionari) e per questo detti anche corpus di riferimento.
  • Modalità: La modalità (scritta o orale) di produzione dei testi è un parametro fondamentale per la produzione dei testi. Abbiamo i corpus di lingua scritta (libri, lettere, articoli di giornali), i corpus di lingua parlata (testi originariamente orali e poi trascritti, come le conversazioni spontanee o le trasmissioni radiofoniche) da non confondere con i corpus audio o multimodale - detto anche audiovisivo - ed infine, i corpus misti che contengono entrambi i suddetti corpus, un esempio è il BNC.
  • Cronologia: Incontriamo corpus sincronici (come il Brown Corpus) dove sono presenti testi appartenenti alla stessa finestra temporale, e appartengono ad una precisa fase della lingua; e quelli diacronici che appartengono a periodi diversi, il cui scopo è monitorare il mutamento linguistico.
Anteprima
Vedrai una selezione di 3 pagine su 6
Filologia e linguistica informatica - Appunti Pag. 1 Filologia e linguistica informatica - Appunti Pag. 2
Anteprima di 3 pagg. su 6.
Scarica il documento per vederlo tutto.
Filologia e linguistica informatica - Appunti Pag. 6
1 su 6
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze antichità, filologico-letterarie e storico-artistiche L-FIL-LET/09 Filologia e linguistica romanza

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Camilla.impieri di informazioni apprese con la frequenza delle lezioni di Filologia e linguistica informatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università della Calabria o del prof Distilo Rocco.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community