Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Competenze del linguista computazionale
a) Capacità di selezionare e raccogliere i dati linguistici
b) Conoscenza di metodi formali per l'analisi
c) Padronanza di tecniche informatiche
Qui di seguito ci si occupa della raccolta dei dati e la loro rappresentazione in vista del trattamento automatico.
Dato linguistico = prodotto del linguaggio oggetto di un processo di analisi e che forma l'evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche (parole, frasi, enunciati).
Fonti di evidenza:
a) testi dei parlanti di una lingua (qualsiasi prodotto dell'attività linguistica dei parlanti elaborato o trascritto come sequenza di caratteri) -> dati ecologici (il testo rappresenta l'habitat naturale dei dati linguistici, base dell'indagine linguistica tout court)
b) parlanti stessi (somministrazione di test) -> dati controllati (contesto dell'osservazione controllato, contesto sperimentale ad hoc, astrazione ed idealizzazione)
controllo delle variabili)LC ha evidenziato la necessità di combinare i dati linguistici naturali con quelli controllati.Corpus = collezione di testi selezionati e organizzati in maniera da soddisfare specifici criteri che li rendono funzionali per le analisi linguistiche.
Corpora testuali rappresentano la principale fonte di dati in LC.
Tipologia dei corpora e parametri (fisionomia dei corpora):
Generalità: dipende dalla misura in cui i testi sono stati selezionati in maniera trasversale rispetto a varietà diverse di una lingua.
- Corpora specialistici o verticali: grado minimo di generalità, testi appartenenti ad una specifica varietà linguistica, detta sublanguage, o ad un particolare dominio tematico (linguaggi settoriali o con particolari caratteristiche) e.g. Childes, fonte di dati per lo studio del linguaggio infantile.
- Corpora generali: spesso plurifunzionali con testi appartenenti a diverse varietà, comunità d'uso o registri.
sincronici: contenenti testi appartenenti ad una stessa finestra temporale, selezionati per lo studio di una fase della lingua (Brown Corpus, La Repubblica).
b) Corpora diacronici: contenenti testi appartenenti a periodi diversi, con lo scopo di monitorare il mutamento linguistico su scala micro o macrotemporale (Italnet, corpus del Tesoro della Lingua Italiana delle Origini).
Lingua
a) Corpora monolingui: contenenti testi di una sola lingua.
b) Corpora bilingui (o multilingui): contenenti testi di due (o più) lingue. Si distinguono ulteriormente in corpora paralleli (L + L , L è la lingua originaria e L è la traduzione in altra lingua -> fonte di dati per lo sviluppo di sistemi di traduzione automatica) e corpora comparabili (contenenti testi originali in lingue diverse selezionati in base agli stessi criteri, confronto tra lingue rispetto allo stesso genere testuale o dominio tematico, e.g. Parole). I corpora paralleli si dicono allineati se le unità
linguistiche dei testi L sono esplicitamente collegate alle unità linguistiche nei testi L (Canadian Hansards Corpus contenente testi francesi e inglesi allineati tratti dagli atti del Parlamento canadese); l'unità di allineamento tipica è la frase.
Integrità dei testi:
- Testi interi -> massima naturalezza dei dati linguistici estraibili (Parole, Coris).
- Porzioni di testi (Brown Corpus, primo corpus elettronico progettato come riferimento per lo studio di una lingua, BNC): a volte la selezione di un frammento può incidere negativamente sulla naturalezza dei dati da estrarre. Viceversa ragioni di bilanciamento (vd. dopo) possono far preferire selezione di porzioni di testi di lunghezza uniforme.
Codifica digitale dei testi: modo in cui sono rappresentati i testi digitali.
Ad esempio nei corpora codificati ad alto livello i testi sono arricchiti con etichette che ne rendono espliciti vari tipi di informazione, ad es. la struttura e la composizione.
I corpora annotati sono quelli in cui le informazioni codificate riguardano la struttura linguistica del testo a diversi livelli di rappresentazione (morfologica, sintattica, semantica...). Fondamentale è l'estensione di un corpus, misurata in base al numero di parole unità (token). I corpora sono comunque realtà chiuse. John Sinclair ha proposto di estendere la nozione tradizionale di corpus in uno strumento di monitoraggio linguistico: corpus di monitoraggio (o monitoring corpus) che è una collezione aperta di testi che muta nel tempo grazie all'introduzione di nuovi testi selezionati secondo gli stessi criteri usati per determinare la collezione iniziale (e.g. Bank of English, Coris, American National Corpus). Il grado di adeguatezza di un corpus è determinato dall'interazione di due fattori: la dimensione quantitativa (estensione) e l'aspetto qualitativo (composizione ed organizzazione di un corpus). La linguistica dei corpora ha
sostenuto la necessità di potenziare i corpora per quanto riguarda il controllo delle modalità di selezione dei testi (ottimizzazione dei criteri di selezione per ridurre l'eventualità che tratti linguistici rilevanti non siano rappresentati nel campione). Un corpus è fonte preziosa di informazioni sul modo in cui si distribuiscono i tratti di una lingua: corpus come campione di una lingua o di una sua varietà, statisticamente sottoinsieme di unità di una popolazione oggetto di studio selezionate per formulare generalizzazioni sull'intera popolazione di riferimento. Rappresentatività = vincolo qualitativo e quantitativo sulla capacità del corpus di fornire un modello in scala delle proprietà di una lingua o di una sua varietà. La rappresentatività rispetto ad una data popolazione è il concetto chiave per qualificare una collezione di testi come corpus."rappresentativo deve tenere traccia dell’intero ambito di variabilità deitratti e proprietà di una lingua”. La distribuzione di quest’ultimi dipende in gran parte dallatipologia dei testi.
Nel costruire un corpus rappresentativo di una lingua (o di una sua varietà) dobbiamo selezionareun campione di testi che “ci fornisca un’immagine il più accurata possibile delle tendenze dellavarietà in questione, comprese le loro proporzioni” (McEnery, Wilson, 2001, p.30).È tanto più difficile selezionare in modo rappresentativo quanto maggiori sono trasversalità egeneralità della lingua che il corpus deve rappresentare.
Il caso più semplice è rappresentato da corpora specialistici (corpora per lo studio della lingua diun autore, corpora di domini linguistici settoriali, corpora di testi che appartengono a generiparticolari). In questi casi i parametri di variabilità interna,
piuttosto limitati e comunque controllabili, consentono maggiore accuratezza nella selezione dei testi e un più alto grado di rappresentatività del corpus rispetto ai diversi tratti di una lingua.
Nel caso dei corpora generali la necessità di tenere traccia dell’ampio spettro di variabilità dei tratti linguistici si concretizza nel requisito del bilanciamento. È la condizione essenziale perché un corpus generale trasversale e plurifunzionale sia rappresentativo rispetto alle varietà di una lingua.
Un corpus si dice bilanciato quando è “diversificato rispetto ad un ampio spettro di tipi testuali”3 (concetto di “tipo testuale” di difficile caratterizzazione; scopo: controllo della diversità che sia il più possibile rappresentata all’interno della stessa risorsa di informazione).
→descrizione accurata della popolazione di riferimento.
Mappa della lingua:
- Confini spaziali e temporali.
I criteri di bilanciamento sono diversi a seconda del corpus ma uno dei parametri più comuni è il dominio tematico del testo. Un esempio di corpus bilanciato è il BNC in cui la popolazione testuale è articolata secondo le modalità di produzione:
- 90 milioni di parole di testi scritti, divisi in base al dominio ed al medium.
- 10 milioni di parole di parlato trascritto, suddivisi in una parte "demografica" (trascrizioni di conversazioni spontanee bilanciate rispetto a sesso, età, regione di provenienza del parlante) ed in una "contestualizzata" (trascrizioni di parlato prodotto in situazioni o contesti comunicativi particolari).
Un bilanciamento corretto richiede una quantità consistente di testi selezionati per le diverse tipologie individuate nella popolazione.
In LC il corpus è fonte di evidenza per la definizione di modelli linguistici e lo
importante per garantire la validità delle analisi linguistiche. Inoltre, la quantità di dati presenti nel corpus può influenzare la precisione delle conclusioni che si possono trarre. Per superare i limiti intrinseci dei corpora, è necessario utilizzare una combinazione di approcci qualitativi e quantitativi. Gli strumenti informatici possono aiutare nella raccolta, nell'organizzazione e nell'analisi dei dati linguistici, consentendo di individuare strutture e regole linguistiche e di valutare la loro frequenza nel corpus. Tuttavia, è importante tenere presente che i corpora sono solo una rappresentazione limitata e parziale dell'uso linguistico. Non possono fornire una conoscenza esaustiva e completa della lingua, ma possono essere utilizzati come fonte di curiosità e come supporto per le indagini linguistiche. In conclusione, lo sviluppo di strumenti informatici per l'elaborazione della lingua può essere utile per esplorare e analizzare i dati linguistici, ma è necessario considerare i limiti intrinseci dei corpora e utilizzare un approccio combinato di analisi qualitativa e quantitativa.lo strumento fondamentale per migliorarne la rappresentatività (vd. supra). Un