Anteprima
Vedrai una selezione di 3 pagine su 7
Riassunto esame Linguistica dei corpora, Prof. Valentini Ada, libro consigliato Linguistica dei corpora, Maria Freddi Pag. 1 Riassunto esame Linguistica dei corpora, Prof. Valentini Ada, libro consigliato Linguistica dei corpora, Maria Freddi Pag. 2
Anteprima di 3 pagg. su 7.
Scarica il documento per vederlo tutto.
Riassunto esame Linguistica dei corpora, Prof. Valentini Ada, libro consigliato Linguistica dei corpora, Maria Freddi Pag. 6
1 su 7
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Autenticità dei dati linguistici

Si definiscono autentici gli esempi d'uso linguistico attestato, scritto e orale, d'uso reale e non artificiosamente inventato dal linguista per illustrare un certo fenomeno della lingua. In alcuni casi l'acquisizione dei dati può essere problematica per una serie di limitazioni. La più rilevante consiste nella difficoltà di acquisire dati orali, di trascriverli e di superare altri ostacoli, quali l'ottenere ipermessi per lo sfruttamento della proprietà intellettuale e i vincoli imposti dalla tutela della privacy.

Rappresentatività e campionamento

Per una ricerca linguistica empiricamente orientata, l'ideale sarebbe poter osservare tutte le occorrenze testuali in una data lingua. Questo non è possibile per la natura stessa di una lingua, i cui confini non sono definiti. Il campionamento dei testi in un corpus è un'operazione necessaria. La selezione del materiale da

includere nel campione deve avvenire secondo dei criteri adeguati alla popolazione che si intende studiare. Supponiamo di voler raccogliere un campione significativo della lingua inglese attualmente in uso in Gran Bretagna per indagare la parola "craze" (mania, moda). Dovremo selezionare un numero sufficientemente elevato di testi e con una varietà tale da avvicinarsi a un' approssimazione ragionevole della lingua scritta e parlata oggi in Gran Bretagna. Ci interessa fornire una rappresentazione contemporanea, dovremo attingere ad un arco temporale ristretto. Scegliamo di avere una rappresentazione sincronica della lingua. Per appurare se l'uso attuale della parola è associato a contesti informali, dovremo optare per testi sia scritti che orali e di registro più o meno alto. La selezione dovrà quindi tenere in considerazione la variazione lungo l'asse scritto-parlato (diamesica), quindi, all'interno della lingua scritta, la variazione.

per genere e registro(diafasica); all'interno di quella orale la variazione sociale (diastratica) e geografica (diatopica). Quando si parla di ampiezza del corpus ci si riferisce alla lunghezza dei testi espressa in numero di parole. I campioni di parole devono provenire da un numero di testi differenti, in modo da fornire una rappresentazione bilanciata delle tipologie testuali e delle variabili sociali (età, sesso, occupazione). Infine, occorre fissare l'estensione di ogni testo, intesa come incipit e conclusione. L'uso di qualsiasi corpus non può prescindere dalla conoscenza del modo in cui sono stati affrontati i problemi della variabilità della lingua e dell'esigenza di fornirne una rappresentazione bilanciata. Il British National Corpus (BNC), con 100 milioni di parole di inglese scritto e parlato, si poneva come corpus generico di riferimento dell'inglese britannico contemporaneo. I testi campionati in esso sono riconducibili a un intervallo

Temporale che va dai primi anni '70 fino al 1993. Dei 100 milioni di parole, 90 circa sono di inglese scritto, i restanti 10 sono di inglese parlato, quindi in una proporzione di 9:1. Il motivo di questa sproporzione è di carattere pratico e riguarda la reperibilità di testi. La variazione diafasica caratteristica della componente scritta è articolata sulla distinzione tra testi letterari e creativi e prosa informativa nella misura del 25 e del 75% del subtotale, quindi in una proporzione di 1:3. I criteri di campionamento della componente orale riguardano la distinzione tra dati raccolti su base demografica e dati selezionati sulla base del contesto più o meno istituzionale in cui avveniva lo scambio. Un altro corpus di inglese contemporaneo importante per quantità di parole campionate è il Corpus of Contemporary American English (COCA), che segue criteri di campionamento diversi. Il campionamento include nella componente scritta del corpus gli

script cinematografici, mentre in quella orale solo programmi televisivi e radiofonici, escludendo conversazioni spontanee in contesti quotidiani. Un'ulteriore differenza rispetto al BNC è quella di aggiungere materiale nuovo con cadenza regolare. Questa caratteristica distingue corpora di estensione finita, statici, da corpora dinamici.

Un modello diverso di campionamento è quello seguito dal primo corpus di inglese in senso moderno, il BROWN (Brown University Standard Corpus of Present-Day American English), che conta 1 milione di parole esclusivamente di inglese americano scritto e prodotto nel 1961, la cui scelta fu di includere campioni di uguale numerosità, ovvero 500 unità di 2000 parole ciascuna. Diversamente dal COCA, esclude il parlato-scritto proveniente da testi drammaturgici non ritenendolo realmente scritto, bensì una riproduzione fittizia dell'orale.

Il campionamento risponde a parametri soggettivi di scelta e classificazione dei testi.

1Informatizzazione e rappresentazione dei dati linguistici: L'attuale nozione di corpus implica il formato elettronico. Questa caratteristica porta con sé il problema della rappresentazione dei dati testuali su un supporto digitale. Da un lato, la macchina deve riconoscere i caratteri, l'uso delle maiuscole, i segni di punteggiatura, deve separare le parole. Dall'altro, è preferibile che la codifica sia standardizzata per facilitare la portabilità dei dati.

Annotazione e mark-up: Con il termine annotazione ci si riferisce all'attività di arricchire i dati grezzi contenuti nel corpus di metadati, che successivamente potranno essere recuperati per mezzo di interrogazioni complesse. In letteratura si opera una distinzione tra mark-up e annotazione. Con il primo termine si indica la codifica di metadati contestuali e oggettivi relativi ai testi che si vogliono includere nel corpus, come il titolo, l'autore, l'anno di pubblicazione.

Con annotazione ci si riferisce a informazioni di tipo linguistico-interpretativo, quindi più soggettive e opinabili, vale a dire all'incorporare all'interno del testo le informazioni corrispondenti ai diversi livelli dell'analisi linguistica, dalla morfosintassi alla semantica, dall'analisi del discorso alla pragmatica. Uno dei più interessanti esiti dell'analisi di corpora etichettati grammaticalmente è la Longman Grammar of Spoken and Written English di Douglas Biber et al., il cui criterio guida è la differenziazione sistematica tra sintassi del discorso e sintassi del testo scritto in ragione delle differenze distribuzionali osservate nel corpus. L'uso di corpora annotati ha fatto evolvere il concetto stesso di grammatica da fissa e immutabile a sfumata e variabile a seconda dei contesti d'uso. Ne è derivata l'idea di una grammatica della lingua orale che presenta caratteristiche sue proprie. Questo primolivello di annotazione, l'etichettatura grammaticale, è preceduto dalla segmentazione del testo in parole o token. Per la macchina le parole in un testo scritto corrispondono a sequenze ininterrotte di caratteri precedute e seguite da uno spazio o da un segno di interpunzione. La tokenizzazione dei testi consente di distinguere ogni occorrenza di ciascuna forma. Tramite un altro processo di codifica, la lemmatizzazione, è possibile associare le varianti morfologiche di una parola e considerare insieme le forme flesse come un unico lessema o lemma. L'utilità di un corpus lemmatizzato è maggiore per le lingue flessive. Il primo livello di annotazione riguarda l'attribuzione ad ogni parola nel corpus di una parte del discorso (nome, verbo, aggettivo) indicata nel tag che la delimita, per questo viene chiamata in inglese POS tagging, dove POS sta per part-of-speech, mentre in italiano etichettatura grammaticale o annotazione morfo-sintattica. Il parsingsintattico (noto anche come "tree-banking"), il livello successivo di annotazione, consiste nell'analizzare le frasi di un corpus nei loro costituenti sintattici, funzioni grammaticali e relazioni di dipendenza (esempio pag. 22). Un ulteriore livello di annotazione è quello semantico. Si avvale dei livelli di annotazione precedenti l'annotazione dei fenomeni della coesione testuale, che comporta l'individuazione in un testo di un antecedente o di un conseguente a cui viene attribuito un tag che contiene lo stesso identificativo numerico, e che indica la direzione della relazione tra i due elementi. L'ultimo livello di annotazione linguistica riguarda la dimensione pragmatica dei testi. L'annotazione può essere interamente automatica, interamente manuale, o semiautomatica, con una prima fase automatica e una seconda fase di correzione manuale. • Formati e linguaggi di codifica: La standardizzazione in campo linguistico deve esserecollocata distinguendone i livelli: un primo livello è quello del formato dei file con cui i testi sono codificati, un secondo livello è quello che definisce le modalità con cui avviene l'annotazione, un terzo livello è quello che definisce il contenuto dell'annotazione. Relativamente al primo ci sono varie possibilità. La più comune è quella del file di testo, identificato dall'estensione .txt. Il file di testo è una sequenza di numeri a cui, secondo uno standard condiviso, è associato in modo univoco un corrispondente carattere o simbolo. Lo standard più usato è l'Unicode. Il secondo livello di standardizzazione definisce le regole con cui i tag devono essere inseriti nel testo. Lo standard XML rappresenta una scelta utilizzata da molti corpora moderni. È opportuno eseguire un lavoro di progettazione a monte dell'annotazione vera e propria. Da un punto di vista informatico le regole

Sono scrivibili in un formato standard, le cosiddette "grammatiche DTD" (Document Type Definition). La grammatica DTD è una parte di testo che può essere interno al file XML o costituire un file separato, che contiene le regole con cui i dati in formato XML devono essere letti e interpretati. Un file XML non può esistere senza l'associazione di una grammatica DTD. Il "TEI P5: Guidelines for Electronic Text Encoding and Interchange" è uno dei progetti più significativi di codifica dei testi linguistici. Una possibilità diversa dai file di testo è rappresentata dei moderni database relazionali. I file di un database non sono immediatamente leggibili, è necessario disporre di un database server interrogabile con opportune queries. Tali dati possono essere interrogati tramite un linguaggio che ha una base comune, l'SQL (Structured Query Language). Per quanto riguarda la rappresentazione dei metadati linguistici,

Si deve ricordare che in un database le informazioni sono strutturate in tabelle composte da un insieme di colonne, dette campi, le cui righe sono riempite dall'insieme dei record. Se un corpus è contenuto in un database, il testo viene diviso in tante unità elementari.

Dettagli
Publisher
A.A. 2022-2023
7 pagine
SSD Scienze antichità, filologico-letterarie e storico-artistiche L-FIL-LET/12 Linguistica italiana

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Fede309 di informazioni apprese con la frequenza delle lezioni di Linguistica dei corpora e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bergamo o del prof Valentini Ada.