Anteprima
Vedrai una selezione di 3 pagine su 6
Filologia e linguistica informatica - Appunti Pag. 1 Filologia e linguistica informatica - Appunti Pag. 2
Anteprima di 3 pagg. su 6.
Scarica il documento per vederlo tutto.
Filologia e linguistica informatica - Appunti Pag. 6
1 su 6
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

PARLANTI STESSI.

COSA SONO I DATI LINGUISTICI? Essi sono PRODOTTI DEL

LINGUAGGIO (come le parole ad esempio). Posso essere suddivisi in

ECOLOGICI,ovvero quei dati che possono essere raccolti in un

contesto di naturalezza, e CONTROLLATI, ovvero quei dati che

vengono ricavati tramite la somministrazione di testi ai parlanti. Un

testo rappresenta, chiaramente, l’HABITAT naturale dei dati

linguistici.

I CORPORA. COS’E’ UN CORPUS? E’ una collezione di testi,

selezionati ed organizzati in modo da soddisfare i criteri che li

rendono funzionali per le analisi linguistiche. Un corpus testuale è la

principale fonte di dati in LC. (Per LC s’intende linguistica

computazionale). Il fattore scatenante per la loro creazione è dato

dall’avvento della tecnologia informatica, possiamo desumere

infatti che il concetto di corpus sia precedente a quello di computer.

Oggigiorno il termine è diventato sinonimo di corpus elettronico,

l’uso del computer è essenziale nell’uso dei corpora. Essi si

selezionano in base a delle caratteristiche, quali:

GENERALITA’: Il grado di generalità dipende dal grado in cui i suoi

testi sono stati selezionato in maniera trasversale. I corpus

specialistici o verticali hanno un grado minimo di generalità, in

quanto comprendono i testi appartenenti ad una precisa varietà

linguistica (sublanguage) o ad un determinato dominio tematico. Il

linguaggio è settoriale (linguaggio medico, ad esempio, oppure

giuridico ecc..) e può avere caratteristiche precise (linguaggio

infantile..). In direzione opposta ai corpus specialistici troviamo

quelli generali, detti anche plurifunzionali, progettati spesso come

risorse di riferimento per lo studio di una lingua (ad esempio per

creare dizionari) e per questo detti anche corpus di riferimento.

MODALITA’: La modalità (scritta o orale) di produzione dei testi è un

parametro fondamentale per la produzione dei testi. Abbiamo i

corpus di lingua scritta (libri, lettere, articoli di giornali), i corpus di

lingua parlata (testi originariamente orali e poi trascritti, come le

conversazioni spontanee o le trasmissioni radiofoniche)da non

confondere con i corpus audio o multimodale- detto anche

audiovisivo- ed infine, i corpus misti che contengono entrambi i

suddetti corpus, un esempio BNC.

CRONOLOGIA: Incontriamo corpus sincronici (come il Brown Corpus)

dove sono presenti testi appartenenti alla stessa finestra

temporale,e appartengono ad una precisa fase della lingua; e quelli

diacronici che appartengono a periodi diversi, il cui scopo è

monitorare il mutamento linguistico.

LINGUA: Corpus monolingue (contiene solo testi di una sola lingua),

bilingue che vengono divisi a loro volta in paralleli (che

comprendono testi in lingua madre con il testo corrispondente

tradotto, fonte importantissima per le traduzioni) e comparabili (che

comprendono testi in lingua originale, testi in lingue diverse).

INTEGRITA’ DEI TESTI: Un corpus può contenere testi interi oppure

porzioni di testo.

CODIFICA DIGITALE DEI TESTI: Corpora codificati ad alto livello, con

informazioni importanti sulla struttura, arricchiti ad esempio da

etichette e, corpora annotati che contengono informazioni circa la

morfologia o la semantica del testo.

ESTENSIONE: l’unità di misura dell’estensione sono i token, ovvero il

numero di parole presenti in un testo. Nei corpora di prima

generazione (anni ‘60/’70) troviamo circa un milione di parole,il

primo corpus adottato per lo studio di una lingua fu proprio il Brown

Corpus nato nel 1964. Per i corpus di nuova generazione citiamo il

BNC con circa 100 milioni di parole. Annotiamo anche l’esistenza

dei corpus di monitoraggio che servono a monitorare le dinamiche

del lessico di una lingua, servono per aggiornare ad esempio i

dizionari.

IL GRADO DI ADEGUATEZZA DI UN CORPUS E’ DATO DA 2 FATTORI:

Si misura dalla sua grandezza, ovvero la sua dimensione

quantitativa, e dalla sua organizzazione e composizione, la

cosiddetta dimensione qualitativa.

Il testo si qualifica corpus grazie alla RAPPRESENTATIVITA’, ovvero

che il campione preso in esame somigli,nella maniera più assoluta,

alla popolazione che deve rappresentare e che rappresenti un

modello fedele in scala ridotta. I testi vengono classificati in archivi,

biblioteca digitali come la Biblioteca Italiana o la Oxford Test

Archive. Per essere rappresentativo deve contenere la variabilità dei

tratti e le proprietà di una lingua. Altro requisito è il

BILANCIAMENTO. L’obiettivo di un corpus generale è quello di

essere una fonte di riferimento trasversale per essere usato come

fonte di dati per creare modelli linguistici, grammatiche ecc.. Per

essere rappresentativo deve essere anche bilanciato, deve riferire

accuratamente la popolazione di riferimento , i criteri del

bilanciamento cambiano a seconda del corpus. I fattori sono sempre

dimensione qualitativa e quantitativa, e le componenti del testo

sono organizzate secondo il dominio di rifermento (economico,

giuridico) e il “medium” cioè il mezzo di comunicazione (articolo di

giornale..).

QUAL E’ IL LIMITE DEI CORPUS RAPPRESENTATIVI? Quello di essere

insieme FINITI, a differenza dell’uso comune del linguaggio, come

sostiene Chomsky, che è potenzialmente infinito.

Poiché i risultati che otteniamo sono influenzati dalla composizione

del corpus, esso , nelle valutazioni assume il ruolo BENCHMARK,

ossia di confronto. I cui dati appunti sono confrontati.

I CORPORA SPECIALISTICI: Si focalizzano su un particolare dominio

di interesse.

I CORPORA DI ADDESTRAMENTO: Vengono intesi come fonte di dati ,

vengono usati dei metodi statistici per l’analisi linguistica, creano

modelli usati per l’analisi computazionale del linguaggio. Il loro

cosiddetto approccio è detto estensivo ed è garantito al giorno

d’oggi dal WORLD WIDE WEB.

IL WEB COME CORPUS: E’ una vera miniera per gli studi linguistici,

tra i dati disponibili si stimano oltre i 2.000 miliardi di parole,non è

solo una fonte diretta per accedere ai dati ma viene utilizzato il web

stesso come corpus su cui effettuare analisi computazionali. Ha un

unico difetto: il rumore, cioè informazioni irrilevanti o inaffidabili.

I computer memorizzano ed analizzano i testi sotto forma di due soli

simboli O ed I (detti in inglese BIT=BINARY DIGIT) aggregati in

sequenze di 8 cifre (byte), ogni cosa quindi deve avere una

rappresentazione binaria.

LA CODIFICA E’ LA RAPPRESEZTAZIONE DIGITALE DEL TESTO.

La CODIFA può essere:

-BINARIA , CODIFICA DI BASSO LIVELLO O LIVELLO ZERO (a ciascun

carattere del testo corrisponde un codice numerico – codifica a

livello 0 codice 1 A 1 in base decimale).

-CODIFICA AD ALTO LIVELO che arricchisce un testo con

informazioni sulla struttura e sulla sua interpretazione. Seleziona gli

aspetti rilevanti, sceglie una lingua manipolabile e leggibile dal

computer.

QUAL E’ L’UNITA’ DI MISURA DI UN TESTO DIGITALE? I token. La

tokenizzazione è il processo di segmentazione di un testo. I token

complessi sono nomi, espressioni e strutture alfanumeriche.

CHE VUOL DIRE CHE I COMPUTER SONO CASE-SENSITIVE? Che

codificano in maniera diversa i caratteri maiuscoli da quelli

minuscoli.

LE ESPRESSIONI REGOLARI: La tokenizzazione del testo si basa sulla

ricerca di sequenza di caratteri che soddisfano particolari criteri. Lo

strumento ideale è dato dalle espressioni regolari, ovvero una

notazione algebrica che definisce in maniera rigorosa e formale i

patterns di stringhe. Un pattern è uno schema che precisa i criteri

che le stringhe devono soddisfare in un testo, ad esempio “le

stringhe che iniziano con una maiuscola”. Nate grazie a Kleene nel

1956. Come programmi anche word legge le ER. La loro sintassila

più elementare è data da un solo carattere (es. /a/ ) specifa il

pattern. Poi / / è una stringa vuota che non contiene caratteri, ed

Dettagli
A.A. 2013-2014
6 pagine
4 download
SSD Scienze antichità, filologico-letterarie e storico-artistiche L-FIL-LET/09 Filologia e linguistica romanza

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Camilla.impieri di informazioni apprese con la frequenza delle lezioni di Filologia e linguistica informatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università della Calabria o del prof Distilo Rocco.