vuoi
o PayPal
tutte le volte che vuoi
PARLANTI STESSI.
COSA SONO I DATI LINGUISTICI? Essi sono PRODOTTI DEL
LINGUAGGIO (come le parole ad esempio). Posso essere suddivisi in
ECOLOGICI,ovvero quei dati che possono essere raccolti in un
contesto di naturalezza, e CONTROLLATI, ovvero quei dati che
vengono ricavati tramite la somministrazione di testi ai parlanti. Un
testo rappresenta, chiaramente, l’HABITAT naturale dei dati
linguistici.
I CORPORA. COS’E’ UN CORPUS? E’ una collezione di testi,
selezionati ed organizzati in modo da soddisfare i criteri che li
rendono funzionali per le analisi linguistiche. Un corpus testuale è la
principale fonte di dati in LC. (Per LC s’intende linguistica
computazionale). Il fattore scatenante per la loro creazione è dato
dall’avvento della tecnologia informatica, possiamo desumere
infatti che il concetto di corpus sia precedente a quello di computer.
Oggigiorno il termine è diventato sinonimo di corpus elettronico,
l’uso del computer è essenziale nell’uso dei corpora. Essi si
selezionano in base a delle caratteristiche, quali:
GENERALITA’: Il grado di generalità dipende dal grado in cui i suoi
testi sono stati selezionato in maniera trasversale. I corpus
specialistici o verticali hanno un grado minimo di generalità, in
quanto comprendono i testi appartenenti ad una precisa varietà
linguistica (sublanguage) o ad un determinato dominio tematico. Il
linguaggio è settoriale (linguaggio medico, ad esempio, oppure
giuridico ecc..) e può avere caratteristiche precise (linguaggio
infantile..). In direzione opposta ai corpus specialistici troviamo
quelli generali, detti anche plurifunzionali, progettati spesso come
risorse di riferimento per lo studio di una lingua (ad esempio per
creare dizionari) e per questo detti anche corpus di riferimento.
MODALITA’: La modalità (scritta o orale) di produzione dei testi è un
parametro fondamentale per la produzione dei testi. Abbiamo i
corpus di lingua scritta (libri, lettere, articoli di giornali), i corpus di
lingua parlata (testi originariamente orali e poi trascritti, come le
conversazioni spontanee o le trasmissioni radiofoniche)da non
confondere con i corpus audio o multimodale- detto anche
audiovisivo- ed infine, i corpus misti che contengono entrambi i
suddetti corpus, un esempio BNC.
CRONOLOGIA: Incontriamo corpus sincronici (come il Brown Corpus)
dove sono presenti testi appartenenti alla stessa finestra
temporale,e appartengono ad una precisa fase della lingua; e quelli
diacronici che appartengono a periodi diversi, il cui scopo è
monitorare il mutamento linguistico.
LINGUA: Corpus monolingue (contiene solo testi di una sola lingua),
bilingue che vengono divisi a loro volta in paralleli (che
comprendono testi in lingua madre con il testo corrispondente
tradotto, fonte importantissima per le traduzioni) e comparabili (che
comprendono testi in lingua originale, testi in lingue diverse).
INTEGRITA’ DEI TESTI: Un corpus può contenere testi interi oppure
porzioni di testo.
CODIFICA DIGITALE DEI TESTI: Corpora codificati ad alto livello, con
informazioni importanti sulla struttura, arricchiti ad esempio da
etichette e, corpora annotati che contengono informazioni circa la
morfologia o la semantica del testo.
ESTENSIONE: l’unità di misura dell’estensione sono i token, ovvero il
numero di parole presenti in un testo. Nei corpora di prima
generazione (anni ‘60/’70) troviamo circa un milione di parole,il
primo corpus adottato per lo studio di una lingua fu proprio il Brown
Corpus nato nel 1964. Per i corpus di nuova generazione citiamo il
BNC con circa 100 milioni di parole. Annotiamo anche l’esistenza
dei corpus di monitoraggio che servono a monitorare le dinamiche
del lessico di una lingua, servono per aggiornare ad esempio i
dizionari.
IL GRADO DI ADEGUATEZZA DI UN CORPUS E’ DATO DA 2 FATTORI:
Si misura dalla sua grandezza, ovvero la sua dimensione
quantitativa, e dalla sua organizzazione e composizione, la
cosiddetta dimensione qualitativa.
Il testo si qualifica corpus grazie alla RAPPRESENTATIVITA’, ovvero
che il campione preso in esame somigli,nella maniera più assoluta,
alla popolazione che deve rappresentare e che rappresenti un
modello fedele in scala ridotta. I testi vengono classificati in archivi,
biblioteca digitali come la Biblioteca Italiana o la Oxford Test
Archive. Per essere rappresentativo deve contenere la variabilità dei
tratti e le proprietà di una lingua. Altro requisito è il
BILANCIAMENTO. L’obiettivo di un corpus generale è quello di
essere una fonte di riferimento trasversale per essere usato come
fonte di dati per creare modelli linguistici, grammatiche ecc.. Per
essere rappresentativo deve essere anche bilanciato, deve riferire
accuratamente la popolazione di riferimento , i criteri del
bilanciamento cambiano a seconda del corpus. I fattori sono sempre
dimensione qualitativa e quantitativa, e le componenti del testo
sono organizzate secondo il dominio di rifermento (economico,
giuridico) e il “medium” cioè il mezzo di comunicazione (articolo di
giornale..).
QUAL E’ IL LIMITE DEI CORPUS RAPPRESENTATIVI? Quello di essere
insieme FINITI, a differenza dell’uso comune del linguaggio, come
sostiene Chomsky, che è potenzialmente infinito.
Poiché i risultati che otteniamo sono influenzati dalla composizione
del corpus, esso , nelle valutazioni assume il ruolo BENCHMARK,
ossia di confronto. I cui dati appunti sono confrontati.
I CORPORA SPECIALISTICI: Si focalizzano su un particolare dominio
di interesse.
I CORPORA DI ADDESTRAMENTO: Vengono intesi come fonte di dati ,
vengono usati dei metodi statistici per l’analisi linguistica, creano
modelli usati per l’analisi computazionale del linguaggio. Il loro
cosiddetto approccio è detto estensivo ed è garantito al giorno
d’oggi dal WORLD WIDE WEB.
IL WEB COME CORPUS: E’ una vera miniera per gli studi linguistici,
tra i dati disponibili si stimano oltre i 2.000 miliardi di parole,non è
solo una fonte diretta per accedere ai dati ma viene utilizzato il web
stesso come corpus su cui effettuare analisi computazionali. Ha un
unico difetto: il rumore, cioè informazioni irrilevanti o inaffidabili.
I computer memorizzano ed analizzano i testi sotto forma di due soli
simboli O ed I (detti in inglese BIT=BINARY DIGIT) aggregati in
sequenze di 8 cifre (byte), ogni cosa quindi deve avere una
rappresentazione binaria.
LA CODIFICA E’ LA RAPPRESEZTAZIONE DIGITALE DEL TESTO.
La CODIFA può essere:
-BINARIA , CODIFICA DI BASSO LIVELLO O LIVELLO ZERO (a ciascun
carattere del testo corrisponde un codice numerico – codifica a
livello 0 codice 1 A 1 in base decimale).
-CODIFICA AD ALTO LIVELO che arricchisce un testo con
informazioni sulla struttura e sulla sua interpretazione. Seleziona gli
aspetti rilevanti, sceglie una lingua manipolabile e leggibile dal
computer.
QUAL E’ L’UNITA’ DI MISURA DI UN TESTO DIGITALE? I token. La
tokenizzazione è il processo di segmentazione di un testo. I token
complessi sono nomi, espressioni e strutture alfanumeriche.
CHE VUOL DIRE CHE I COMPUTER SONO CASE-SENSITIVE? Che
codificano in maniera diversa i caratteri maiuscoli da quelli
minuscoli.
LE ESPRESSIONI REGOLARI: La tokenizzazione del testo si basa sulla
ricerca di sequenza di caratteri che soddisfano particolari criteri. Lo
strumento ideale è dato dalle espressioni regolari, ovvero una
notazione algebrica che definisce in maniera rigorosa e formale i
patterns di stringhe. Un pattern è uno schema che precisa i criteri
che le stringhe devono soddisfare in un testo, ad esempio “le
stringhe che iniziano con una maiuscola”. Nate grazie a Kleene nel
1956. Come programmi anche word legge le ER. La loro sintassila
più elementare è data da un solo carattere (es. /a/ ) specifa il
pattern. Poi / / è una stringa vuota che non contiene caratteri, ed