Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

MODALITA’: La modalità (scritta o orale) di produzione dei testi è un

parametro fondamentale per la produzione dei testi. Abbiamo i

corpus di lingua scritta (libri, lettere, articoli di giornali), i corpus di

lingua parlata (testi originariamente orali e poi trascritti, come le

conversazioni spontanee o le trasmissioni radiofoniche)da non

confondere con i corpus audio o multimodale- detto anche

audiovisivo- ed infine, i corpus misti che contengono entrambi i

suddetti corpus, un esempio BNC.

CRONOLOGIA: Incontriamo corpus sincronici (come il Brown Corpus)

dove sono presenti testi appartenenti alla stessa finestra

temporale,e appartengono ad una precisa fase della lingua; e quelli

diacronici che appartengono a periodi diversi, il cui scopo è

monitorare il mutamento linguistico.

LINGUA: Corpus monolingue (contiene solo testi di una sola lingua),

bilingue che vengono divisi a loro volta in paralleli (che

comprendono testi in lingua madre con il testo corrispondente

tradotto, fonte importantissima per le traduzioni) e comparabili (che

comprendono testi in lingua originale, testi in lingue diverse).

INTEGRITA’ DEI TESTI: Un corpus può contenere testi interi oppure

porzioni di testo.

CODIFICA DIGITALE DEI TESTI: Corpora codificati ad alto livello, con

informazioni importanti sulla struttura, arricchiti ad esempio da

etichette e, corpora annotati che contengono informazioni circa la

morfologia o la semantica del testo.

ESTENSIONE: l’unità di misura dell’estensione sono i token, ovvero il

numero di parole presenti in un testo. Nei corpora di prima

generazione (anni ‘60/’70) troviamo circa un milione di parole,il

primo corpus adottato per lo studio di una lingua fu proprio il Brown

Corpus nato nel 1964. Per i corpus di nuova generazione citiamo il

BNC con circa 100 milioni di parole. Annotiamo anche l’esistenza

dei corpus di monitoraggio che servono a monitorare le dinamiche

del lessico di una lingua, servono per aggiornare ad esempio i

dizionari.

IL GRADO DI ADEGUATEZZA DI UN CORPUS E’ DATO DA 2 FATTORI:

Si misura dalla sua grandezza, ovvero la sua dimensione

quantitativa, e dalla sua organizzazione e composizione, la

cosiddetta dimensione qualitativa.

Il testo si qualifica corpus grazie alla RAPPRESENTATIVITA’, ovvero

che il campione preso in esame somigli,nella maniera più assoluta,

alla popolazione che deve rappresentare e che rappresenti un

modello fedele in scala ridotta. I testi vengono classificati in archivi,

biblioteca digitali come la Biblioteca Italiana o la Oxford Test

Archive. Per essere rappresentativo deve contenere la variabilità dei

tratti e le proprietà di una lingua. Altro requisito è il

BILANCIAMENTO. L’obiettivo di un corpus generale è quello di

essere una fonte di riferimento trasversale per essere usato come

fonte di dati per creare modelli linguistici, grammatiche ecc.. Per

essere rappresentativo deve essere anche bilanciato, deve riferire

accuratamente la popolazione di riferimento , i criteri del

bilanciamento cambiano a seconda del corpus. I fattori sono sempre

dimensione qualitativa e quantitativa, e le componenti del testo

sono organizzate secondo il dominio di rifermento (economico,

giuridico) e il “medium” cioè il mezzo di comunicazione (articolo di

giornale..).

QUAL E’ IL LIMITE DEI CORPUS RAPPRESENTATIVI? Quello di essere

insieme FINITI, a differenza dell’uso comune del linguaggio, come

sostiene Chomsky, che è potenzialmente infinito.

Poiché i risultati che otteniamo sono influenzati dalla composizione

del corpus, esso , nelle valutazioni assume il ruolo BENCHMARK,

ossia di confronto. I cui dati appunti sono confrontati.

I CORPORA SPECIALISTICI: Si focalizzano su un particolare dominio

di interesse.

I CORPORA DI ADDESTRAMENTO: Vengono intesi come fonte di dati ,

vengono usati dei metodi statistici per l’analisi linguistica, creano

modelli usati per l’analisi computazionale del linguaggio. Il loro

cosiddetto approccio è detto estensivo ed è garantito al giorno

d’oggi dal WORLD WIDE WEB.

IL WEB COME CORPUS: E’ una vera miniera per gli studi linguistici,

tra i dati disponibili si stimano oltre i 2.000 miliardi di parole,non è


ACQUISTATO

4 volte

PAGINE

6

PESO

17.85 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in lingue e culture moderne
SSD:
Università: Calabria - Unical
A.A.: 2014-2015

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Camilla.impieri di informazioni apprese con la frequenza delle lezioni di Filologia e linguistica informatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Calabria - Unical o del prof Distilo Rocco.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in lingue e culture moderne

Appunti e riassunti di Letterature Anglo-americane, prof. Kidder
Appunto
6. Analyse - La Concorde de deux langages, J. de Belges
Appunto
3. Clément Marot
Appunto
4. Analyse - Le Dizain de Neige, C. Marot
Appunto