Anteprima
Vedrai una selezione di 4 pagine su 15
Appunti di Linguistica Applicata - Modulo 1 - F. Tamburini Pag. 1 Appunti di Linguistica Applicata - Modulo 1 - F. Tamburini Pag. 2
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Appunti di Linguistica Applicata - Modulo 1 - F. Tamburini Pag. 6
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Appunti di Linguistica Applicata - Modulo 1 - F. Tamburini Pag. 11
1 su 15
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

CORISÈ: Il corpus di italiano scritto

CORISÈ è il corpus di italiano scritto, creato alla fine degli anni '90 con scopi di ricerca perché in Italia, a differenza di molte nazioni europee, mancava ancora un corpus della lingua di stato. In Italia i finanziamenti erano tutti spinti a risorse interne, non a disposizione di tutti. Chi all'epoca era interessato ad eseguire analisi non aveva strumenti. Durante gli anni '90 Repubblica decide di pubblicare il CD-ROM con le annate del suo quotidiano, usati alla base del corpus. Ha successo ed è molto usato negli anni successivi, ma il corpus non era rappresentativo se non della lingua dei giornalisti di Repubblica in quegli anni.

CORIS vuole essere un corpus di riferimento rappresentativo del linguaggio italiano, monolingue, italiano Monitor corpus contemporaneo, sincronico, lingua scritta, testi interi, ogni tre anni, testi autentici. Viene articolato in sezioni usando la visione gerarchica e si tenta di essere il più oggettivi possibile.

Il primotentativo si basa unicamente su parametri quantitativi, hanno preso informazione sulla circolazione dei quotidiani e sulla distribuzione dei volumi prendendo come campione il 1997. Alla fine, la prima versione è composta al 90% di stampa, molto semplice anche perché c'erano i CD con gli articoli di giornale. Ma estraendo parole molto comuni si ottenevano dati fortemente sbilanciate verso il linguaggio giornalistico. Sono stati introdotti parametri di aggiustamento qualitativo e anche soggettivi, anche perché giornali e volumi si leggono in contesti ed in modi diversi. È diviso in 6 macro-varietà testuali: giornale, narrativa, prosa accademica, prosa legale ed amministrativa, miscellanea ed efemera. Ogni subcorpora a sua volta suddiviso in sezioni: Giornali, periodici e supplementari; novelle, brevi storie, tradotte in italiano e di autori italiani; libri e interviste; libri, interviste, documenti; libri, interviste, documenti; lettere, istruzioni, pubblicità.

Le sezioni a sua volta sono divise in sottosezioni realizzate sulla base di criteri esterni. I testi sono stati acquisiti principalmente con CD-ROMs e on-line, e-book. CODIS Appena terminato CORIS ci si rende conto che avere un corpus rappresentativo della lingua nazionale così grande poteva essere utile per studi interlinguistici utilizzando altri corpora. Confrontando CORIS con altri corpora di altre nazioni, la struttura e gli studi di rappresentatività fanno si che siano molto diversi fra loro e difficilmente comparabili. Ad esempio, il corpus portoghese inserisce il 60% di quotidiani, mentre il CORIS 38%. Si costruisce quindi un corpus alternativo Corpus Dinamico di Italiano Scritto in cui l'utente può creare il suo corpus usando i materiali di CORIS. In modo da poter essere in grado di cambiare le proporzioni per poterlo assimilare a quelli delle altre nazioni, è valido anche per gli studiosi che non concordano con la suddivisione di proporzioni dei subcorpora.

La miscellanea ha 10 milioni di parole, la suddivisione in 4 è realizzata mescolando blocchi diversi in modo da dare all'utente una maggiore possibilità di combinazioni. Ha quindi una struttura dinamica perché si adatta ad ogni necessità. I testi al suo interno sono degli anni '80 - '90, non si riesce più aggiornare perché il software di aggiornamento non è stato configurato per rispettare la suddivisione in blocchi.

Bononia Legal Corpus (BoLC) - Nasce dalla collaborazione con John Sinclair e l'istituto giuridico dell'università di Bologna; l'obbiettivo è di confrontare la terminologia del diritto tributario fra il sistema legale italiano e quello inglese, sono (common law / civil law), basati su principi completamente diversi quindi grandi differenze sulla resa dei concetti. Il corpus è sincronico, tratta un linguaggio specialistico, è bilingue con due parti, una parallela ed

una comparabile. Con la raccolta di direttive e sentenze dell'Unione Europea, sia in italiano che inglese, si costruisce la fase 1 parallela, i testi erano facilmente disponibili. La fase 2, per l'italiano, si usano cd-rom con archivi leggi aggiornate degli studi legali, per quanto riguarda il lato anglosassone non si riusciva a reperire testi in formato elettronico, quindi in crisi. Nel 2003 - 2004 si costruiscono database in rete che permettono di sostituire la fase 2 con la 3 ed ora è in rete, contiene circa 60 milioni di parole per ogni lingua ed i testi ormai sono vecchi ma rappresenta uno studio di rappresentatività solido.

DiaCORIS Diachronic Iniziato nel 2003, CORIS, nasce dalla collaborazione con l'Accademia della Crusca, rappresenta i testi scritti in italiano dall'unità d'Italia fino alla fine della Seconda guerra mondiale. È diviso in 3 sezioni temporali diverse: periodo immediatamente successivo all'unità 1861-1900,

liberale 1900-1922, fascista 1923-1945. Contiene le stesse tipologie testuali di CORIS, tranne l'efemera perché non erarilevante, ma in ogni epoca hanno un peso diverso. Dopo l'unificazione i quotidiani erano pochissimi, mentre nel periodo fascista erano più numerosi, quindi hanno un peso sulla lingua diverso. Ogni periodo temporale contiene circa 5 milioni di parole. Molti testi non erano in formato digitale, gli accademici della crusca gli hanno scannerizzati e rivisti manualmente. Ogni testo ha una serie di metadati che permette di farne individuare la fonte. In un successivo processo si crea un raccordo completo fra DiaCORIS e CORIS con altre due sezioni dal 1946 al 1967 e dal 1968 al 2001, di nuovo di 5 milioni ciascuno.

asWeb corpus

Grazie al web è possibile ottenere corpora enormi in poco tempo e con uno sforzo minimo, però le indagini empiriche risentono enormemente della sparsità dei dati, consente la costruzione di corpora per lingue

formattazione HTML che potresti utilizzare per il testo fornito potrebbe essere la seguente:

Vantaggi: il web offre una vasta quantità di informazioni, permettendo di creare corpora specifici o di coprire varietà linguistiche minoritarie. Inoltre, consente di avere contenuti estremamente aggiornati.

Svantaggi: il web non è rappresentativo e non permette di esercitare un controllo sui testi in modo preventivo. Inoltre, il web cresce in maniera disordinata e non è possibile controllare ciò che finisce nel corpus in anticipo, ma solo successivamente. Alcune macro-varietà testuali, come la saggistica e la narrativa coperte da copyright, non sono rappresentate adeguatamente. Inoltre, i corpora costruiti utilizzando il web possono contenere duplicazioni di documenti e materiale non linguistico inserito nei testi. Per recuperare le informazioni è necessario utilizzare un motore di ricerca.

interrogazioni è molto più limitata rispetto a quella di un corpus. Le aziende che possiedono i motori di ricerca non rendono pubbliche le modalità di interrogazione del web, quindi non sono chiari i criteri di acquisizione scelta dei documenti, quindi spesso si ottengono risultati strani. I risultati non sono stabili nel tempo, i motori di ricerca cambiano i criteri di ranking delle pagine, i database si evolvono continuamente.

Proposte per usarlo come fonte di materiali:

  • Motori di ricerca: lo uso come meccanismo di ricerca dei testi, le concordanze vengono organizzate e formattate da piccoli programmi che si interfacciano ai motori di ricerca o tramite interfacce web, una interfaccia di questo tipo è Webcorp. Ovviamente ho un controllo minimo sui testi, interferenze fra lingue diverse per omografi. Invece con un corpus tradizionale ho un massimo controllo.
  • Costruzione di corpora attraverso i motori: in questo caso si utilizzano i motori di ricerca

interrogandoli con alcune specifiche parole chiave della varietà da studiare e si scaricano tutti i documenti restituiti localmente. Questo consente un maggiore controllo e l'annotazione dei documenti, ma ancora non è presente alcun controllo sulla rappresentabilità. Richiede l'elaborazione dei documenti, però rimane un corpus stabile nel tempo.

Crawling: url url si ottiene una lista di da un motore di ricerca, la si elabora e si scaricano i risultati utilizzando un web crawler. Consente un controllo maggiore sulla rappresentatività perché seleziono i testi prima di scaricarli ma richiede l'elaborazione dei documenti.

The case for extended units of meaning Sinclair ha un approccio teorico. Il punto di partenza della descrizione del significato del linguaggio è la parola. È uno delle due primitive forme di linguaggio, l'altra è la frase, che allinea la grammatica al discorso. Prendo il significato delle

singole parole, la sintassi mi guida a combinare i vari significati in unopiù grande. I dizionari essendo organizzati per lemmi confermano questa visione. Sinclair dice che inrealtà le parole in un testo creano delle combinazioni di significato molto rilevanti, eppure di questecombinazioni non ci si rende conto nell’analisi linguistica perché si pone maggiore rilievo sullagrammatica che ha quindi responsabilità di combinarle insieme in unità più grandi. A livello semantico èchiara la sua visione: le parole sono l’unità minima di significato che però in molti casi è ambigua.I dizionari fanno notare anche un numero di eccezioni a questa unità minima di significato, come i verbifrasali, le frasi idiomatiche, i cliché, i proverbi, la terminologia tecnica. In ogni caso questi fenomeni sonovisti come marginali nell’insieme del sistema giuridico, sono viste come eccezioni che vanno gestite

In seconda istanza. Sinclair dice che la completa fissità delle combinazioni di parole è rara, le unità di significato stanno nel mezzo. Definisce un continuum di comportamenti semantici a livello fraseologico dall'open choice che va nel quale le parole si combinano liberamente. Propone invece una fortissima idiom principal, dell'open dipendenza tra elementi della catena linguistica che chiama avvicinarsi al polo choice è tendere verso una tendenza terminologica in cui le parole hanno un significato vincolato e chiaro; tendere verso l'idiomaticità è tendere verso frasi idiomatiche, fisse di struttura. Ma nel mezzo ci sono oggetti che non sono frasi idiomatiche e che non hanno una idiomaticità forte, sono il grosso. Dice che almeno per la lingua inglese la maggior parte delle unità di significato sono frasali e che non sono l'unità minima di significato ma che sia più conveniente considerare l'insieme.

solo poche parole scelte l'open choice. Con il primo punto da fissare riguarda il fatto che noi dobbiamo considerare.
Dettagli
A.A. 2020-2021
15 pagine
1 download
SSD Scienze antichità, filologico-letterarie e storico-artistiche L-FIL-LET/12 Linguistica italiana

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valentinajanni di informazioni apprese con la frequenza delle lezioni di Linguistica applicata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bologna o del prof Tamburini Fabio.