Corpus lemmatizzato ArsNova: criteri e ricerche
1. Introduzione
2. Lemmatizzazione del Corpus ArsNova
3. Criteri di esclusione
4. Criteri di iperlemmatizzazione
5. Crediti
1. Introduzione
Il Corpus ArsNova è un corpus plurilingue e ha al centro la lemmatizzazione dei testi poetici e musicali editi criticamente nell’ambito del progetto ArsNova (European Ars Nova: Multilingual Poetry and Polyphonic Song in the Late Middle Ages).
Il progetto studia secondo un taglio interdisciplinare e comparativo la poesia in latino, francese e italiano messa in musica dai polifonisti della cosiddetta Ars Nova, etichetta convenzionale usata per definire la polifonia sacra e profana composta soprattutto in Francia e in Italia durante il XIV secolo e all’inizio del XV, una delle più alte espressioni dell’arte medievale. Le tre linee di ricerca fondamentali riguardano le relazioni tra poesia e musica, la funzione delle composizioni nel contesto storico e sociale, la tradizione manoscritta musicale e letteraria.
Il progetto prevede l’allestimento del database ArsNova, formato da tre sezioni:
● il catalogo dei manoscritti, degli autori e dei testi (CANT);
● il corpus dei testi poetici e musicali (ANT);
● il repertorio delle strutture metriche e musicali (ANS).
Il corpus ArsNova dei testi poetici e musicali (ANT) coincide idealmente con l’intera produzione in italiano, francese e latino del XIV secolo. L’esatta consistenza del corpus è stata stabilita tramite i criteri di pertinenza consultabili alla pagina: https://arsnova-ant.mirabileweb.it/home.
L’ANT è costituito da due archivi differenti ma interconnessi, uno per i testi poetici e uno per le composizioni musicali. Entrambi gli archivi ospitano le edizioni critiche dei testi poetici e musicali, approntate dal team tramite un nuovo esame della tradizione manoscritta.
L’OVI fornisce al progetto ArsNova il software lessicografico GATTO, creato come strumento per lo sviluppo, la gestione e l’interrogazione di corpora testuali, al fine di ottenere concordanze per forme e per lemmi dei testi poetici contenuti nell’ANT.
2. Lemmatizzazione del Corpus ArsNova
Mediante le funzioni e le procedure di GattoWeb, il corpus è interrogabile per forme, per lemmi e per iperlemmi, ovvero lemmi sovraordinati che permettono di ricavare concordanze lemmatizzate multilingui, utili allo studio del lessico e a individuare i rapporti di intertestualità anche tra testi in lingue diverse (vd. il par. 4). La lemmatizzazione del corpus è selettiva e ha privilegiato i termini semanticamente “pieni” (vd. i Criteri di esclusione al par. 3). La lemmatizzazione presenta alcune specificità (accanto alla selezione del lessico, la forma adottata per le entrate) in particolare nell’uso della casella “disambiguatore” e del campo “commento”. I diversi campi si compilano sempre in italiano, anche quando si abbia a che fare con un lemma in un’altra lingua.
Per la forma delle entrate del lemmario si fa riferimento ai principali dizionari: per l’italiano è stata adottata la grafia del Tesoro della Lingua Italiana delle Origini (TLIO), in assenza del lemma nel TLIO si è ricorso al Grande Dizionario della Lingua Italiana (GDLI), in assenza del GDLI si è creato un lemma apposito; per il francese si è fatto riferimento al Dictionnaire du Moyen Français (DMF), in assenza del lemma si è ricorso al Tobler-Lommatzsch, Altfranzösisches Wörterbuch (TL), in assenza del TL si è creato un lemma apposito. Per i lemmi latini fa fede il Dictionary of Medieval Latin from British Sources (DMLBS), in assenza del DMLBS si è ricorso al Du Cange: entrambi i dizionari sono consultabili sul Database of Latin Dictionaries (DLD) di Brepols (www.brepolis.net).
Conformemente all’uso dei dizionari, l’entrata è data dal singolare per i sostantivi, dal maschile singolare per gli aggettivi e dall’infinito per i verbi. Per il latino, i sostantivi sono dati al caso nominativo singolare, gli aggettivi all’uscita del nominativo maschile singolare, i verbi alla forma dell’infinito presente.
La categoria grammaticale è articolata e rappresentata in sigla come segue:
agg. = aggettivo qualificativo
agg. /escl. = aggettivo qualificativo/esclamazione
avv. = avverbio
avv./escl. = avverbio/esclamazione
escl. = esclamazione
n.p. = nome proprio
s.f. = sostantivo femminile
s.i. = sostantivo incerto
s.m. = sostantivo maschile
s.m./s.f. = sostantivo maschile/sostantivo femminile
s.n. = sostantivo neutro
s.pl. = sostantivo plurale
v. = verbo (qualunque forma verbale)
La categoria grammaticale permette di disambiguare due lemmi omografi (p. es. PIACERE v. e PIACERE s.m.); nei casi in cui non è del tutto agevole distinguere la categoria grammaticale, si è optato per una categoria grammaticale doppia, che tiene insieme i due possibili valori. Es. per MERCI, di per sé sostantivo femminile, ma spesso usato come esclamazione, si è deciso di usare s.f./escl.
L’utente che effettuerà una ricerca per il lemma MERCI troverà dunque questa schermata:
Gli alterati costituiscono entrate distinte (per es. giovanetto agg. è distinto da giovane agg.).
La cat. gr. s.m./s.f. si è adottata solo alla presenza effettiva di occorrenze sia maschili che femminili (ad es. si vedano i lemmi italiani AMORE e FIORE, e i francesi FLEUR, GENS e SAVEUR):
I participi passati o presenti in funzione di aggettivo e che si legano ad un sostantivo sono lemmatizzati come agg.
Per es.:
desirant
(Seugect cens fois mon cuer, tres desirant / de vous voir…) lemma
DESIRANT agg.
sembiante (veggendo per sembiante) lemma SEMBIANTE agg.
L’infinito sostantivato può costituire un’entrata lessicale distinta, quando il valore è propriamente sostantivale. Perché un infinito abbia valore di sostantivo è sufficiente la presenza dell’articolo (es. il trovare) o di un aggettivo; la stessa norma viene estesa anche ai participi passati.
Per es. :
fare (in Se pronto non sarà l’uom al ben fare) lemma FARE s.m.
guardare (in et beningno guardare) lemma GUARDARE s.m.
trovato (in che ’maginar solea tuo bel trovato) lemma TROVATO s.m.
Nell’esempio sottostante come si presenta il doppio lemma FARE, sostantivo maschile e verbo:
La cat. gr. n.p. corrisponde alle forme associate a nomi propri ed è stata adottata anche per le personificazioni.
Per es. :
droiture (in Le roy d’Amours au palais de Droyture) lemma DROITURE n.p.
natura (in In somm’ alteça t’à posta Natura) lemma NATURA n.p.
Si veda l’esempio sottostante, dove attraverso la cat. gr. si distinguono i due lemmi DROITURE sostantivo femminile e DROITURE nome proprio:
Per l’accentazione e la distinzione degli omografi, il lemma non porta l’accento grafico, a meno che questo non serva a distinguere lemmi omografi non omofoni, sia eteroaccentati (es. BÀLIA s.f. 'nutrice' vs. BALÌA s.f. 'potere') che a diverso timbro (ad es. FÈSSO agg. 'diviso' vs. FÉSSO agg.).
Alcune forme composte sono lemmatizzate come entrate, come nel caso del francese BIAU SEMBLANT n.p.
Campo Disambiguatore
Nel Corpus ArsNova il campo “disambiguatore” contiene l’indicazione della lingua di riferimento, le abbreviazioni si sciolgono come segue:
it.: italiano
fr.: francese
lat.: latino
Il disambiguatore si rivela fondamentale nei casi di lemmi omografi tra lingue diverse. Per esempio:
lemma DIRE v. Disambiguatore: it.
lemma DIRE v. Disambiguatore: fr.
lemma DIRE s.m. Disambiguatore: fr.
lemma LÀ avv. Disambiguatore: it.
lemma LÀ avv. Disambiguatore: fr.
Campo Commento
Il campo “commento” consente di inserire ulteriori elementi descrittivi del lemma, fermo restando che il contenuto di questo campo può essere visualizzato ma non contribuisce a definire il lemma né a distinguerlo dagli altri.
Laddove il significato del lemma non sia immediatamente comprensibile si è scelto di offrire una traduzione o un chiarimento come per il lemma italiano ARIETE s.m., “con il signif. di segno zodiacale” (si veda lo screenshot sottostante):
Il campo “commento” può contenere:
1) la segnalazione dell’impiego del lemma in locuzioni avverbiali, come nel caso dell’aggettivo DEMI:
2) traduzioni tra apici, come per il lemma italiano COMMENDARE ‘apprezzare’:
3) informazioni come “riferito a Maria”, a corredo del lemma francese DAME s.f.:
4) informazioni specifiche su dove ricorra il lemma, come nel caso di ARTIGLIONE, lemma italiano la cui unica occorrenza si ricava da un testo in francese:
5) informazioni sul significato del lemma, come nel caso seguente, relativo al lemma MI, con la specificazione “nota musicale”:
Bibliografia
Nella scheda bibliografica relativa a ogni componimento si trovano informazioni quali il titolo esteso e il riferimento a chi ha curato l’edizione critica nell’ambito del progetto ArsNova. Nelle note della Bibliografia si trova la dicitura “pluritestuale” per le opere pluritestuali e si segnalano i diversi incipit seguiti dalle sigle dei componimenti relativi.
3. Criteri di esclusione
Sono stati esclusi dalla lemmatizzazione:
1. Articoli: viceversa si lemmatizza uno quando è aggettivo numerale ‘uno, uno solo’ (lemma: UNO; cat. gr. agg.).
2. Congiunzioni.
3. Preposizioni semplici/articolate e locuzioni prepositive (in mezzo a, prima di)
4. Negazione non.
5. Pronomi personali (anche nel costrutto impersonale francese del tipo on parle/on y va).
6. Pronomi in enclisi.
7. Aggettivi e pronomi possessivi.
8. Aggettivi e pronomi dimostrativi e indefiniti.
9. Elementi ellittici di vario tipo.
Per quanto riguarda i verbi non viene segnalato:
Nelle forme composte dei verbi i participi passati sono lemmatizzati sotto
l’infinito e non è lemmatizzato il verbo ausiliare del tempo composto. Per es.,
in à contemplato, stando a questa norma, si lemmatizza solo la forma contemplato
sotto CONTEMPLARE v., non il verbo ausiliare.
4. Criteri di Iperlemmatizzazione
Il campo iperlemma presenta le entrate di diverse lingue che condividono etimo e categoria grammaticale, permettendo di consultare le occorrenze in una prospettiva plurilingue:
iperlemma ABBANDONARE/ABANDONER;
iperlemma ACQUA/EAU...
5. Crediti
Criteri di lemmatizzazione a cura di: Vittoria Brancato, Davide Checchi, Maria Sofia Lannutti.
Coordinamento della codifica e della lemmatizzazione del corpus: Paolo Squillacioti (CNR-OVI)
Codifica e lemmatizzazione: Valeria Carrieri (CNR-OVI)
Per comunicazioni e segnalazioni scrivere a: europeanarsnova@gmail.com