Firenze - 12 Dicembre 2015

D(h)ante

La prospettiva delle digital humanities

Angelo Basile / Digital Humanities Joint Project @ FBK

dhlogo

Digital Humanities
Joint Project

Menini - Moretti - Sangati - Sprugnoli - Tonelli

Indice

  1. Informatica umanistica
  2. Il corpus dantesco
  3. Analizzatore grammaticale
  4. Demo
  5. Conclusione

Informatica umanistica

padre Busa

k padre Busa

Linguistica computazionale

Analisi automatica di testi letterari

Il corpus dantesco

DanteSearch

www.perunaenciclopediadantescadigitale.eu

  • testi affidabili (collazione con le edizioni di riferimento)
  • XML
  • TEI
  • lemmatizzazione
  • annotazione grammaticale e sintattica

Annotazione

Manuale

Con esperti di dominio

Nel mezzo del cammin di nostra vita

token lemma cat. grammaticale
Nel il rdms
mezzo in mezzo di eilaksl
del il rdms
cammin cammino sm2ms

Documenti

  • Commedia
  • Convivio
  • Detto d'amore
  • Rime
  • Vita Nuova
  • Fiore

Una sintesi in numeri

Documento token type lex. richness
convivio 73457 6826 0.09
dettodamore 2503 766 0.31
fiore 23698 4420 0.19
inferno 34280 6704 0.19
paradiso 33717 6339 0.19
purgatorio 34146 6591 0.19
rime 12102 2733 0.22
vitanuova 18988 3004 0.16
token type lex. richness
232891 20562 0.09

Un esempio


 
  ...
   Nel
   mezzo
   del
   cammin
   di
   nostra
   vita
  ...
 
				      

Elaborazione del corpus

  1. tokenizzazione esaustiva
  2. unione di lemmi multipli
  3. punteggiatura
  4. segmentazione della frase
  5. conversione del tagset

tokenizzazione


 
 ...
 
quando che sia

 ...
 
				    
token POS lemma
quando B quando che sia
che B quando che sia
sia B quando che sia

lemmi multipli


 
 ...

nel
nel

 ...
 
				    
token lemma POS
nel RS/E il/in

punteggiatura


 
 ...
alto,
...
regge;

 ...
 
				    
token lemma POS
alto alto A
, , XPW
regge reggere VI
; ; XPO

Tagset

a1fs AS
a2fs AS
a1ms AS
a2ms AS
... ...
2224 46

RISULTATO

token_id token lemma POS originalPOS sentence_id
0 Per per E epsf 1
1 correr correre VI vta2fp 1
2 miglior migliore AP a2fp 1

Un analizzatore grammaticale

Nel _RS mezzo _E del _RS cammin _SS

modello accuratezza
TextPro* 0.72
TreeTagger 0.90
Stanford Tagger 0.92

ALCIDE

Analysis of Language and Content In a Digital Environment

Grazie

Angelo Basile / Digital Humanities Joint Project @ FBK
angelo.basile@alumni.unitn.it
https://dh.fbk.eu