LINGUISTIC TECHNOLOGIES FOR INFORMATION EXTRACTION
Academic year2017/18
CourseDIGITAL HUMANITIES
Code569LL
Credits6
PeriodSemester 1
LanguageItalian
Modules | Area | Type | Hours | Teacher(s) |
TECNOLOGIE LINGUISTICHE PER L'ESTRAZIONE DI INFORMAZIONE | L-LIN/01 | LEZIONI | 42 | |
Obiettivi di apprendimento
Conoscenze
- Apprendimento delle nozioni teoriche relative al trattamento delle immagini digitali di pagine di testo, al riconscimento ottico dei caratteri (OCR) e alla correzione semiautomatica del testo acquisito.
- Conoscenza delle diverse teorie riguardanti l’edizione scientifica digitale.
- Apprendimento delle principali tecniche di analisi linguistica e stilistica applicata a testi di interesse storico-letterario.
Knowledge
- Image (pre)processing, OCR and collaborative proof-reading.
- Scholarly Digital Editions.
- Linguistic and Stylistic Analyses applied to historical texts.
Modalità di verifica delle conoscenze
Viene valutata l’acquisizione delle conoscenze tramite colloquio.
Assessment criteria of knowledge
Oral examination.
Capacità
Capacità di seguire il flusso di lavoro dall’acquisizione del testo tramite OCR, attraverso la creazione dell’edizione digitale, fino all’analisi testuale.
Skills
Ability to manage the textual workflow from the primary source to the annotated scholarly edition.
Modalità di verifica delle capacità
Lo studente concorda con il docente un progetto di digitalizzazione tramite OCR, marcatura semiautomatica del testo ed annotazione linguistica e/o stilistica. Viene valutata la relazione scritta che illustra il progetto.
Assessment criteria of skills
Students must prepare a project divided into three phases: a) text acquisition by OCR; semiautomatic TEI mark-up of the digital scholarly edition; linguistic and/or stylistic annotation. The teacher evaluates the project final report.
Comportamenti
Stesura di un progetto di digitalizzazione tramite OCR, creazione dell’edizione digitale e relative analisi linguistiche e stilistiche.
Behaviors
Preparation of a project that involves skills in OCR application, semiautomatic TEI mark-up and stand-off linguistic and stylistic annotations.
Modalità di verifica dei comportamenti
Colloqui e revisioni del progetto.
Assessment criteria of behaviors
Project reviews (students will discuss with the teacher the development of their projects).
Prerequisiti (conoscenze iniziali)
Conoscenze informatiche di base.
Prerequisites
Basic knowledge of computer science.
Indicazioni metodologiche
- Le lezioni frontali si svolgono prevalentemente con l’ausilio di slides;
- I materiali didattici sono messi progressivamente a disposizione sulla piattaforma moodle del Polo 4;
- Le esercitazioni pratiche si svolgono prevalentemente con l’uso dei portatili personali degli studenti.
Teaching methods
- lectures with slides;
- slides and other documents will be available on moodle (Polo 4);
- students are supposed to use their personal laptops.
Programma (contenuti dell'insegnamento)
Introduzione
Acquisizione
- Scanner e repertori di immagini
- Trattamento delle immagini
- Optical Character Recognition (OCR)
- Algoritmi di allineamento
- Tecniche linguistiche per migliorare l’accuratezza
- Applicazioni per la correzione collaborativa dell’OCR
Edizioni e Annotazioni
- Che cos’è un’edizione digitale
- Canonical Texts Services (CTS)
- Edizione critica e Text Encoding Initiative (TEI)
- Rappresentazione della variantistica
- Piattaforme web per l’annotazione
- Annotazione tramite Domain Specific Languages
- Dalle folksonomies alle ontologie
Analisi
- Lemmatizzazione e analisi morfologica di testi antichi
- Treebanking: varianti e interpretazioni
- Semantica distribuzionale diacronica
- Named Entity Recognition in prospettiva diacronica
- Analisi metrica
- Elementi di Stilometria
Conclusione
- Discussione generale sui risultati raggiunti
Syllabus
Introduction
Text acquisition
- Scanners and image repertories online
- Image processing to improve text readability
- Optical Character Recognition (OCR)
- Alignment Algorithms
- Language technologies to improve the acquisition accuracy
- Web applications for collaborative proof-reading
Editions and Annotations
- What is a Digital Scholarly Edition?
- Canonical Texts Services (CTS)
- Scholarly Edition and Text Encoding Initiative (TEI)
- Digital variants
- Annotation online
- Annotating by Domain Specific Languages (DSL)
- From folksonomies to ontologies
Linguistic and Stylistic Analyses
- Lemmatization and morphological analysis of historical texts
- Treebanking: variants and interpretations
- Diachronic distributional semantics
- Named Entity Recognition for historical texts
- Metrical Analysis
- Elements of Stylometry
Conclusion
- Discussion about the outcomes
Bibliografia e materiale didattico
- Driscoll, Matthew James, and Elena Pierazzo (eds.). 2016. Digital scholarly editing: theories and practices. Cambridge, UK: Open Book Publishers. http://dx.doi.org/10.11647/OBP.0095
- Piotrowski, Michael. 2012. Natural Language Processing for Historical Texts. San Rafael: Morgan & Claypool Publishers.
- Schreibman, Susan, Ray Siemens, and John Unsworth (eds.). 2016. A new companion to digital humanities. Chichester: Wiley Blackwell.
Ulteriori informazioni e materiali didattici saranno forniti durante il corso.
Bibliography
- Driscoll, Matthew James, and Elena Pierazzo (eds.). 2016. Digital scholarly editing: theories and practices. Cambridge, UK: Open Book Publishers. http://dx.doi.org/10.11647/OBP.0095
- Piotrowski, Michael. 2012. Natural Language Processing for Historical Texts. San Rafael: Morgan & Claypool Publishers.
- Schreibman, Susan, Ray Siemens, and John Unsworth (eds.). 2016. A new companion to digital humanities. Chichester: Wiley Blackwell.
Further information will be provided during the course.
Indicazioni per non frequentanti
I non frequentanti sono invitati a concordare il programma con il docente.
Non-attending students info
Non-attending students are invited to contact the teacher.
Modalità d'esame
Relazione scritta sul progetto e interrogazione orale sulla parte teorica.
Assessment methods
Project report and oral examination.
Stage e tirocini
È possibile svolgere il tirocinio presso l’Istituto di Linguistica Computazionale "A. Zampolli" del CNR di Pisa.
Work placement
Students can perform the internship at the Institute for Computational Linguistics "A. Zampolli", CNR of Pisa.
Updated: 18/08/2017 17:51