Scheda programma d'esame
LINGUISTIC TECHNOLOGIES FOR INFORMATION EXTRACTION
FEDERICO BOSCHETTI
Academic year2017/18
CourseDIGITAL HUMANITIES
Code569LL
Credits6
PeriodSemester 1
LanguageItalian

ModulesAreaTypeHoursTeacher(s)
TECNOLOGIE LINGUISTICHE PER L'ESTRAZIONE DI INFORMAZIONEL-LIN/01LEZIONI42
FEDERICO BOSCHETTI unimap
Obiettivi di apprendimento
Learning outcomes
Conoscenze
  • Apprendimento delle nozioni teoriche relative al trattamento delle immagini digitali di pagine di testo, al riconscimento ottico dei caratteri (OCR) e alla correzione semiautomatica del testo acquisito.
  • Conoscenza delle diverse teorie riguardanti l’edizione scientifica digitale.
  • Apprendimento delle principali tecniche di analisi linguistica e stilistica applicata a testi di interesse storico-letterario.
Knowledge
  • Image (pre)processing, OCR and collaborative proof-reading.
  • Scholarly Digital Editions.
  • Linguistic and Stylistic Analyses applied to historical texts.
Modalità di verifica delle conoscenze

Viene valutata l’acquisizione delle conoscenze tramite colloquio.

Assessment criteria of knowledge

Oral examination.

Capacità

Capacità di seguire il flusso di lavoro dall’acquisizione del testo tramite OCR, attraverso la creazione dell’edizione digitale, fino all’analisi testuale.

Skills

Ability to manage the textual workflow from the primary source to the annotated scholarly edition.

Modalità di verifica delle capacità

Lo studente concorda con il docente un progetto di digitalizzazione tramite OCR, marcatura semiautomatica del testo ed annotazione linguistica e/o stilistica. Viene valutata la relazione scritta che illustra il progetto.

Assessment criteria of skills

Students must prepare a project divided into three phases: a) text acquisition by OCR; semiautomatic TEI mark-up of the digital scholarly edition; linguistic and/or stylistic annotation. The teacher evaluates the project final report.

Comportamenti

Stesura di un progetto di digitalizzazione tramite OCR, creazione dell’edizione digitale e relative analisi linguistiche e stilistiche.

Behaviors

Preparation of a project that involves skills in OCR application, semiautomatic TEI mark-up and stand-off linguistic and stylistic annotations.

Modalità di verifica dei comportamenti

Colloqui e revisioni del progetto.

Assessment criteria of behaviors

Project reviews (students will discuss with the teacher the development of their projects).

Prerequisiti (conoscenze iniziali)

Conoscenze informatiche di base.

Prerequisites

Basic knowledge of computer science.

Indicazioni metodologiche
  • Le lezioni frontali si svolgono prevalentemente con l’ausilio di slides;
  • I materiali didattici sono messi progressivamente a disposizione sulla piattaforma moodle del Polo 4;
  • Le esercitazioni pratiche si svolgono prevalentemente con l’uso dei portatili personali degli studenti.
Teaching methods
  • lectures with slides;
  • slides and other documents will be available on moodle (Polo 4);
  • students are supposed to use their personal laptops.
Programma (contenuti dell'insegnamento)

Introduzione

  • Introduzione generale

Acquisizione

  • Scanner e repertori di immagini
  • Trattamento delle immagini
  • Optical Character Recognition (OCR)
  • Algoritmi di allineamento
  • Tecniche linguistiche per migliorare l’accuratezza
  • Applicazioni per la correzione collaborativa dell’OCR

Edizioni e Annotazioni

  • Che cos’è un’edizione digitale
  • Canonical Texts Services (CTS)
  • Edizione critica e Text Encoding Initiative (TEI)
  • Rappresentazione della variantistica
  • Piattaforme web per l’annotazione
  • Annotazione tramite Domain Specific Languages
  • Dalle folksonomies alle ontologie

Analisi

  • Lemmatizzazione e analisi morfologica di testi antichi
  • Treebanking: varianti e interpretazioni
  • Semantica distribuzionale diacronica
  • Named Entity Recognition in prospettiva diacronica
  • Analisi metrica
  • Elementi di Stilometria

Conclusione

  • Discussione generale sui risultati raggiunti
Syllabus

Introduction

  • General overview

Text acquisition

  • Scanners and image repertories online
  • Image processing to improve text readability
  • Optical Character Recognition (OCR)
  • Alignment Algorithms
  • Language technologies to improve the acquisition accuracy
  • Web applications for collaborative proof-reading

Editions and Annotations

  • What is a Digital Scholarly Edition?
  • Canonical Texts Services (CTS)
  • Scholarly Edition and Text Encoding Initiative (TEI)
  • Digital variants
  • Annotation online
  • Annotating by Domain Specific Languages (DSL)
  • From folksonomies to ontologies

Linguistic and Stylistic Analyses

  • Lemmatization and morphological analysis of historical texts
  • Treebanking: variants and interpretations
  • Diachronic distributional semantics
  • Named Entity Recognition for historical texts
  • Metrical Analysis
  • Elements of Stylometry

Conclusion

  • Discussion about the outcomes
Bibliografia e materiale didattico
  • Driscoll, Matthew James, and Elena Pierazzo (eds.). 2016. Digital scholarly editing: theories and practices. Cambridge, UK: Open Book Publishers. http://dx.doi.org/10.11647/OBP.0095
  • Piotrowski, Michael. 2012. Natural Language Processing for Historical Texts. San Rafael: Morgan & Claypool Publishers.
  • Schreibman, Susan, Ray Siemens, and John Unsworth (eds.). 2016. A new companion to digital humanities. Chichester: Wiley Blackwell.

Ulteriori informazioni e materiali didattici saranno forniti durante il corso.

Bibliography
  • Driscoll, Matthew James, and Elena Pierazzo (eds.). 2016. Digital scholarly editing: theories and practices. Cambridge, UK: Open Book Publishers. http://dx.doi.org/10.11647/OBP.0095
  • Piotrowski, Michael. 2012. Natural Language Processing for Historical Texts. San Rafael: Morgan & Claypool Publishers.
  • Schreibman, Susan, Ray Siemens, and John Unsworth (eds.). 2016. A new companion to digital humanities. Chichester: Wiley Blackwell.

Further information will be provided during the course.

Indicazioni per non frequentanti

I non frequentanti sono invitati a concordare il programma con il docente.

Non-attending students info

Non-attending students are invited to contact the teacher.

Modalità d'esame

Relazione scritta sul progetto e interrogazione orale sulla parte teorica.

Assessment methods

Project report and oral examination.

Stage e tirocini

È possibile svolgere il tirocinio presso l’Istituto di Linguistica Computazionale "A. Zampolli" del CNR di Pisa.

Work placement

Students can perform the internship at the Institute for Computational Linguistics "A. Zampolli", CNR of Pisa.

Updated: 18/08/2017 17:51