View syllabus
TEXT ANALYTICS
LAURA POLLACCI
Academic year2023/24
CourseDATA SCIENCE AND BUSINESS INFORMATICS
Code635AA
Credits6
PeriodSemester 1
LanguageEnglish

ModulesAreaTypeHoursTeacher(s)
TEXT ANALYTICSINF/01LEZIONI48
LAURA POLLACCI unimap
Obiettivi di apprendimento
Learning outcomes
Conoscenze

Apprendimento di tecniche, algoritmi e modelli essenziali utilizzati nell'elaborazione del linguaggio naturale. Comprensione delle architetture delle tipiche applicazioni di analisi del testo e delle librerie per la loro realizzazione. Competenza nella progettazione, implementazione e valutazione di applicazioni che sfruttano l'analisi, l'interpretazione e la trasformazione dei testi.

Knowledge

Learning essential techniques, algorithms, and models used in natural language processing. Understanding of the architectures of typical text analytics applications and of libraries for building them. Expertise in design, implementation, and evaluation of applications that exploit analysis, interpretation, and transformation of texts.

Modalità di verifica delle conoscenze

Lo studente sarà valutato in base alla sua capacità di discutere i contenuti del corso utilizzando la terminologia appropriata e di applicare le tecniche di elaborazione del linguaggio naturale.

Assessment criteria of knowledge

The student will be assessed on the demonstrated ability to discuss the course contents using the appropriate terminology and to apply natural language processing techniques.

Capacità

Lo studente sarà in grado di progettare, implementare e valutare applicazioni basate sull'analisi, l'interpretazione e la trasformazione dei testi.

Skills

The student will be able to design, implement and evaluate applications that exploit the analysis, interpretation, and transformation of texts.

Modalità di verifica delle capacità

Agli studenti frequentanti verrà chiesto di partecipare a un progetto di gruppo volto a valutare le competenze nella progettazione e nell'implementazione di un compito di analisi del testo concordato con il docente.

Agli studenti non frequentanti verrà chiesto di risolvere esercizi durante un esame scritto e una discussione orale.

Assessment criteria of skills

Attending students will be asked to participate in a group project aimed at assessing skills in the design and implementation of a text analytics task agreed upon with the teacher.

Non-attending students will be asked to solve exercises during a written exam and oral discussion.

Comportamenti

Gli studenti saranno in grado di analizzare un problema di elaborazione del testo, selezionare i metodi corretti per risolverlo e implementare una soluzione funzionante. Saranno consapevoli di diversi problemi legati all'elaborazione del linguaggio naturale, tra cui l'affidabilità dei risultati, quando le applicazioni coinvolgono dati (soggettivi) annotati dall'uomo.

Behaviors

Students will be able to analyze a text processing problem, select the correct methods to solve it, and implement a working solution. They will be aware of several issues related to the processing of text, including the reliability of the results, when applications involve human-annotated (subjective) - data.

Modalità di verifica dei comportamenti

Il comportamento degli studenti sarà valutato durante lo sviluppo del progetto e/o all'esame scritto/orale.

Assessment criteria of behaviors

The behavior of students will be assessed during project development and/or at the written/oral exam.

Prerequisiti (conoscenze iniziali)

Prerequisiti utili: 

  • Coding (python)
  • Probability theory
  • Information theory
Prerequisites

Useful prerequisites:

  • Coding (python)
  • Probability theory
  • Information theory
Indicazioni metodologiche

Modalità: lezioni frontali in lingua inglese

Attività:

  • partecipazione alle lezioni
  • partecipazione ai seminari tenuti da aziende e/o esperti della materia 
  • partecipazione alle discussioni
  • studio individuale
  • esercizi (con tool gratuiti)
  • progetto di gruppo

Frequenza: fortemente consigliata

Metodi di insegnamento:

  • Lezioni
  • Seminari tenuti da aziende e/o esperti della materia 

Saranno presentati casi di studio settoriali, possibilmente durante i seminari, con la partecipazione attiva degli studenti.

Teaching methods

Delivery: face to face classes in English

Learning activities:

  • attending lectures
  • participation in seminars by companies and/or professional experts
  • participation in discussions
  • individual study
  • exercises (with free tools)
  • group project

Attendance: strongly advised

Teaching methods:

  • Lectures
  • Company and/or expert seminars

Sector case studies will be presented, possibly during seminars, with the active participation of students.

Programma (contenuti dell'insegnamento)
  1. Background: Elaborazione del linguaggio naturale, recupero delle informazioni e apprendimento automatico.
  2. Background matematico: Probabilità, statistica e algebra
  3. Elementi linguistici essenziali: parole, lemmi, morfologia, parte del discorso (PoS), sintassi
  4. Elaborazione di base del testo: espressione regolare, tokenizzazione
  5. Raccolta dati: scraping
  6. Modellazione: collocazioni, modelli linguistici
  7. Introduzione al Machine Learning: teoria e suggerimenti pratici
  8. Librerie e strumenti: NLTK, Spacy, Keras, pytorch
  9. Classificazione/Clustering
  10. Analisi del sentimento/estrazione di opinioni
  11. Estrazione di informazioni/estrazione di relazioni/collegamento di entità
  12. Ttransfer learning
  13. Quantification
Syllabus
  1. Background: Natural Language Processing, Information Retrieval and Machine Learning
  2. Mathematical background: Probability, Statistics and Algebra
  3. Linguistic essentials: words, lemmas, morphology, Part of Speech (PoS), syntax
  4. Basic text processing: regular expression, tokenisation
  5. Data collection: scraping
  6. Basic modelling: collocations, language models
  7. Introduction to Machine Learning: theory and practical tips
  8. Libraries and tools: NLTK, Spacy, Keras, pytorch
  9. Classification/Clustering
  10. Sentiment Analysis/Opinion Mining
  11. Information Extraction/Relation Extraction/Entity Linking
  12. Transfer learning
  13. Quantification
Bibliografia e materiale didattico

E' raccomandata la lettura di capitoli selezionati tratti da:

  1. D. Jurafsky, J.H. Martin, Speech and Language Processing. 3nd edition, Prentice-Hall, 2018.
  2. S. Bird, E. Klein, E. Loper. Natural Language Processing with Python.

Bibliografia aggiuntiva sarà indicata sulla pagina web del corso.

 

Bibliography

It is recommended to read selected chapters from:

  1. D. Jurafsky, J.H. Martin, Speech and Language Processing. 3nd edition, Prentice-Hall, 2018.
  2. S. Bird, E. Klein, E. Loper. Natural Language Processing with Python.

Further bibliography will be indicated on the webpage of the course.

 

Indicazioni per non frequentanti

Gli studenti non frequentanti non possono svolgere il progetto. L'esame consisterà in una prova scritta con domande aperte ed esercizi e in una discussione orale sugli argomenti del corso.

Non-attending students info

Non-attending students cannot do the project. The exam will consist in a written exam with open question and exercises, and an oral discussion on the topics of the course.

Modalità d'esame

L'esame consiste in una parte scritta e in una parte orale. La parte scritta dura 2 ore e comprende domande aperte ed esercizi. A ogni esercizio viene assegnato un punteggio. Gli studenti sono ammessi alla parte orale se il loro punteggio totale è di almeno 18/30. La parte orale consiste in domande aperte sugli argomenti del corso e sull'uso di strumenti per l'analisi del testo.

Gli studenti frequentanti possono sostituire la parte scritta con un progetto da svolgere in gruppo durante il corso. Il risultato del progetto sarà del codice e una relazione sull'attività svolta (lunghezza tipica: 4-10 pagine). L'esame orale consisterà nella presentazione e nella discussione del progetto. Durante l'esame orale sarà valutato il contributo individuale dello studente al progetto di gruppo.

Assessment methods


The exam consists of a written part and an oral part. The written part lasts 2 hours and includes open questions and exercises. Each exercise is assigned a grade. Students are admitted to the oral part if their total score is at least 18/30. The oral part consists of open questions on the topics of the course and on the use of instruments for text analytics.

Attending students may replace the written part with a project to be done in groups throughout the course. The outcome of the project will be some code and a report of the activity (4-10 pages is the typical length range). The oral exam will consist of the presentation and discussion of the project. During the oral exam, a discussion of the project will assess the individual contribution of the student to the group project.

Updated: 05/09/2023 12:37