View syllabus
INFORMATION RETRIEVAL
PAOLO FERRAGINA
Academic year2021/22
CourseCOMPUTER SCIENCE
Code289AA
Credits6
PeriodSemester 1
LanguageEnglish

ModulesAreaTypeHoursTeacher(s)
INFORMATION RETRIEVALINF/01LEZIONI48
PAOLO FERRAGINA unimap
GIOVANNI MANZINI unimap
Obiettivi di apprendimento
Learning outcomes
Conoscenze

Lo studente che completerà con successo il percorso didattico avrà l'abilità e le conoscenze per progettare un semplice motore di ricerca e/o uno strumento di IR, utile nelle applicazioni moderne per il Web o i Big Data.

Knowledge

The student who successfully completes the course will have the ability and knowledge to design a simple search engine and/or one of the numerous IR tools which are at the core of modern Web or Big Data applications.

Modalità di verifica delle conoscenze

Gli studenti verranno valutati in base alle loro abilità e conoscenze acquisite sui contenuti del corso, attraverso una prova scritto/orale, accompagnata da eventuali prove intermedie.

Ulteriori informazioni possono essere trovare nella home page del corso.

Assessment criteria of knowledge

The student will be assessed on his/her demonstrated ability to discuss the main course contents using the appropriate terminology.

Methods:

  • Final oral exam
  • Final written exam, with possible midterm exams

Further information can be found at the home page of the course.

Capacità

Gli studenti alla fine del percorso didattico saranno in grado di progettare e valutare motori di ricerca e IR tool, adottando soluzioni algoritmiche allo stato dell'arte.

Skills

Students will be able to design and evaluate IR tools and search engines, by deploying the most adavanced algorithmic solutions to date.

Modalità di verifica delle capacità

Esame scritto e orale, con la possibilità di svolgere prove intermedie

Assessment criteria of skills

Written and oral exam, possibly with intermediate exams.

Comportamenti

Gli studenti saranno esposti durante il corso al contesto dell'IR su Big Data testuali e non, le loro sfide, le scelte algoritmiche, e apprezzeranno l'impatto che le soluzioni efficienti in tempo e spazio viste in classe hanno sull'analisi, la ricerca e il mining di Big Data nelle applicazioni practiche.

Behaviors

Students will be exposed to the context of IR tools and search engines, their challenges and algorithmic design choices. They'll appreciate the impacts in time and space of various known solutions, and be able to make their own choices and evaluate their pro/cons.

Modalità di verifica dei comportamenti

Esame scritto e orale, con la possibilità di svolgere prove intermedie

Assessment criteria of behaviors

Written and oral exam, possibly with intermediate exams.

Prerequisiti (conoscenze iniziali)

Esami sul progetto di algoritmi, e conoscenze di programmazione e Math.

Prerequisites

Basics of Algorithms, Maths, Programming.

Indicazioni metodologiche

Lezioni di didattica frontale. L'apprendimento si realizzerà seguendo le lezioni in classe o attraverso video-lectures (a seconda delle condizioni COVID), e attraverso lo studio individuale.

Teaching methods

Delivery: face to face, and possible video-lecture (depending on COVID conditions)

Learning activities:

  • attending lectures or, possibly, video-lectures
  • individual study

Attendance: Advised

 

Programma (contenuti dell'insegnamento)

Studio, progetto e analisi di sistemi di Information Retrieval che risultano efficienti ed efficaci nel processare, analizzare, memorizzare, ricercare, classificare e raggruppare documenti testuali e non. Le lezioni descriveranno

- le principali componenti di un motore di ricerca moderno: Crawler, Parser, Compressor, Indexer, Query resolver, Query and Document annotator, Results Ranker;

- le tecniche algoritmiche che sono alla base del progetto di applicazioni di IR per la compressione, l'indicizzazione e lo sketching di documenti;

- alcuni IR tool che sono utilizzati come componenti di motori di ricerca sofisticati oppure come tool indipendenti in applicazioni per processano Big Data, quali: Classification, Clustering, Recommendation, Random Sampling, Locality Sensitive Hashing.

Syllabus

Study, design and analysis of IR systems which are efficient and effective to process, mine, search, cluster and classify documents, coming from textual as well as any unstructured domain. In the lectures, we will:

  • study and analyze the main components of a modern search engine: Crawler, Parser, Compressor, Indexer, Query resolver, Query and Document annotator, Results Ranker;
  • dig into some basic algorithmic techniques which are now ubiquitous in any IR application for data compression, indexing and sketching;
  • describe few other IR tools which are used either as a component of a search engine or as independent tools and build up the previous algorithmic techniques, such as: Classification, Clustering, Recommendation, Random Sampling, Locality Sensitive Hashing.

 

Bibliografia e materiale didattico

C.D. Manning, P. Raghavan, H. Schutze. Introduction to Information Retrieval. Cambridge University Press, 2008

Chapter 2 “Text compression” of Managing Gigabytes, I.H. Witten and A. Moffat and T.C. Bell, Morgan Kauffman, Second edition, 1999.

Alcune note in Inglese scritte dal docente

Bibliography

C.D. Manning, P. Raghavan, H. Schutze. Introduction to Information Retrieval. Cambridge University Press, 2008

Chapter 2 “Text compression” of Managing Gigabytes, I.H. Witten and A. Moffat and T.C. Bell, Morgan Kauffman, Second edition, 1999.

Notes provided by the teacher 

Indicazioni per non frequentanti

Come per i frequentanti

Non-attending students info

Same as attending students

Modalità d'esame

Esame scritto e orale, con la possibilità di svolgere prove intermedie

Assessment methods

Via written and oral exam, possibly with intermediate exams.

Updated: 14/08/2021 16:55