Università di Pisa - Valutazione della didattica e iscrizione agli esami

Scheda programma d'esame

Distributed Data Analysis and Mining

ROBERTO TRASARTI

Academic year2020/21
CourseDATA SCIENCE AND BUSINESS INFORMATICS
Code687AA
Credits6
PeriodSemester 1
LanguageEnglish

Modules

Area

Type

Hours

Teacher(s)

DISTRIBUTED DATA ANALYSIS AND MINING

INF/01

LEZIONI

ROBERTO TRASARTI unimap

Esporta in pdf

Prerequisiti (conoscenze iniziali)

Data Mining I e II
Programmazione Python di base

Prerequisites

Data Mining I e II
Basic of Python programming language

Programma (contenuti dell'insegnamento)

Il Data Mining sui Big data è oggi un’area di ricerca molto attiva. L'applicazione delle attuali metodologie analitiche e strumenti software su un singolo personal computer non può gestire in modo efficiente dataset di grandi dimensioni. Le piattaforme di calcolo distribuito sono una soluzione scalabile per il big data mining, attraverso la scomposizione del problema in operazioni più piccole che possono essere eseguite parallelamente su singoli processori / macchine. Il corso propone l’insegnamento di concetti base del paradigma di calcolo distribuito tramite MapReduce dal punto di vista teorico e pratico, in particolare ci si focalizzerà su Hadoop per lo sviluppo di competenze nell'uso di strumenti di calcolo ad alte prestazioni per il data engineering, l’analisi di dati e l’utilizzo di tecniche di data mining. Gli studenti impareranno come i classici algoritmi di data mining possono essere applicati sui Big Data usando Hadoop (Spark). Set di dati reali (e open source) verranno utilizzati per presentare esempi e per consentire agli studenti di costruire i propri progetti. Una metà delle lezioni consisterà in esercitazioni (laboratorio) e una metà delle lezioni sarà teorica.

Orario:
Lun 14:15 16:00 (On-line)
Mer 14:15 16:00 (On-line)

Prima Lezione 16/09/2020
Link Classroom: https://classroom.google.com/c/MTU5OTY5NjU1NDQy?cjc=4u5rt77

Syllabus

Mining with big data or big data mining has become an active research area. Running current analytical methodologies and software tools on a single personal computer cannot efficiently deal with very large datasets. Distributed computing platforms are a scalable solution for big data mining, obtained by dividing a large problem into smaller ones that are concurrently solved by many single processor/machine. This course aims at teaching the basic theoretical concepts behind the MapReduce distributed computing paradigm, and Hadoop in particular, and at building expertise in the practical usage of high performance computing tools for data engineering, analysis and mining. In particular the students will learn how the classical data mining algorithms can be applied on Big Data using Hadoop (Spark). Real (and open source) datasets will be used to present examples and to let the students build their own projects. Half of the lessons will consists of practice (Lab), and half of lectures.

Lessons:
Mon 14:15 16:00 (On-line)
Wed 14:15 16:00 (On-line)

First Lecture 16/09/2020
Link Classroom: https://classroom.google.com/c/MTU5OTY5NjU1NDQy?cjc=4u5rt77

Modalità d'esame

Students groups made of 2 o 3 students (max) develop a project (report + short slide presentation);

Assessment methods

Students groups made of 2 o 3 students (max) develop a project (report + short slide presentation);
Every student perform individual test (multiple choices).
Final grade will result from a combination of project mark (70% of the final grade) and individual test mark (30%).

Pagina web del corso

http://didawiki.di.unipi.it/doku.php/mds/ddam/start

Class web page

http://didawiki.di.unipi.it/doku.php/mds/ddam/start

Note

Prima Lezione 16/09/2020

Notes

First Lecture 16/09/2020

Updated: 03/11/2020 18:00