Scheda programma d'esame
STATISTICS FOR DATA SCIENCE
SALVATORE RUGGIERI
Academic year2023/24
CourseDATA SCIENCE AND BUSINESS INFORMATICS
Code628PP
Credits9
PeriodSemester 2
LanguageEnglish

ModulesAreaTypeHoursTeacher(s)
STATISTICS FOR DATA SCIENCESECS-S/01LEZIONI72
SALVATORE RUGGIERI unimap
Obiettivi di apprendimento
Learning outcomes
Conoscenze

Lo studente che completerà con successo il corso avrà una solida conoscenza dei principali metodi e strumenti software per l'analisi statistica, con particolare riferimento ai concetti di modello statistico, di inferenza dei parametri e di intervalli di confidenza, di test di ipotesi, di inferenza Bayesiana e causale, con applicazione specifica ai problemi e contesti utili nella data science. Lo studente sarà in grado di utilizzare il linguaggio di programmazione R per condurre analisi statistiche dei dati.

Knowledge

The student who completes successfully the course will have a solid knowledge on the main concepts and tools of statistical analysis, including the definition of a statistical model, the inference of its parameters with confidence intervals, the use of hypothesis testing, bayesian and causal inference, with specific applications to problems and models useful in data science. Finally the student will be able to use the language R for performing statistical analyses.

Modalità di verifica delle conoscenze

Gli studenti saranno valutati sulla comprensione dei contenuti del corso, sull'uso della terminologia, sulla formalità del ragionamento, in particolare nell'applicare i metodi statistici in contesti applicativi.

Assessment criteria of knowledge

Students will be assessed on his/her demonstrated ability to discuss the main course contents using the appropriate terminology, and to apply the main statistical methods in different contexts.

Capacità

Gli studenti saranno in grado di applicare i concetti di analisi statistica e le metodologie più appropriate a casi di studio tipici della data science. Gli studenti saranno in grado di utilizzare il linguaggio R per analisi statistiche.

 

Skills

Students will be able to understand the main concept of statistical analysis and to choose and apply the appropriate tool to the case under study. The student will also be able to use the language R for performing statistical analyses.

 

Modalità di verifica delle capacità

Gli studenti frequentanti potranno svolgere un progetto in gruppo di natura analitica (su un dataset di grandi dimensioni) o di ricerca (comprensione e riproduzione di risultati scientifici), rispondendo ad alcuni obiettivi di analisi. Il progetto permetterà di verificare la capacità di analisi dei problemi e di (re-)implementazione di soluzioni basate su modelli statistici.

 

Assessment criteria of skills

Attending students will do a group project focusing on the statistical analysis of a large dataset or on the reproducibility of scientific results, for which a number of questions will be proposed. The project will assess skills in the choice and use of statistical models and (re-)implementation of statistical approaches.

 

Comportamenti

Gli studenti saranno in grado di valutare bias (distorsioni) dei modelli statistici, in particolare in contesti applicazioni con possibilità di ingiusta discriminazione di persone o gruppi sociali.

Behaviors

Students will be able to evaluate bias in statistical models, particularly in the case of models affecting socially sensitive decision making that may produce discrimination of social groups.

Modalità di verifica dei comportamenti

Il progetto in gruppi e la verifica orale discuteranno eventuali aspetti di bias e discriminazione nell'uso dei modelli statistici.

Assessment criteria of behaviors

Group project and oral exams will include questions about bias and social discrimination in statistical models.

Prerequisiti (conoscenze iniziali)

Conoscenza di base di analisi matematica e ottimizzazione. Una conoscenza di base di calcolo delle probabilità è utile, ma non strettamente indispensabile.

Prerequisites

Basic knowledge of calculus and optimization. Basic knowledge of probability might be useful even if not indispensable.

 

Indicazioni metodologiche

Modalità di erogazione: in presenza

Attività di apprendimento:

  • lezioni frontali e esercitazioni in classe
  • partecipazione alle discussioni
  • studio individuale
  • progetto di gruppo

Frequenza: fortemente consigliata, ma non obbligatoria

Metodologie di insegnamento:

  • lezioni frontali
  • esercitazioni nel linguaggio R
Teaching methods

Delivery: face to face

Learning activities:

  • attending lectures
  • participation in discussions
  • individual study
  • group project

Attendance: strongly advised but not mandatory

Teaching methods:

  • Lectures
  • Lab sessions in R
Programma (contenuti dell'insegnamento)

Il programma ricomprende le metodologie, le tecniche e gli strumenti base dell'analisi statistica. Sono ricompresi: calcolo delle probabilità, variabili aleatorie, teoremi di convergenza, modelli statistici, teoria della stima, test di ipotesi, inferenza Bayesiana, ragionamento causale. Ulteriori argomenti inclusi sono il metodo bootstrap, l'expectation-maximization, e le applicazioni ai problemi di data science. Il programma copre anche l'uso del linguaggio di programmazione R per l'analisi statistica.

 

 

Syllabus

The program covers the basic methodologies, techniques and tools of statistical analysis. This includes basic knowledge of probability theory, random variables, convergence theorems, statistical models, estimation theory, hypothesis testing, bayesian inference, causal reasoning. Other topics covered include bootstrap, expectation-maximization, and applications to data science problems. Finally the program covers the use of the language R for statistical analysis.

 

Bibliografia e materiale didattico
  • F.M. Dekking C. Kraaikamp, H.P. Lopuha, L.E. Meester. A Modern Introduction to Probability and Statistics. Springer, 2005.
  • P. Dalgaard. Introductory Statistics with R. 2nd edition, Springer, 2008.
  • Capitoli o articoli scientifici selezionati dal docente.
Bibliography
  • F.M. Dekking C. Kraaikamp, H.P. Lopuha, L.E. Meester. A Modern Introduction to Probability and Statistics. Springer, 2005.
  • P. Dalgaard. Introductory Statistics with R. 2nd edition, Springer, 2008.
  • Other selected book chapters

 

Indicazioni per non frequentanti

Gli studenti non frequentanti non potranno svolgere il progetto. Tutte le altre modalità sono invariate.

Non-attending students info

Non-attending students cannot do the project. All the rest remains unchanged.

 

Modalità d'esame

L'esame consiste di una prova scritta e di una prova orale. La prova scritta dura 2 ore ed include domande a risposta aperta ed esercizi (sia sulla teoria che sul linguaggio R). Ciascuna domanda o esercizio contribuisce con un punteggio al totale di 30 punti. Esempi di testi scritti e soluzioni sono pubblicate sulla pagina web del corso. Gli studenti che ottengono almeno 18/30 sono ammessi alla prova orale. La prova orale consiste di domande aperte sugli argomenti del corso e sull'uso del linguaggio R. Gli studenti che frequentano regolarmente le lezioni potranno sostituire la prova scritta con un progetto di gruppo da svolgere durante il semestre.

 

Assessment methods

The exam consists of a written part and an oral part. The written part lasts 2 hours and it includes open questions and exercises (both theoretical and in R). Each exercise is assigned a grade. Students are admitted to the oral part if the sum of grade is at least 18/30. The oral part consists of open questions on the topics of the course. Attending students may replace the written part with a project to be done in groups throughout the course.

Updated: 26/07/2023 10:10