Modules | Area | Type | Hours | Teacher(s) | |
STATISTICS FOR DATA SCIENCE | SECS-S/01 | LEZIONI | 72 |
|
Lo studente che completerà con successo il corso avrà una solida conoscenza dei principali metodi e strumenti software per l'analisi statistica, con particolare riferimento ai concetti di modello statistico, di inferenza dei parametri e di intervalli di confidenza, di test di ipotesi, di inferenza Bayesiana e causale, con applicazione specifica ai problemi e contesti utili nella data science. Lo studente sarà in grado di utilizzare il linguaggio di programmazione R per condurre analisi statistiche dei dati.
The student who completes successfully the course will have a solid knowledge on the main concepts and tools of statistical analysis, including the definition of a statistical model, the inference of its parameters with confidence intervals, the use of hypothesis testing, bayesian and causal inference, with specific applications to problems and models useful in data science. Finally the student will be able to use the language R for performing statistical analyses.
Gli studenti saranno valutati sulla comprensione dei contenuti del corso, sull'uso della terminologia, sulla formalità del ragionamento, in particolare nell'applicare i metodi statistici in contesti applicativi.
The student will be assessed on his/her demonstrated ability to discuss the main course contents using the appropriate terminology, and to apply the main statistical methods in different contexts.
Gli studenti saranno in grado di applicare i concetti di analisi statistica e le metodologie più appropriate a casi di studio tipici della data science. Gli studenti saranno in grado di utilizzare il linguaggio R per analisi statistiche.
The student will be able to understand the main concept of statistical analysis and to choose and apply the appropriate tool to the case under study. The student will also be able to use the language R for performing statistical analyses.
Gli studenti frequentanti potranno svolgere un progetto in gruppo su un dataset di grandi dimensioni, rispondendo ad alcuni obiettivi di analisi. Il progetto permetterà di verificare la capacità di analisi dei problemi e di implementazione di soluzioni basate su modelli statistici.
Attending students will do a group project on the statistical analysis of a large dataset, for which a number of questions will be proposed. The project will assess skills in the choice and use of statistical models.
Gli studenti saranno in grado di valutare bias (distorsioni) dei modelli statistici, in particolare in contesti applicazioni con possibilità di ingiusta discriminazione di persone o gruppi sociali.
Students will be able to evaluate bias in statistical models, particularly in the case of models affecting socially sensitive decision making.
Il progetto in gruppi e la verifica orale discuteranno eventuali aspetti di bias e discriminazione nell'uso dei modelli statistici.
Group project and oral exams will include questions about bias in statistical models.
Conoscenza di base di analisi matematica. Una conoscenza di base di calcolo delle probabilità è utile, ma non strettamente indispensabile.
Basic knowledge of calculus. Basic knowledge of probability might be useful even if not indispensable.
Modalità di erogazione: in presenza
Attività di apprendimento:
Frequenza: fortemente consigliata, ma non obbligatoria
Metodologie di insegnamento:
Delivery: face to face
Learning activities:
Attendance: strongly advised
Teaching methods:
Il programma ricomprende le metodologie, le tecniche e gli strumenti base dell'analisi statistica. Sono ricompresi: calcolo delle probabilità, variabili aleatorie, teoremi di convergenza, modelli statistici, teoria della stima, test di ipotesi, inferenza Bayesiana, ragionamento causale. Ulteriori argomenti inclusi sono il metoodo bootstrap, l'expectation-maximization, e le applicazioni ai problemi di data science. Il programma copre anche l'uso del linguaggio di programmazione R per l'analisi statistica.
The program covers the basic methodologies, techniques and tools of statistical analysis. This includes basic knowledge of probability theory, random variables, convergence theorems, statistical models, estimation theory, hypothesis testing, bayesian inference, causal reasoning. Other topics covered include bootstrap, expectation-maximization, and applications to data science problems. Finally the program covers the use of the language R for statistical analysis.
Gli studenti non frequentanti non potranno svolgere il progetto. Tutte le altre modalità sono invariate.
Non-attending students cannot do the project. All the rest remains unchanged.
L'esame consiste di una prova scritta e di una prova orale. La prova scritta dura 2 ore ed include domande a risposta aperta ed esercizi (sia sulla teoria che sul linguaggio R). Ciascuna domanda o esercizio contribuisce con un punteggio al totale di 30 punti. Esempi di testi scritti e soluzioni sono pubblicate sulla pagina web del corso. Gli studenti che ottengono almeno 18/30 sono ammessi alla prova orale. La prova orale consiste di domande aperte sugli argomenti del corso e sull'uso del linguaggio R. Gli studenti che frequentano regolarmente le lezioni potranno sostituire la prova scritta con un progetto di gruppo da svolgere durante il semestre.
The exam consists of a written part and an oral part. The written part lasts 2 hours and it includes open questions and exercises (both theoretical and in R). Each exercise is assigned a grade. Students are admitted to the oral part if the sum of grade is at least 18/30. The oral part consists of open questions on the topics of the course. Attending students may replace the written part with a project to be done in groups throughout the course.