Modules | Area | Type | Hours | Teacher(s) | |
STATISTICA II | MAT/06 | LEZIONI | 60 |
|
Al termine del corso lo studente avrà acquisito conoscenze di metodi della statistica multivariata, metodi di classificazione e clustering, analisi di serie storiche, sia da un punto di vista teorico che attraverso l'implementazione con un software statistico.
Students are expected to acquire knowledge of methods of multivariate statistics, classification and clustering, time series analysis, from a theoretical point of view and through the implementation via a statistical software.
Lo studente sarà valutato riguardo la sua abilità di risolvere problemi e discutere concetti e applicazioni di statistica nell'ottica dell'intrepretazione di analisi statistica sui dati.
The student will be assessed on his/her demonstrated ability to solve problems and discuss concepts and applications of Statistics in view of the onterpretazione of statistical analysis on data.
Al termine del corso
At the end of the course,
Analisi e implementazione di modelli statistici saranno il soggetto delle prove d'esame (scritto e orale).
Lo studente potrà preparare un progetto didattico che prevede l'analisi statistica e l'implementazione di un problema a partire da dati reali.
Analysis of a statistical model and its implementation through a statistical software will be the subject of the final exam.
The student will be offered the possibility to prepare an individual projoect of statistical analysis that consists in the analysis and implementation of an industrial problem from real data.
il corso permetterà di gestire l'analisi quantitativa di problemi industriali mediante metodi statistici.
After the course, the student will be able to manage the quantitative analysis of industrial problems through statistical methods.
Durante le sessioni di esame, saranno verificate le fasi di analisi statistica di un problema industriale, dal riconoscimento del modello più efficace alla sua implementazione e previsione.
During the exams, the student will be assessed over his/her attitude from the formulation of a statistical model to its implementation and prediction.
Ci si aspetta che lo studente conosca i concetti e le idee di base della statistica, quali quelle contenute nel corso di Statistica I.
The student is required to know and master basic concepts and ideas of statistics and operational research, as those provided in the basic course of Statistics I.
Il corso prevede lezioni frontali per la parte teorica. La parte implementativa è svolta usando i PC personali degli studenti. Il materiale della parte implementativa è reso disponibile sulla pagina del corso. Il corso prevede la possibilità di svolgere un progetto didattico di analisi statistica.
The course is delivered face-to-face. The practical part is developed using the students' PCs. Notes of the omplementation are available on the course web page. There is the possibility to prepare an individual project of statistical analysis.
Regressione lineare. Richiami su covarianza e coefficiente di correlazione. Regressione lineare semplice: introduzione del modello, calcolo dei coefficienti nel modello teorico, calcolo dei coefficienti nel caso campionario. Interpretazione del coefficiente di correlazione nel modello di regressione, varianza spiegata.
Matrici di covarianza e correlazione per vettori aleatori. Simmetria e positività, teorema spettrale per la diagonalizzazione. Richiami di algebra lineare: basi ortonormali, matrici ortogonali, cambio di base. Matrici di covarianza e correlazione di una serie di dati empirici, loro simmetria e positività. Regressione lineare multipla: introduzione del modello, discussione sulla dipendenza causale, scarto quadratico medio. Discussione e descrizione del modello di regressione lineare multipla. Descrizione in termini di un modello teorico di natura probabilistica e calcolo dei coefficienti del modello di regressione nell'ambito del modello teorico. Calcolo dei coefficienti del modello di regressione a partire dai dati empirici: minimizzazione dello scarto quadratico medio. Generica unicità della soluzione trovata. Discussione dei problemi di interpretazione del modello di regressione: overfitting, variabilità statistica dei parametri ottimali, interpretazione e significato dei coefficienti, problemi derivati da differenze di scala, problemi derivati dall'allineamento di fattori, ruolo della varianza spiegata, andamento della varianza spiegata rispetto al numero di fattori e varianza spiegata corretta, p-value sui coefficienti. Discussione sull'opportunità e le modalità di riduzione del modello.
Analisi delle componenti principali. Vettori Gaussiani: vettori gaussiani standard, definizione generale, vettore delle medie, matrice di covarianza, esistenza di un vettore Gaussiano assegnati il vettore delle medie e la matrice di covarianza. Densità di vettori gaussiani non-degeneri, indipendenza e scorrelazione, vettori Gaussiani degeneri. Rappresentazione grafica e interpretazione della covarianza attraverso le curve di livello. Studio delle curve di livello di un vettore Gaussiano.
Analisi delle componenti principali: introduzione al metodo, interpretazione per mezzo di vettori Gaussiani, asse e piano principali. Proiezioni sull'asse come classificazione. Varianza lungo le componenti principali. Interpretazione della varianza delle componenti principali, proporzione di varianza spiegata, valutazione dell'efficacia dell'analisi. Matrice dei loadings.
Classificazione e clustering. Illustrazione per grandi linee dei problemi di classificazione e clustering, differenza tra i due concetti. Regressione lineare multipla applicata alla classificazione. Ponte con la regressione logistica: calcolo di una "probabilità" (tramite la funzione logistica) di classificazione. Classificazione mediante regressione logistica. Cenni a modelli lineari generalizzati e al problema di classificare con più classi. Interpretazione geometrica della classificazione: cenno grafico e concettuale.
Serie storiche. Introduzione alle serie storiche, caratteristiche essenziali della struttura di una serie storica. Funzione di autocorrelazione empirica, interpretazione delle caratteristiche strutturali (trend, stagionalità) in termini della autocorrelazione. Decomposizione di una serie storica: decomposizione additiva o moltiplicativa, medie locali e detrendizzazione, individuazione della componente stagionale, analisi dei residui. Previsione per una serie storica attraverso la decomposizione.
Metodo di smorzamento esponenziale: introduzione alla strategia del metodo, derivazione della formula per ricorrenza, ruolo del parametro, inizializzazione del metodo. Metodo di smorzamento esponenziale con trend: introduzione alla strategia del metodo, derivazione della formula per ricorrenza per intercetta e pendenza, calcolo della previsione, ruolo del parametro, inizializzazione del metodo. Metodo di Holt-Winters: smorzamento esponenziale con trend e stagionalità: introduzione alla strategia del metodo, derivazione della formula per ricorrenza per intercetta, pendenza e stagionalità, calcolo della previsione, ruolo del parametro, inizializzazione del metodo.
Regressione lineare multipla per serie storiche. Discussione delle idee di base. Implementazione elementare del modello, previsione. Funzione di cross-correlazione, fattori esogeni. Approfondimento sul ruolo dei residui: determinare parametri ottimali di un modello, confronto tra modelli, stima dell'incertezza nelle previsioni, analisi per la misura della bontà di un modello.
Parte Implementativa mediante il software R. Introduzione al software R: creazione e manipolazione di vettori, operazioni sui vettori, generazione di sequenze, creazione e manipolazione di matrici, ricerca di autovalori e autovettori, importazione di dati. Introduzione alla rappresentazione grafica dei dati empirici attraverso il software R. Diagrammi di dispersione di matrici di dati, primi comandi statistici relativi a indicatori di centralità e dispersione, e principali distribuzioni (densità, funzione cumulativa, quantili e generazione di numeri casuali). Istogrammi, confronto tra modelli teorici e dati empirici. Covarianza e correlazione.
Implementazione attraverso R di modelli di regressione, calcolo del modello, rappresentazione della retta sovrapposta al diagramma di dispersione, standardizzazione di una tabella, modelli di regressione differenziati per sottogruppi, bande empiriche di confidenza. Confronto con un campione casuale e interpretazione del risultato.
Regressione per lo studio di un indice azionario, confronto con il modello di regressione logaritmica dell'indice, studio dell'andamento della varianza spiegata al variare dei dati. Esempio di regressione polinomiale.
Esempio di regressione multipla, riduzione dei fattori e regressione ai fini della previsione per i dati nella Scheda 4 del libro di testo. Previsione attraverso la regressione multipla per l'esempio su indici azionari, autovalutazione del modello tramite il confronto tra dati noti e previsioni. Analisi di un modello con fattori fortemente allineati, sua riduzione. Esempio di regressione non-lineare.
Vettori Gaussiani nel piano: rappresentazione di vettori casuali con varianze uguali e differenti, trasformazioni (rotazioni). Vettori Gaussiani nello spazio: rappresentazione di vettori casuali con varianze uguali e differenti. Covarianza, diagonalizzazione della covarianza, calcolo di autovalori e autovettori, calcolo della radice quadrata di una matrice simmetrica e semidefinita positiva, generazione di una covarianza casuale.
Analisi delle componenti principali: esempio artificioso con 5 fattori ma di dimensione 2. Analisi delle componenti principali sull'esempio relativo a indicatori economici/sanitari. Analisi delle componenti principali sull'esempio relativo alla produzione agricola, standardizzazione della tabella, confronto delle analisi tra le tabelle standardizzate e non, classificazione attraverso l'asse principale, esplorazione dei piani principali e commenti sulla risoluzione di clustering apparenti. Analisi delle componenti principali dell'esempio relativo alle caratteristiche degli iris, confronto dei piani principali, risoluzione dei cluster.
Rappresentazione grafica di serie storiche. Analisi elementare di serie artificiose (a scopo didattico), funzione di autocorrelazione, decomposizione di serie additive e moltiplicative, funzione di autocorrelazione di campioni aleatori. Analisi delle serie storiche tratte dalle schede 11 e 12 del libro di testo: funzione di autocorrelazione, decomposizione, analisi dei residui, andamento annuale medio e sua incertezza. Decomposizione con stagionalità non uniforme. Analisi delle serie storiche generate dalla decomposizione, analisi dei residui.
Smorzamento esponenziale di serie create ad-hoc e della serie tratta dalla scheda 11 del libro di testo. Scelta ottimale del parametro e della condizione iniziale. Previsione. Smorzamento esponenziale con trend di serie create ad-hoc e della serie tratta dalla scheda 11 del libro di testo. Scelta ottimale dei parametri e della condizione e pendenza iniziale. Previsione. Previsione mediante lo smorzamento esponenziale e lo smorzamento esponenziale con trend attraverso il trend proveniente dalla decomposizione della serie storica. Serie stagionali con lo smorzamento esponenziale e lo smorzamento esponenziale con trend. Metodo di Holt-Winters per la serie tratta dalla scheda 12 del libro di testo. Previsione con il metodo di Holt-Winters. Confronto tra previsioni. Auto-validazione del modello. Analisi dei residui. Valutazione dell'incertezza nelle previsioni.
Metodi regressivi per serie storiche. Funzione di autoregressione parziale. Riduzione del modello di autoregressione. Previsione attraverso il modello di autoregressione e confronto con la previsione di Holt-Winters. Auto-validazione del modello autoregressivo. Autoregressione con il metodo Yule-Walker per la serie tratta dalla scheda 12 del libro di testo: previsione, sua incertezza e analisi dei residui. Autoregressione con il metodo dei minimi quadrati per la serie tratta dalla scheda 11 del libro di testo: previsione, sua incertezza e analisi dei residui.
Linear regression.
Covariance and correlation. Linear regression model, computation of the coefficients, explained variance. Covariance and correlation matrices and their properties. Multivariate linear regression model, computation of the coefficients, mean quadratic error. Overifitting, statistical distribution of coefficients, p-value, model reduction.
Principal components analysis.
Gaussian vectors, mean vector and covariance matrix, existence of a Gaussian vector given mean and covariance, density, graphical representation. Principal components analysis method, principal axis and principal plane, variance of principal components, loadings,
Classification and clustering.
introduction. multivariate linear regression for classification. Logistic regression. Generalized linear models. Geometric interpretation of classification.
Time series.
Introduction. Auto-correlation function, trend and seasonal components. Additive and multiplicative decomposition of a time series, moving averages, residuals, forecasting. Exponential smoothing and Holt-Winters methods for analysis and forecasting. Multivariate linear regression for time series.
Implementation in R.
Introduction to R. Simple operations and grahical representations. Linear and nonlinear regression. Multivariate linear regression, model reduction, forecasting, nonlinear models. Gaussian vectors. Principal components analysis. Time series, graphical representation, auto-correlation function, decomposition, analysis of residuals. Exponential smoothing and Holt-Winters, analysis and forecasting, self-validation. Auto-regressive methods for time series.
Note disponibili sulla pagina web del corso
Notes available from the course web page.
La modalità d'esame attraverso la realizzazione di un progetto personale di analisi dei dati è riservata agli studenti frequentanti.
Only the students that fully attends the course can perform their exam through a project of data analysis.
L'esame prevede una prova scritta e una prova orale. La prova scritta è finalizzata alla verifica della capacità di formulazione dei modelli statistici e loro implementazione, ed ha durata di due ore. La prova orale è finalizzata alla verifica della conoscenza dei concetti di base del corso, e prevede due o più domande. In alternativa alla prova scritta lo studente frequentante può svolgere un progetto autonomo in cui si cimenta in una analisi statistica basata su dati reali.
A written and a oral exams are required. The written exam assesses the ability of the student to formulate statistical models together with their implementation, and lasts two hours. The oral exam verifies the knowledge of the main ideas and concepts of the course, and requires to answer to two or more questions. Alternatively to the written exam, the student that fully attends the course can prepare a project on statistical analysis of real data.