Gerardo TORALDO
Insegnamento di NUMERICAL METHODS FOR DATA SCIENCE
Corso di laurea magistrale in DATA SCIENCE
SSD: MAT/08
CFU: 9,00
ORE PER UNITÀ DIDATTICA: 72,00
Periodo di Erogazione: Secondo Semestre
Italiano
Lingua di insegnamento | INGLESE |
Contenuti | -Decomposizioni di matrici e applicazioni: LU, Cholesky, SVD, PCA, LDA, NMF. Applicazione a riduzione della dimensionalità. |
Testi di riferimento | ."Data Mining: An Algorithmic Approach to Clustering and Classification", by D. Calvetti and E. Somersalo (draft version) 2.Slide of the course 3.“Matrix Decomposition and Applications”, notes by Jun Lu (available online) 4.“A TUTORIAL ON PRINCIPAL COMPONENT ANALYSIS: Derivation, Discussion and Singular Value Decomposition” by Jon Shlens|Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo. Version 1 (2003) 5.“Convex Optimization”, S. Boyd and L. Vandenberghe, Cambridge University Press (https://web.stanford.edu/~boyd/cvxbook/) |
Obiettivi formativi | Conoscenza e comprensione: ci si aspetta che gli studenti acquisiscano conoscenze sui metodi numerici e gli algoritmi per l'analisi dei dati. |
Prerequisiti | Elementi di base di ottimizzazione, algebra lineare e statistica |
Metodologie didattiche | Il corso prevede lezioni frontali in aula e attività di laboratorio. La frequenza è fortemente consigliata |
Metodi di valutazione | Gli studenti vengono valutati attraverso una prova orale, volta a verificare se hanno raggiunto gli obiettivi del corso. Durante la valutazione, agli studenti viene chiesto anche di fornire un'illustrazione basata sulle attività di laboratorio attraverso l'esecuzione su un insieme di problemi di test, che evidenziano gli aspetti di implementazione e le prestazioni dei codici implementati, e l'analisi dei risultati ottenuti. |
Altre informazioni | Le attività di laboratorio sono parte integrante del corso |
Programma del corso | Concetti di Ottimizzazione Convessa: Ottimizzazione non vincolata: condizioni di ottimalità, direzioni di discesa, metodi di ricerca lineare, metodo del gradiente. Ottimizzazione vincolata: funzione lagrangiana, funzione lagrangiana duale, il problema duale, dualità debole e forte, condizioni KKT. Il duale di Wolfe per la programmazione quadratica. Decomposizione matriciale e applicazioni LU e il suo utilizzo per calcolare il rango, il determinante e l'inverso della matrice; Cholesky e il suo utilizzo per calcolare i coefficienti di regressione; QR e il suo utilizzo per approssimare gli autovalori di una matrice simmetrica; Decomposizioni di valori singolari (SVD) e il loro utilizzo per l'approssimazione a basso rango e la compressione delle immagini; Componenti principali (PC), Analisi discriminante lineare (LDA), Fattorizzazione di matrici non negative (NMF): applicazione alla riduzione della dimensionalità. Classificazione supervisionata; Dimensione di Vapnik Chervonenkis (VC); Sovradattamento e sottadattamento; Minimizzazione del rischio: minimizzazione del rischio strutturale (SRM) e minimizzazione del rischio empirico (ERM); Macchine a vettori di supporto (SVM); SVM lineare: insiemi linearmente separabili; Iperpiano ottimale; formulazione matematica; formulazione duale; Insiemi linearmente non separabili; margine morbido; modello C-SVM; formulazione duale; condizioni KKT; SVM non lineare; Funzioni discriminanti non lineari; i kernel; SVM del kernel. Regressione logistica: la trasformazione Logit; il modello logistico; stima della massima verosimiglianza. Classificazione non supervisionata: K-means; I migliori centri; Algoritmo di Lloyd: analisi della terminazione finita e della complessità; Scelta di k: i metodi del gomito e del silouette; k-medoids; Algoritmo PAM. Predizione della regressione e inferenza; Metodo dei minimi quadrati; formulazione del problema; le equazioni normali; caso polinomiale: regressione lineare; regressione e correlazione; Regolarizzazione: regressione ridge, regressione lasso. Teoria dei grafi Tipi di grafi; Grafi pesati; Sottografi; Rappresentazione: matrici di incidenza e adiacenza; Conteggio dei percorsi; Problemi del percorso più breve: formulazione primale, algoritmo di Dijkstra; Esplorazione del grafo: Ricerca in profondità, Ricerca in ampiezza, Algoritmo A*. |
English
Teaching language | English |
Contents | -Matrix Decomposition and Applications: |
Textbook and course materials | 1."Data Mining: An Algorithmic Approach to Clustering and Classification", by D. Calvetti and E. Somersalo (draft version) 2.Slide of the course 3.“Matrix Decomposition and Applications”, notes by Jun Lu (available online) 4.“A TUTORIAL ON PRINCIPAL COMPONENT ANALYSIS: Derivation, Discussion and Singular Value Decomposition” by Jon Shlens|Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo. Version 1 (2003) 5.“Convex Optimization”, S. Boyd and L. Vandenberghe, Cambridge University Press (https://web.stanford.edu/~boyd/cvxbook/) |
Course objectives | Knowledge and understanding: students are expected to acquire knowledge of |
Prerequisites | the knowledge of foundation of optimization, numerical linear algebra and statistical computing |
Teaching methods | The course consists of lectures and laboratory sessions . |
Evaluation methods | Students are evaluated through an oral assessment, aimed at verifying if they matched the objectives of the course. During the assessment, students are also asked to provide a computer-based illustration of methods and tools studied in the course, through the execution is required on a set of test problems, which highlight the implementation aspects and the performance of the implemented codes, and the analysis of the results obtained. |
Other information | The laboratory activities are an integral part of the program. |
Course Syllabus | Convex Optimization basics: Unconstrained Optimization: optimality conditions, descent directions, line search methods, gradient method. Constrained Optimization: Lagrangian function, Lagrangian dual function, the dual problem, weak and strong duality, KKT conditions. The wolfe dual for quadratic programming Matrix Decomposition and Applications LU and its application to compute rank, determinat and inverse of matrix; Cholesky and its application to compute regression coefficients; QR and its application to approximate the eigenvalues of symmetric A; Singular value decompositions (SVD) and its application to low-rank approximation and image compression; Principal components (PCs), Linear Discriminant Analysis (LDA), Nonnegative Matrix Factorization (NMF): application to dimensionality reduction. Classification Supervised Classification; Vapnik Chervonenkis (VC) dimension; Overfitting and underfitting; Risk minimization: Structural risk minimization (SRM) and Empirical risk minimization (ERM); Support Vector Machines (SVM); linear SVM: Linearly Separable Sets; Optimal hyperplane; mathematical formulation; dual formulation; Linearly Nonseparable Sets; soft margin; C-SVM model; dual formulation; KKT conditions; Nonlinear SVM; Nonlinear discriminant functions; the kernels; kernel SVM. Logistic regression: the Logit Transformation; the Logistic model; Maximum likelihood estimation. Unsupervised Classification: K-means; The best centers; Lloyd’s algorithm: analysis of finite termination and complexity; Choice of k: the elbow and the silhouette methods; k-medoids; PAM algorithm. Regression Prediction and inference; least squares method; problem formulation; the normal equations; polynomial case: linear regression; regression and correlation; Regularization: ridge regression, lasso regression. Graph Theory Graph types; Weighted Graphs; Subgraphs; Representation: incidence and adjacency matrices; Counting Paths; Shortest Path Problems: Primal formulation, Dijkstra’s algorithm; Graph exploration: Depth-first Search, Breadth-first Search, A* algorithm. |