Dipartimento di Matematica e Fisica - Docenti

Valentina DE SIMONE

Insegnamento di NUMERICAL METHODS FOR DATA SCIENCE

Corso di laurea magistrale in DATA SCIENCE

SSD: MAT/08
CFU: 9,00
ORE PER UNITÀ DIDATTICA: 72,00
Periodo di Erogazione: Secondo Semestre

Italiano

Lingua di insegnamento	INGLESE
Contenuti	-Decomposizioni di matrici e applicazioni: LU, Cholesky, SVD, PCA, LDA, NMF. Applicazione a riduzione della dimensionalità. -Classificazione: SVM, K-means. -Regressione: ridge e lasso. -Teoria dei grafi
Testi di riferimento	."Data Mining: An Algorithmic Approach to Clustering and Classification", by D. Calvetti and E. Somersalo (draft version) 2.Slide of the course 3.“Matrix Decomposition and Applications”, notes by Jun Lu (available online) 4.“A TUTORIAL ON PRINCIPAL COMPONENT ANALYSIS: Derivation, Discussion and Singular Value Decomposition” by Jon Shlens\|Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo. Version 1 (2003) 5.“Convex Optimization”, S. Boyd and L. Vandenberghe, Cambridge University Press (https://web.stanford.edu/~boyd/cvxbook/)
Obiettivi formativi	Conoscenza e comprensione: ci si aspetta che gli studenti acquisiscano conoscenze sui metodi numerici e gli algoritmi per l'analisi dei dati. Applicazione della conoscenza e comprensione: gli studenti dovrebbero essere in grado di selezionare e applicare correttamente metodi numerici e strumenti software per l'analisi dei dati.
Prerequisiti	Elementi di base di ottimizzazione, algebra lineare e statistica
Metodologie didattiche	Il corso prevede lezioni frontali in aula e attività di laboratorio. La frequenza è fortemente consigliata
Metodi di valutazione	Gli studenti vengono valutati attraverso una prova orale, volta a verificare se hanno raggiunto gli obiettivi del corso. Durante la valutazione, agli studenti viene chiesto anche di fornire un'illustrazione basata sulle attività di laboratorio attraverso l'esecuzione su un insieme di problemi di test, che evidenziano gli aspetti di implementazione e le prestazioni dei codici implementati, e l'analisi dei risultati ottenuti. A tale scopo, gli studenti possono utilizzare programmi informatici sviluppati da loro stessi o resi disponibili dall'insegnante durante il corso.I voti sono espressi in trentesimi. Il voto minimo di passaggio è 18/30. Le prestazioni eccezionali sono contrassegnate 30/30 cum laude.
Altre informazioni	Le attività di laboratorio sono parte integrante del corso
Programma del corso	Concetti di Ottimizzazione Convessa: Ottimizzazione non vincolata: condizioni di ottimalità, direzioni di discesa, metodi di ricerca lineare, metodo del gradiente. Ottimizzazione vincolata: funzione lagrangiana, funzione lagrangiana duale, il problema duale, dualità debole e forte, condizioni KKT. Il duale di Wolfe per la programmazione quadratica. Decomposizione matriciale e applicazioni LU e il suo utilizzo per calcolare il rango, il determinante e l'inverso della matrice; Cholesky e il suo utilizzo per calcolare i coefficienti di regressione; QR e il suo utilizzo per approssimare gli autovalori di una matrice simmetrica; Decomposizioni di valori singolari (SVD) e il loro utilizzo per l'approssimazione a basso rango e la compressione delle immagini; Componenti principali (PC), Analisi discriminante lineare (LDA), Fattorizzazione di matrici non negative (NMF): applicazione alla riduzione della dimensionalità. Classificazione supervisionata; Dimensione di Vapnik Chervonenkis (VC); Sovradattamento e sottadattamento; Minimizzazione del rischio: minimizzazione del rischio strutturale (SRM) e minimizzazione del rischio empirico (ERM); Macchine a vettori di supporto (SVM); SVM lineare: insiemi linearmente separabili; Iperpiano ottimale; formulazione matematica; formulazione duale; Insiemi linearmente non separabili; margine morbido; modello C-SVM; formulazione duale; condizioni KKT; SVM non lineare; Funzioni discriminanti non lineari; i kernel; SVM del kernel. Regressione logistica: la trasformazione Logit; il modello logistico; stima della massima verosimiglianza. Classificazione non supervisionata: K-means; I migliori centri; Algoritmo di Lloyd: analisi della terminazione finita e della complessità; Scelta di k: i metodi del gomito e del silouette; k-medoids; Algoritmo PAM. Predizione della regressione e inferenza; Metodo dei minimi quadrati; formulazione del problema; le equazioni normali; caso polinomiale: regressione lineare; regressione e correlazione; Regolarizzazione: regressione ridge, regressione lasso. Teoria dei grafi Tipi di grafi; Grafi pesati; Sottografi; Rappresentazione: matrici di incidenza e adiacenza; Conteggio dei percorsi; Problemi del percorso più breve: formulazione primale, algoritmo di Dijkstra; Esplorazione del grafo: Ricerca in profondità, Ricerca in ampiezza, Algoritmo A*. Attività di laboratorio: Tutte le attività possono essere eseguite utilizzando l'ambiente software MATLAB (Python o R). Utilizzando i codici distribuiti durante il corso, gli studenti devono analizzare e testare i metodi studiati per problemi di riduzione e visualizzazione dei dati, text mining, elaborazione delle immagini (compressione e segmentazione), selezione del portafoglio. Compiti: 1. Classificazione supervisionata: gli obiettivi di questo compito sono: - Selezione dell'applicazione e del dataset - Identificare a quale categoria appartiene un oggetto, utilizzando l'algoritmo SVM 2. Regressione: gli obiettivi di questo compito sono: - Selezione dell'applicazione e del dataset - Predire un attributo con valore continuo associato a un oggetto e confrontare i risultati ottenuti con la regressione lineare, ridge e lasso 3. Classificazione non supervisionata: gli obiettivi di questo compito sono: - Generare il dataset con e senza outliers - Raggruppamento automatico di oggetti simili in insiemi utilizzando K-means e K-medoids 4. Analisi dei grafi: gli obiettivi di questo compito sono: - Gestire il grafo - Creare un grafo sintetico e calcolare il percorso più breve - Esplorare il grafo

English

Teaching language	English
Contents	-Matrix Decomposition and Applications: LU, Cholesky, SVD, PCA, LDA,Nonnegative Matrix Factorization (NMF). Application to dimensionality reduction. -Classification: SVM, K-means -Regression: ridge and lasso -Grapgh theory
Textbook and course materials	1."Data Mining: An Algorithmic Approach to Clustering and Classification", by D. Calvetti and E. Somersalo (draft version) 2.Slide of the course 3.“Matrix Decomposition and Applications”, notes by Jun Lu (available online) 4.“A TUTORIAL ON PRINCIPAL COMPONENT ANALYSIS: Derivation, Discussion and Singular Value Decomposition” by Jon Shlens\|Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo. Version 1 (2003) 5.“Convex Optimization”, S. Boyd and L. Vandenberghe, Cambridge University Press (https://web.stanford.edu/~boyd/cvxbook/)
Course objectives	Knowledge and understanding: students are expected to acquire knowledge of numerical methods and algorithms for data analysis. Applying knowledge and understanding: students should be able to select and properly apply numerical methods and software tools for data analysis. Communication skills: students should be able to illustrate the methods and tools learned during the course and to communicate the results obtained with them, using a suitable technical and scientific language.
Prerequisites	the knowledge of foundation of optimization, numerical linear algebra and statistical computing
Teaching methods	The course consists of lectures and laboratory sessions . Course attendance is not mandatory, but it is strongly recommended.
Evaluation methods	Students are evaluated through an oral assessment, aimed at verifying if they matched the objectives of the course. During the assessment, students are also asked to provide a computer-based illustration of methods and tools studied in the course, through the execution is required on a set of test problems, which highlight the implementation aspects and the performance of the implemented codes, and the analysis of the results obtained. To this aim, students can use computer programs developed by themselves or made available by the teacher during the course. The use of other course material is not allowed. Marks are expressed in the thirtieths. The minimum passing mark is 18/30. Outstanding performance is marked 30/30 cum laude.
Other information	The laboratory activities are an integral part of the program.
Course Syllabus	Convex Optimization basics: Unconstrained Optimization: optimality conditions, descent directions, line search methods, gradient method. Constrained Optimization: Lagrangian function, Lagrangian dual function, the dual problem, weak and strong duality, KKT conditions. The wolfe dual for quadratic programming Matrix Decomposition and Applications LU and its application to compute rank, determinat and inverse of matrix; Cholesky and its application to compute regression coefficients; QR and its application to approximate the eigenvalues of symmetric A; Singular value decompositions (SVD) and its application to low-rank approximation and image compression; Principal components (PCs), Linear Discriminant Analysis (LDA), Nonnegative Matrix Factorization (NMF): application to dimensionality reduction. Classification Supervised Classification; Vapnik Chervonenkis (VC) dimension; Overfitting and underfitting; Risk minimization: Structural risk minimization (SRM) and Empirical risk minimization (ERM); Support Vector Machines (SVM); linear SVM: Linearly Separable Sets; Optimal hyperplane; mathematical formulation; dual formulation; Linearly Nonseparable Sets; soft margin; C-SVM model; dual formulation; KKT conditions; Nonlinear SVM; Nonlinear discriminant functions; the kernels; kernel SVM. Logistic regression: the Logit Transformation; the Logistic model; Maximum likelihood estimation. Unsupervised Classification: K-means; The best centers; Lloyd’s algorithm: analysis of finite termination and complexity; Choice of k: the elbow and the silhouette methods; k-medoids; PAM algorithm. Regression Prediction and inference; least squares method; problem formulation; the normal equations; polynomial case: linear regression; regression and correlation; Regularization: ridge regression, lasso regression. Graph Theory Graph types; Weighted Graphs; Subgraphs; Representation: incidence and adjacency matrices; Counting Paths; Shortest Path Problems: Primal formulation, Dijkstra’s algorithm; Graph exploration: Depth-first Search, Breadth-first Search, A* algorithm. Laboratory activities All activities can be performed using the MATLAB software environment (Phyton or R). Using the codes distributed during the course the student have to analyze and test the methods studied to problems of data reduction and visualization, text mining, image processing (compression and segmentation), portfolio selection. Assignments: 1.Supervised Classification: the goals of this assignment are: -Selecting the application and the dataset -Identifying to which category an object belongs to, using SVM algorithm 2.Regression: the goals of this assignment are: -Selecting the application and the dataset -Predicting a continuous-valued attribute associated with an object and comparing the results obtaining with linear, ridge and lasso regression 3.Unsupervised Classification: the goals of this assignment are: -Generating the dataset with and without outliers -Automatic grouping of similar objects into sets using K-means and K-medoids 4.Graph analysis: the goals of this assignment are: -dealing with graph -creating synthetic graph and compute shortest path -explorating the graph