mail unicampaniaunicampania webcerca

    Valentina DE SIMONE

    Insegnamento di NUMERICAL METHODS FOR DATA SCIENCE

    Corso di laurea magistrale in DATA SCIENCE

    SSD: MAT/08

    CFU: 9,00

    ORE PER UNITÀ DIDATTICA: 72,00

    Periodo di Erogazione: Secondo Semestre

    Italiano

    Lingua di insegnamento

    Inglese

    Contenuti

    Il corso affronta i metodi numerici necessari per affrontare diverse classi di problemi nella moderna analisi dei dati e nell'apprendimento automatico come:
    Classificazione (classificatore PCA, LDA, LVQ,SVM)
    analisi dei dati mediante grafi
    analisi di regressione

    Applicazione dei metodi a problemi di estrazione del testo, estrazione di immagini e page ranking.

    Testi di riferimento

    1."Data Mining: An Algorithmic Approach to Clustering and Classification", by D. Calvetti and E. Somersalo (draft version)

    2. Appunti del corso

    Obiettivi formativi

    Conoscenze: gli studenti devono acquisire una solida conoscenza di metodologie e conoscenze su metodi numerici e algoritmi per l'analisi dei dati.

    Applicazioni delle conoscenze e competenze: gli studenti dovrebbero essere in grado di selezionare e applicare correttamente i metodi numerici e gli strumenti software per l'analisi dei dati.

    Abilità comunicative: gli studenti dovrebbero essere in grado di illustrare i metodi e gli strumenti appresi durante il corso e di comunicare i risultati ottenuti, utilizzando un linguaggio tecnico e scientifico adeguato.

    Prerequisiti

    L'insegnamento non prevede propedeuticità, ma presuppone la conoscenza degli argomenti generalmente trattati in un corso di laurea triennale, tra i quali gli argomenti di base di ottimizzazione, algebra lineare e statistica.

    Metodologie didattiche

    Il corso prevede lezioni frontali (48 ore – 6 CFU) e sessioni di laboratorio (36 ore – 3 CFU) La frequenza ai corsi non è obbligatoria, ma è fortemente consigliata.

    Metodi di valutazione

    Gli studenti vengono valutati attraverso una prova orale, volta a verificare il raggiungimento degli obiettivi del corso. Durante l'esame gli studenti devono presentare lo sviluppo di codici che implementino i metodi studiati.

    Per ciascuno degli algoritmi implementati, è necessaria l'esecuzione su una serie di problemi test, che evidenzino gli aspetti implementativi, le prestazioni dei codici implementati e l'analisi dei risultati ottenuti.

    A tale scopo, gli studenti possono utilizzare i programmi sviluppati da loro stessi o resi disponibili dal docente durante il corso.
    L'uso di altro materiale didattico non è consentito.

    I voti sono espressi in trentesimi. Il punteggio minimo richiesto è 18/30. Il voto massimo è 30/30 e Lode

    Altre informazioni

    Le attività di laboratorio sono parte integrante del programma.

    Programma del corso

    Argomenti trattati:
    Algoritmi di Classificazione:
    Concetti di base, classificatori, misure di similarità, I principali classificatori (PCA; LDA; LVQ; SVM)
    Analisi dei dati mediante grafi:
    Algoritmi di esplorazione mediante grafi; modelli random; modelli di Poisson
    Regressione:
    Regolarizzazione; norma l1; regolarizzazione di tipo Lasso
    Applicazione dei metodi a problemi di estrazione del testo, di immagini e pake ranking
    Attività di Laboratorio:Tutte le attività di laboratorio saranno sviluppate usando l’ambiente MATLAB
    Il programma dettagliato degli argomenti e delle attività di laboratorio sarà disponibile a fine corso

    English

    Teaching language

    English

    Contents

    The course covers numerical methods required for dealing with several classes of problems in modern data analysis and machine learning such as:
    - Classification ( PCA, LDA, LVQ, SVM classifiers)
    - Graph data analysis
    - Regression Analysis (Lasso, Model parameter identification)
    Application to text mining, image mining, and page ranking


    Textbook and course materials

    "Data Mining: An Algorithmic Approach to Clustering and Classification", by D. Calvetti and E. Somersalo (draft version)

    Lecture notes

    Course objectives

    Knowledge and understanding: students are expected to acquire knowledge of numerical methods and algorithms for data analysis.
    Applying knowledge and understanding: students should be able to select and properly apply numerical methods and software tools for data analysis.

    Communication skills: students should be able to illustrate the methods and tools learned during the course and to communicate the results obtained with them, using a suitable technical and scientific language.

    Prerequisites

    the knowledge of foundation of optimization, numerical linear algebra and statistical computing

    Teaching methods

    The course consists of lectures (48 hours, 6 CFU - ECTS credits) and laboratory sessions (36 hours, 3 CFU - ECTS credits).
    Course attendance is not mandatory, but it is strongly recommended.

    Evaluation methods

    Students are evaluated through an oral assessment, aimed at verifying if they matched the objectives of the course. During the assessment, students are also asked to provide a computer-based illustration of methods and tools studied in the course, through the execution is required on a set of test problems, which highlight the implementation aspects and the performance of the implemented codes, and the analysis of the results obtained.
    To this aim, students can use computer programs developed by themselves or made available by the teacher during the course.
    The use of other course material is not allowed.
    Marks are expressed in the thirtieths. The minimum passing mark is 18/30. Outstanding performance is marked 30/30 cum laude.

    Other information

    The laboratory activities are an integral part of the program.

    Course Syllabus

    Classification Algorithms:
    Basic concepts; Distance classifier; Alternative dissimilarity measures; k-nearest neighbor classifier; Principal Component Analysis (PCA) classifier; Linear Discriminant Analysis (LDA) classifier; Learning Vector Quantifier (LVQ); Support Vector Machine (SVM).
    Graph data analysis:
    Basic algorithms for graph exploration; Random graph models; Poisson random graphs; Generating functions; Poisson random graphs.
    Regression analysis:
    Regularization; l1 norm; lasso problem.
    Application of the previous methods to text mining, image mining, and page ranking.
    Laboratory activities: All the activities will be performed using the MATLAB software environment.
    The detailed program will be available at the end of the course

    facebook logoinstagram buttonyoutube logotype