mail unicampaniaunicampania webcerca

    Rosanna VERDE

    Insegnamento di DATA MINING AND BIG DATA

    Corso di laurea magistrale in PHYSICS

    SSD: SECS-S/01

    CFU: 6,00

    ORE PER UNITÀ DIDATTICA: 48,00

    Periodo di Erogazione: Annualità Singola

    Italiano

    Lingua di insegnamento

    English

    Contenuti

    L’obiettivo è far acquisire competenze delle seguenti tecniche di analisi e trattamento dei dati anche con applicazioni pratiche e l’utilizzo di software per il Data Mining:

    Introduzione: Il Data Mining versus Knowledge Discovery in Data Bases
    Analisi esplorativa dei dati
    Analisi in Componenti Principali
    Analisi delle Corrispondenze
    Analisi delle Corrispondenze Multiple
    Classificazione
    Regole di Associazione
    Analisi dei gruppi:
    Metodi partitivi: K-medie
    Metodi gerarchici
    Validazione delle partizioni
    Individuazione e trattamento di dati anomali e imputazione di dati mancanti
    Esempi con il software R

    Testi di riferimento

    Introduction to Data Mining
    By: Pang-Ning Tan; Michael Steinbach;
    Anuj Karpatne; Vipin Kumar
    Publisher: Pearson
    Print ISBN: 9780133128901, 0133128903
    eText ISBN: 9780134080284, 0134080289
    Edition: 2nd
    https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4


    Obiettivi formativi

    Conoscenza e capacità di comprensione (knowledge and understanding).
    Il corso mira a far conoscere e saper comprendere gli aspetti metodologici del Data Mining e dell’Analisi dei Dati

    Conoscenza e capacità di comprensione applicate (applied knowledge and understanding).
    Il corso ha come obiettivo la comprensione delle principali tecniche Data Mining e degli aspetti applicativi da sviluppare anche attraverso esercitazioni, attività di laboratorio e l’utilizzo di software specialistico.

    Autonomia di giudizio (making judgements).
    Il corso intende far acquisire allo studente capacità di:
    - formulare una propria valutazione e giudizio sulla base delle informazioni apprese nel corso e dai confronti in aula con il docente e con gli altri studenti;
    - individuare e raccogliere informazioni aggiuntive per la conoscenza della materia attraverso anche consultazione di altri testi e materiale didattico aggiuntivo;
    - di acquisire la capacità del saper fare, del saper prendere iniziative e decisioni tenendo conto dei vari aspetti di interesse della materia specialmente nei suoi aspetti applicativi di analisi e estrazione di conoscenza dai dati, nella risoluzione di problemi pratici a partire dai dati e dalle informazioni estratte da banche dati e nell’utilizzo delle metodologie e delle tecniche di Data Mining con il software specialistico.

    Abilità comunicative (communication skills).

    Il corso è rivolto a far acquisire allo studente capacità di comunicazione degli argomenti appresi e dei risultati delle esercitazioni pratiche.

    Capacità di apprendere (learning skills).

    Il corso mira a far acquisire allo studente:
    - capacità di apprendimento che sono necessarie ai fini di un continuo aggiornamento e approfondimento delle tecniche di Data Mining per l’analisi dei dati;
    - capacità di attingere a diverse fonti bibliografiche in inglese, al fine di acquisire nuove competenze nella materia.

    Prerequisiti

    Conoscenze di analisi matematica e algebra lineare, di statistica descrittiva e inferenziale.

    Metodologie didattiche

    Lezioni frontali con l’utilizzo di slides e materiale didattico fornito dal docente;
    Esercitazioni;
    È richiesto lo studio personale con l’approfondimento della materia sui testi consigliati.

    Metodi di valutazione

    Tesina scritta sugli aspetti metodologici delle tecniche di Data Mining apprese durante il corso e una presentazione, commentata dei risultati delle elaborazioni di dati estratti da un data base pubblico;
    verifica finale attraverso una prova orale.

    Altre informazioni



    Programma del corso

    1. Introduction to DM
    Basic concepts and relation with KDD
    Exploratory Data

    2. Multivariate Factorial Methods
    Principal Component Analysis
    Correspondence Analysis
    Multiple Correspondence Analysis

    3. Classification:
    Basic Concepts
    Rule-based Classifier
    Nearest Neighbor Classifiers
    Naïve Bayes Classifier
    Ensemble Methods

    4. Association Analysis
    Association Rule Mining
    Rule generation
    Support and Confidence measures
    Statistical independence
    Extension to A.A. to continuous and categorical attributes
    Multi-level Association Rules
    Sequential Pattern Discovery
    Subgraph Mining

    5. Cluster Analysis:
    Partitioning Clustering: K-means
    Hierarchical Clustering
    Prototype-based
    –Fuzzy c-means
    –Mixture Model Clustering
    –Self-Organizing Maps
    Density-based
    –Grid-based clustering
    –Subspace clustering
    Graph-based

    Cluster Validation
    External and internal indices

    6. Anomaly Detection
    Noise and Anomalies
    Anomaly Scoring
    Model-Based Anomaly Detection
    Anomaly Detection Techniques
    •Proximity-based
    •Density-based
    •Pattern matching
    •Clustering-Based Approaches

    7. R Code Examples


    English

    Teaching language

    English

    Contents

    The goal is to furnish skills in the following data analysis and techniques also with practical applications using software:

    Introduction: Il Data Mining versus Knowledge Discovery in Data Bases
    Exploratory Data Analysis
    Principal Component Analysis
    Correspondence Analysis
    Multiple Correspondence Analysis
    Classification
    Association Rule Mining
    Cluster Analysis:
    Partitioning Clustering: K-means
    Hierarchical Clustering
    Cluster Validation
    Anomaly Detection – Missing data imputation
    Examples with R

    Textbook and course materials



    Course objectives

    Knowledge and understanding.
    The course aims at introducing and understanding the main methodological concepts related to Data Mining
    Applied knowledge and understanding.
    The course aims at the knowledge and understanding of the applicative aspects of Data Mining techniques also through exercises, laboratory activities and using specialist software.

    Making judgements
    The course aims at giving to the student ability at:
    - formulating an own evaluation and judgment based on learned notions and from a comparison, in classroom, with the teacher and with the other students;
    - identifying and collecting additional information for the subject knowledge through additional books and teaching materials;
    - doing and taking decisions, considering various aspects of the matter, especially applicative ones;
    - performing knowledge extraction from databases by using methodologies and techniques of Data Mining also using DM software (R and Python).

    Communication skills.
    The course aims to provide the student with communication skills on learnt data analysis methods and on results of practical exercises.

    Learning skills.
    The course aims to provide the student with:
    - learning skills necessary for understanding and using of Data Mining techniques for data processing;
    - ability to draw on different bibliographical sources in order to acquire new skills in this field.

    Prerequisites

    Knowledge of analysis, linear algebra, descriptive and inferential statistics.

    Teaching methods

    Personal study is required on the recommended didactic books;
    Slides and material of the course will be provided;
    Laboratory training.

    Evaluation methods

    Report on the methodological aspects and results of data process, according to the techniques of Data Mining dealt with in the course
    and
    Final examination by oral test

    Other information



    Course Syllabus

    1. Introduction to DM
    Basic concepts and relation with KDD
    Exploratory Data

    2. Multivariate Factorial Methods
    Principal Component Analysis
    Correspondence Analysis
    Multiple Correspondence Analysis

    3. Classification:
    Basic Concepts
    Rule-based Classifier
    Nearest Neighbor Classifiers
    Naïve Bayes Classifier
    Ensemble Methods

    4. Association Analysis
    Association Rule Mining
    Rule generation
    Support and Confidence measures
    Statistical independence
    Extension to A.A. to continuous and categorical attributes
    Multi-level Association Rules
    Sequential Pattern Discovery
    Subgraph Mining

    5. Cluster Analysis:
    Partitioning Clustering: K-means
    Hierarchical Clustering
    Prototype-based
    –Fuzzy c-means
    –Mixture Model Clustering
    –Self-Organizing Maps
    Density-based
    –Grid-based clustering
    –Subspace clustering
    Graph-based

    Cluster Validation
    External and internal indices

    6. Anomaly Detection
    Noise and Anomalies
    Anomaly Scoring
    Model-Based Anomaly Detection
    Anomaly Detection Techniques
    •Proximity-based
    •Density-based
    •Pattern matching
    •Clustering-Based Approaches

    7. R Code Examples


    facebook logoinstagram buttonyoutube logotype