mail unicampaniaunicampania webcerca

    Elvira ROMANO

    Insegnamento di ANALISI DEI DATI MULTIDIMENSIONALI

    Corso di laurea magistrale in MATEMATICA

    SSD: SECS-S/01

    CFU: 8,00

    ORE PER UNITÀ DIDATTICA: 72,00

    Periodo di Erogazione: Secondo Semestre

    Italiano

    Lingua di insegnamento

    ITALIANO

    Contenuti

    Programma sintetico
    1. Richiami di Statistica descrittiva
    2. Analisi multidimensionale dei dati: Analisi in Componenti Principali; Analisi delle Corrispondenze semplici, Cenni di Analisi delle corrispondenze multiple ;Classificazione automatica
    3. Analisi statistica dei dati con R

    Testi di riferimento

    1. Carlo Lauro, Gherghi Marco. Analisi Multidimensionale dei Dati. RCE Edizioni
    2. Sergio Bolasco. Analisi multidimensionale dei dati. Carocci Editore.

    Obiettivi formativi

    Il corso è finalizzato a fornire le basi metodologiche ed applicative per la comprensione dei concetti comunemente utilizzati nell'Analisi dei dati, cioè di quei metodi il cui obiettivo consiste nel produrre delle dimensioni (fattori) attraverso le quali semplificare, sintetizzare e rappresentare un fenomeno oggetto di studio. Le tecniche presentate nell'ambito del corso saranno pertanto trattate da un punto di vista applicativo attraverso il meta-linguaggio di programmazione cran-R. L’obiettivo consisterà nel fornire agli studenti gli strumenti necessari per sviluppare la capacità di applicare i concetti appresi attraverso lo svolgimento di analisi (in laboratorio informatico) da condursi su banche dati che permettono di coprire un’ampia gamma di problemi nel contesto economico e finanziario. Al termine dell’insegnamento lo studente dovrà dimostrare di essere in grado di: selezionare in maniera critica il metodo di analisi maggiormente rispondente alle esigenze del fenomeno oggetto di studio;di interpretare e presentare i risultati ottenuti

    Prerequisiti

    L’approccio al programma formativo richiede conoscenze di Statistica di base ed Algebra lineare, pertanto sono propedeutici a tale corso l’esame di Probabilità e Statistica e l’esame di Algebra lineare.

    Metodologie didattiche

    Il corso è articolato 72 ore di lezioni frontali (di cui 15 per richiami sulle nozioni di base di Statistica descrittiva, 33 per Analisi dei dati) e 24 ore di esercitazione, il tutto svolto in laboratorio di calcolo.
    La frequenza non è obbligatoria, ma fortemente suggerita.

    Metodi di valutazione

    Per la verifica dell'apprendimento è prevista una prova orale con discussione di un elaborato scritto relativo ad un caso studio risolto utilizzando il software R.

    Programma del corso

    Richiami di statistica descrittiva: concetti di base.
    Analisi congiunta di due variabili: la dipendenza e la correlazione .Introduzione all'analisi congiunta di più variabili
    Metodi di analisi multidimensionale dei dati: obiettivi e tecniche e strutture di dati. Sintesi dell'informazione- proiezione ortogonale; ricerca del sottospazio di proiezione ottimale;- formalizzazione e soluzione del problema;- autovalori e autovettori;- capacità informativa della sintesi.
    Analisi in componenti principali- Definizione del metodo;- trasformazione della matrici di partenza;- formalizzazione del metodo nello spazio delle variabili;- scelta del numero di dimensioni- contributi agli assi e qualità della rappresentazione;- formalizzazione del metodo nello spazio degli individui;- rappresentazione congiunta unità/variabili.
    Analisi delle corrispondenze- Definizione e matrice dei dati di partenza;- misure di connessione;- trasformazioni su tabella a doppia entrata: profili riga e colonna;- interpretazione geometrica;- Formalizzazione del problema;- Esempi di applicazione.
    Analisi corrispondenze multiple - codifica dell'informazione;- collegamento con il caso bivariato;
    Classificazione automatica- misure di dissimilarità e distanze;- metriche ed ultrametriche;- classificazione gerarchica;- criteri di aggregazione;- procedura agglomerativa;- qualità della soluzione;- classificazione non gerarchica;- procedure (centri mobili, nubi dinamiche, K-medie);- Approcci ibridi: analisi fattoriale e classificazione automatica;- Approcci ibridi: combinazione di metodi gerarchici e non gerarchici.

    Analisi statistica dei dati con R. Introduzione all’ambiente R: nozioni di sintassi ;Vettori, Matrici, Array e Liste in ROrganizzazione ed elaborazione dei dati in R; Il dataframe: importazione dei dati; Introduzione all’analisi dei dati in R: analisi in componenti principali, analisi delle corrispondenze e cluster analysis; l’ambiente grafico in R.

    English

    Teaching language

    Italian

    Contents

    Program
    1. Descriptive Statistics: main notions
    2. Multidimensional Data Analysis: Principal Component Analysis; Correspondence Analysis; Clustering
    3. Data analysis with R

    Textbook and course materials

    1. Carlo Lauro, Gherghi Marco. Analisi Multidimensionale dei Dati. RCE Edizioni
    2. Sergio Bolasco. Analisi multidimensionale dei dati. Carocci Editore.

    Course objectives

    The aim of the course is to provide students with basic knowledge of Multidimensional data Analysis.The theory and applications of Multidimensional Data Analysis methods are covered. The statistical software R and interesting program libraries are introduced. Students must be able to: analyze data by selecting one of the methods above; describe and interpret the results from the analyses mentioned above using R.

    Prerequisites

    The course requires knowledge of Statistics and Linear Algebra

    Teaching methods

    This course counts 72 hours of lectures. This includes 15 hours of lectures related to descriptive statistics review, 33 hours of lectures on Multidimensional Data Analysis and finally 24 hours of lab exercises with R.

    Evaluation methods

    The exam will consist of a discussion on a work project. The work project will consist in a real data analysis using the techniques covered in class.

    Course Syllabus

    Descriptive Statistics: a short review.

    Bivariate statistics. Introduction to the multidimensional analysis (MDA).
    Methods of MDA: objectives, techniques and data structures.
    Ortogonal Projection; Research of Optimal Subspace; Generalized eigenanalysis. Principal component Analysis: Method definition; matrix transformation;Principal Component Analysis: Characterization through SVD and eigenanalysis; formalization of the method in the space of variables; - choice of the number of dimensions; - contributions to the axes and quality of the representation; - formalization of the method in the space of individuals ; - joint representation of units / variables .
    Correspondence analysis: - Definition of the method ; - Associations indices; - Matrices and transformations. Row and column profiles - Geometric interpretation - Formalization of the problem - Application examples.
    Multiple correspondence analysis: generalization of the Correspondence analysis to the multidimensional case;
    Automatic classification: -dissimilarity measures and distances; - metrics and ultrametrics; - hierarchical classification; - aggregation criteria; - agglomerative procedure; - quality of the solution; - non-hierarchical classification methods (mobile centers, dynamic clouds, K-averages); - Hybrid approaches: factor analysis and automatic classification - Hybrid approaches: combination of hierarchical and non-hierarchical methods.

    Data Analysis with R. Introduction to the R environment: notions of syntax, Vectors, Matrices, Arrays and Lists; The dataframe: data import; Introduction to data analysis in R: PCA, CA and Clustering; the graphic environment in R.

    facebook logoinstagram buttonyoutube logotype