mail unicampaniaunicampania webcerca

    Raffaele MATTERA

    Insegnamento di STATISTICAL LEARNING

    Corso di laurea in DATA ANALYTICS

    SSD: SECS-S/01

    CFU: 4,00

    ORE PER UNITÀ DIDATTICA: 32,00

    Periodo di Erogazione: Primo Semestre

    Italiano

    Lingua insegnamento

    Inglese

    Contenuti

    - Introduzione all'apprendimento statistico

    - Regressione lineare

    - Metodi di classificazione

    -Metodi di Ricampionamento

    - Metodi di Regolarizzazione

    - Modelli ad albero

    - Introduzione all'apprendimento statistico per dati autocorrelati

    Testi di riferimento

    James, G., Witten, D., Hastie, T., & Tibshirani, R. "An Introduction to Statistical Learning". Springer.

    Oppure:

    James, G., Witten, D., Hastie, T., & Tibshirani, R. "Introduzione all'apprendimento statistico". PICCIN.

    Obiettivi formativi

    Questo corso fornisce un'introduzione all'apprendimento statistico, con particolare attenzione ai modelli predittivi e metodi di apprendimento supervisionato. Gli studenti apprenderanno concetti fondamentali come la regressione, la classificazione, la regolarizzazione e la valutazione dei modelli, oltre all'implementazione pratica con l'uso di software statistici. Sebbene l'attenzione principale sia rivolta all'apprendimento da dati cross-sezionali, il corso introduce anche alcuni concetti per l'apprendimento di dati con correlazione seriale.

    Prerequisiti

    Conoscenze di base di probabilità, statistica e algebra lineare. La familiarità con R è fortemente consigliata ma non obbligatoria.

    Metodi didattici

    Lezioni frontali teoriche ed esercitazioni mediante software statistici.

    Modalità di verifica dell'apprendimento

    L'esame finale consisterà in un esame orale che comprenderà sia domande teoriche che esercizi pratici con software statistici.

    Altre informazioni

    Per qualsiasi altra informazione o domanda relativa al corso, si prega di contattare il docente via e-mail e/o tramite MS Teams.

    Programma esteso

    1) Introduzione all’apprendimento statistico. Cos’è l’apprendimento statistico; perché stimare una funzione; come si stima una funzione; compromesso tra accuratezza predittiva e interpretabilità del modello; apprendimento supervisionato e non supervisionato; problemi di regressione e di classificazione; valutazione dell’accuratezza di un modello; misure della qualità dell’adattamento; compromesso bias-varianza; valutazione dell’accuratezza nei problemi di classificazione.

    2) Regressione lineare. Regressione lineare semplice; stima dei coefficienti; valutazione dell’accuratezza delle stime dei coefficienti; valutazione dell’accuratezza del modello; regressione lineare multipla; stima dei coefficienti di regressione; questioni interpretative nel modello di regressione; predittori qualitativi; estensioni del modello lineare; problemi potenziali del modello di regressione; confronto tra regressione lineare e k-nearest neighbors.

    3) Metodi di classificazione.
    Introduzione ai problemi di classificazione; limiti della regressione lineare per la classificazione; regressione logistica; modello logistico; stima dei coefficienti; predizione; regressione logistica multipla; classificazione con più di due classi; analisi discriminante lineare; classificazione tramite il teorema di Bayes; analisi discriminante quadratica; confronto tra metodi di classificazione.

    4) Metodi di ricampionamento
    Cross-validation; metodo del validation set; leave-one-out cross-validation; k-fold cross-validation; compromesso bias-varianza nella cross-validation; cross-validation per problemi di classificazione; bootstrap.

    5) Metodi di regolarizzazione e selezione del modello.
    Selezione di sottoinsiemi di variabili; best subset selection; selezione stepwise; criteri per la scelta del modello ottimale; metodi di shrinkage; ridge regression; lasso; selezione del parametro di regolarizzazione.

    6) Modelli ad albero.
    Alberi di regressione; alberi di classificazione; confronto tra alberi e modelli lineari; vantaggi e svantaggi dei modelli ad albero.

    7) Introduzione all’apprendimento statistico per dati autocorrelati. Dipendenza temporale nei dati; dipendenza spaziale dei dati; limiti dei metodi standard in presenza di autocorrelazione; considerazioni sull’uso di modelli statistici per dati dipendenti.

    English

    Teaching language

    English

    Contents

    • Introduction to Statistical Learning

    • Linear regression

    • Classification

    • Resampling

    • Regularization

    • Tree models

    • Elements of Learning Serially Correlated Data

    Textbook and course materials

    James, G., Witten, D., Hastie, T., & Tibshirani, R. "An Introduction to Statistical Learning". Springer.

    Course objectives

    This course provides an introduction to Statistical Learning, with a focus on predictive modelling and supervised learning methods. Students will learn core concepts such as regression, classification, regularization, and model evaluation, as well as practical implementation using statistical software. While the primary focus is on learning from cross-sectional data, the course also introduces some concepts for serially correlated data learning.

    Prerequisites

    Basic knowledge of probability, statistics, and linear algebra. Familiarity with R is strongly recommended but not required.

    Teaching methods

    Theoretical lectures and exercises using statistical software.

    Assessment methods

    The final exam will consist of an oral examination involving both theoretical questions and practical exercises with statistical software.

    Other information

    For any further information or questions regarding the course, please contact the lecturer by email and/or via MS Teams.

    Detailed syllabus

    1) Introduction to Statistical Learning.
    What is statistical learning; why estimate a function; how a function is estimated; the trade-off between prediction accuracy and model interpretability; supervised and unsupervised learning; regression and classification problems; assessing model accuracy; measures of goodness of fit; the bias–variance trade-off; assessing accuracy in classification problems.

    2) Linear Regression.
    Simple linear regression; estimation of the coefficients; assessing the accuracy of the coefficient estimates; assessing the accuracy of the model; multiple linear regression; estimation of regression coefficients; interpretative issues in the regression model; qualitative predictors; extensions of the linear model; potential problems in the regression model; comparison between linear regression and k-nearest neighbors.

    3) Classification Methods.
    Introduction to classification problems; limitations of linear regression for classification; logistic regression; the logistic model; estimation of the coefficients; prediction; multiple logistic regression; classification with more than two classes; linear discriminant analysis; classification using Bayes’ theorem; quadratic discriminant analysis; comparison of classification methods.

    4) Resampling Methods.
    Cross-validation; the validation set approach; leave-one-out cross-validation; k-fold cross-validation; the bias–variance trade-off in cross-validation; cross-validation for classification problems; the bootstrap.

    5) Regularization and Model Selection Methods.
    Subset selection methods; best subset selection; stepwise selection; criteria for choosing the optimal model; shrinkage methods; ridge regression; lasso; selection of the regularization parameter.

    6) Tree-Based Methods.
    Regression trees; classification trees; comparison between tree-based methods and linear models; advantages and disadvantages of tree-based models.

    7) Introduction to Statistical Learning for Autocorrelated Data.
    Temporal dependence in data; spatial dependence in data; limitations of standard methods in the presence of autocorrelation; considerations on the use of statistical models for dependent data.

    facebook logoinstagram buttonyoutube logotype