Vai al contenuto principale
Oggetto:
Oggetto:

INTRODUCTION TO DATA SCIENCE - STATISTICAL LEARNING AND DATA ANALYTICS

Oggetto:

INTRODUCTION TO DATA SCIENCE - STATISTICAL LEARNING AND DATA ANALYTICS

Oggetto:

Anno accademico 2023/2024

Codice attività didattica
SEM0125B
Docenti
Pierpaolo De Blasi (Titolare del corso)
Giovanni Rebaudo (Titolare del corso)
Corso di studio
ECONOMIA - percorso in Economia e Data Science
Anno
3° anno
Periodo
Secondo semestre
Tipologia
Caratterizzante
Crediti/Valenza
6
SSD attività didattica
SECS-S/01 - statistica
Erogazione
Tradizionale
Lingua
Inglese
Frequenza
Facoltativa
Tipologia esame
Scritto
Tipologia unità didattica
modulo
Insegnamento integrato
INTRODUCTION TO DATA SCIENCE - CORSO INTEGRATO (SEM0125)
Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

The course introduces the fundamental techniques of statistical learning aimed at building a model for predicting a response variable based on one or more independent variables (or covariates). Special attention will be devoted to computer-based implementations of such techniques using statistical software and interpreting the results of the analyses.

L'insegnamento introduce le tecniche fondamentali dell'apprendimento statistico finalizzate alla costruzione di un modello per la previsione di una variabile di risposta basato su una o più variabili indipendenti (o covariate). Particolare attenzione sarà dedicata alle implementazioni informatiche di tali tecniche utilizzando software statistici e interpretando i risultati delle analisi.

Oggetto:

Risultati dell'apprendimento attesi

Knowledge and understanding:
The student will learn the most common methodologies for analyzing a data set and their implementation through the software R. The student will also be able to interpret the analysis results and present them through visual and numerical summaries.

Applying knowledge and understanding:
The student will be able to discuss and apply various methods and techniques for statistical learning.

Making judgments:
The student will be able to select the appropriate statistical method for analyzing datasets with the support of the R software in supervised learning.

Communication skills:
The student will correctly use statistical language to communicate the results of their findings.

Conoscenza e comprensione:
Si apprenderanno le metodologie più comuni per l'analisi di un dataset e la loro implementazione attraverso il software R. Si sarà inoltre in grado di interpretare i risultati dell'analisi e presentarli attraverso riepiloghi sia visivi che numerici.

Applicare conoscenza e comprensione:
Si avrà la capacità di discutere ed applicare vari metodi e tecniche per l'apprendimento statistico.

Esprimere giudizi:
Si sarà in grado di selezionare il metodo statistico appropriato per l'analisi dei dataset con il supporto del software R nell'apprendimento supervisionato.

Abilità comunicative:
Si sarà in grado di utilizzare correttamente il linguaggio statistico per comunicare i risultati delle loro scoperte.

Oggetto:

Programma

Statistical learning

  • Goals
  • Accuracy vs. interpretability
  • Bias-variance trade-off

Linear regression

  • Simple linear regression
  • Multiple linear regression
  • Discussion and comparisons

Classification

  • Logistic regression
  • Linear discriminant analysis
  • Discussion and comparisons

Validation and resampling

  • Cross-validation
  • The bootstrap

Model selection and regularization

  • Subset selection
  • Shrinkage methods (ridge, lasso)
  • Dimension reduction

Non-linear models

  • Polynomial regression
  • Regression Splines
  • Generalized additive models

Apprendimento statistico

  • Obiettivi
  • Accuratezza vs. interpretabilità
  • Compromesso tra bias e varianza

Regressione lineare

  • Regressione lineare semplice
  • Regressione lineare multipla
  • Discussione e confronti

Classificazione

  • Regressione logistica
  • Analisi discriminante lineare
  • Discussione e confronti

Validazione e ricampionamento

  • Cross-validation
  • Il bootstrap

Selezione e regolarizzazione del modello

  • Selezione del sottoinsieme
  • Metodi di shrinkage (ridge, lasso)
  • Riduzione delle dimensioni

Modelli non lineari

  • Regressione polinomiale
  • Regressione spline
  • Modelli additivi generalizzati

 

 

Oggetto:

Modalità di insegnamento

The course is composed of 48 hours of class lectures. Examples and exercises will be dealt with in the R language.

Classes are delivered in presence.


L'insegnamento si compone di 48 ore di lezioni frontali. Esempi ed esercizi verranno trattati nel linguaggio R.

Le lezioni vengono erogate in presenza.

Oggetto:

Modalità di verifica dell'apprendimento

The final examination consists of a written test with open-ended questions, some about interpreting a data analysis already prepared, and some more theoretical about the topics covered in class. Specifically, 2 or 3 exercises, each one comprising a few questions, for a total of 10 up to 12 questions, equally important in determining the final grade.  It is a closed book exam, no notes are permitted. The exam is 2 hours long.
L'esame finale consiste in una prova scritta con domande a risposta aperta, alcune di carattere interpretativo di un'analisi dati già predisposta, altre più teoriche sugli argomenti trattati a lezione. Nello specifico, 2 o 3 esercizi, ciascuno composto da poche domande, per un totale di 10-12 domande, ugualmente importanti per determinare il voto finale. L'esame è a libro chiuso, non sono ammessi appunti. L'esame dura 2 ore.

Testi consigliati e bibliografia



Oggetto:
Libro
Titolo:  
An introduction to statistical learning (2nd ed)
Anno pubblicazione:  
2021
Editore:  
Springer
Autore:  
Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
ISBN  
Permalink:  
Note testo:  
Ebook disponibile su piattaforma Springer (chiedere in Biblioteca)
Obbligatorio:  
Si


Registrazione
  • Aperta
    Oggetto:
    Ultimo aggiornamento: 09/01/2024 09:33
    Non cliccare qui!