- Oggetto:
- Oggetto:
INTRODUCTION TO DATA SCIENCE - STATISTICAL LEARNING AND DATA ANALYTICS
- Oggetto:
INTRODUCTION TO DATA SCIENCE - STATISTICAL LEARNING AND DATA ANALYTICS
- Oggetto:
Anno accademico 2023/2024
- Codice attività didattica
- SEM0125B
- Docenti
- Pierpaolo De Blasi (Titolare del corso)
Giovanni Rebaudo (Titolare del corso) - Corso di studio
- ECONOMIA - percorso in Economia e Data Science
- Anno
- 3° anno
- Periodo
- Secondo semestre
- Tipologia
- Caratterizzante
- Crediti/Valenza
- 6
- SSD attività didattica
- SECS-S/01 - statistica
- Erogazione
- Tradizionale
- Lingua
- Inglese
- Frequenza
- Facoltativa
- Tipologia esame
- Scritto
- Tipologia unità didattica
- modulo
- Insegnamento integrato
- INTRODUCTION TO DATA SCIENCE - CORSO INTEGRATO (SEM0125)
- Oggetto:
Sommario insegnamento
- Oggetto:
Obiettivi formativi
The course introduces the fundamental techniques of statistical learning aimed at building a model for predicting a response variable based on one or more independent variables (or covariates). Special attention will be devoted to computer-based implementations of such techniques using statistical software and interpreting the results of the analyses.L'insegnamento introduce le tecniche fondamentali dell'apprendimento statistico finalizzate alla costruzione di un modello per la previsione di una variabile di risposta basato su una o più variabili indipendenti (o covariate). Particolare attenzione sarà dedicata alle implementazioni informatiche di tali tecniche utilizzando software statistici e interpretando i risultati delle analisi.- Oggetto:
Risultati dell'apprendimento attesi
Knowledge and understanding:
The student will learn the most common methodologies for analyzing a data set and their implementation through the software R. The student will also be able to interpret the analysis results and present them through visual and numerical summaries.Applying knowledge and understanding:
The student will be able to discuss various methods and techniques for statistical learning.Making judgments:
The student will be able to select the appropriate statistical method for analyzing datasets with the support of the R software in supervised learning.Communication skills:
The student will correctly use statistical language to communicate the results of their findings.Conoscenza e comprensione:
Si apprenderanno le metodologie più comuni per l'analisi di un dataset e la loro implementazione attraverso il software R. Si sarà inoltre in grado di interpretare i risultati dell'analisi e presentarli attraverso riepiloghi sia visivi che numerici.Applicare conoscenza e comprensione:
Si avrà la capacità di discutere vari metodi e tecniche per l'apprendimento statistico.Esprimere giudizi:
Si sarà in grado di selezionare il metodo statistico appropriato per l'analisi dei dataset con il supporto del software R nell'apprendimento supervisionato.Abilità comunicative:
Si sarà in grado di utilizzare correttamente il linguaggio statistico per comunicare i risultati delle loro scoperte.- Oggetto:
Programma
Statistical learning
- Goals
- Accuracy vs. interpretability
- Bias-variance trade-off
Linear regression
- Simple linear regression
- Multiple linear regression
- Discussion and comparisons
Classification
- Logistic regression
- Linear discriminant analysis
- Discussion and comparisons
Validation and resampling
- Cross-validation
- The bootstrap
Model selection and regularization
- Subset selection
- Shrinkage methods (ridge, lasso)
- Dimension reduction
Non-linear models
- Polynomial regression
- Regression Splines
- Generalized additive models
Apprendimento statistico
- Obiettivi
- Accuratezza vs. interpretabilità
- Compromesso tra bias e varianza
Regressione lineare
- Regressione lineare semplice
- Regressione lineare multipla
- Discussione e confronti
Classificazione
- Regressione logistica
- Analisi discriminante lineare
- Discussione e confronti
Validazione e ricampionamento
- Cross-validation
- Il bootstrap
Selezione e regolarizzazione del modello
- Selezione del sottoinsieme
- Metodi di shrinkage (ridge, lasso)
- Riduzione delle dimensioni
Modelli non lineari
- Regressione polinomiale
- Regressione spline
- Modelli additivi generalizzati
- Oggetto:
Modalità di insegnamento
The course is composed of 48 hours of class lectures. Examples and exercises will be dealt with in the R language.
Classes are delivered in presence.
L'insegnamento si compone di 48 ore di lezioni frontali. Esempi ed esercizi verranno trattati nel linguaggio R.
Le lezioni vengono erogate in presenza.
- Oggetto:
Modalità di verifica dell'apprendimento
The final examination consists of a written test with open-ended questions, some about interpreting a data analysis already prepared, and some more theoretical about the topics covered in class. Specifically, 2 or 3 exercises, each one comprising a few questions, for a total of 10 up to 12 questions, equally important in determining the final grade. It is a closed book exam, no notes are permitted. The exam is 2 hours long.L'esame finale consiste in una prova scritta con domande a risposta aperta, alcune di carattere interpretativo di un'analisi dati già predisposta, altre più teoriche sugli argomenti trattati a lezione. Nello specifico, 2 o 3 esercizi, ciascuno composto da poche domande, per un totale di 10-12 domande, ugualmente importanti per determinare il voto finale. L'esame è a libro chiuso, non sono ammessi appunti. L'esame dura 2 ore.Testi consigliati e bibliografia
- Oggetto:
- Libro
- Titolo:
- An introduction to statistical learning (2nd ed)
- Anno pubblicazione:
- 2021
- Editore:
- Springer
- Autore:
- Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
- ISBN
- Permalink:
- Note testo:
- Ebook disponibile su piattaforma Springer (chiedere in Biblioteca)
- Obbligatorio:
- Si
- Registrazione
- Aperta
- Oggetto: