ADVANCED STATISTICAL MODELLING FOR BIG DATA

Internazionalizzazione della Didattica ADVANCED STATISTICAL MODELLING FOR BIG DATA

0222700010
DIPARTIMENTO DI SCIENZE AZIENDALI - MANAGEMENT & INNOVATION SYSTEMS
CORSO DI LAUREA MAGISTRALE
DATA SCIENCE E GESTIONE DELL'INNOVAZIONE
2021/2022

ANNO CORSO 2
ANNO ORDINAMENTO 2020
PRIMO SEMESTRE
CFUOREATTIVITÀ
963LEZIONE
Obiettivi
ACQUISIRE (I) LA CONOSCENZA DELL'ANALISI DI MODELLI STATISTICI AVANZATI UTILI ALLA COMPRENSIONE DEI PROBLEMI E AL MIGLIORAMENTO DEI PROCESSI DECISIONALI; (II) CONOSCENZA DI MODELLI STATISTICI AVANZATI E STRUMENTI DI STATISTICAL LEARNING UTILI COME SUPPORTO ALLE DECISIONI RELATIVE A FENOMENI E SISTEMI IN CUI GRANDI QUANTITÀ DI DATI, VARIABILITÀ E INCERTEZZA IMPLICANO UN LIVELLO DI COMPLESSITÀ INGESTIBILE UTILIZZANDO TECNICHE TRADIZIONALI; (III) CAPACITÀ DI ANALIZZARE E INTERPRETARE DATI COMPLESSI E DI PRODURRE MODELLI PREDITTIVI E ANALITICI A SUPPORTO DELLE POLITICHE DI CONTROLLO E GESTIONE DI UN'AZIENDA, SIA NEL SETTORE PUBBLICO CHE IN QUELLO PRIVATO. TUTTI I MODELLI STATISTICI SARANNO PRESENTATI SIA COME STRUMENTI PREDITTIVI CHE ANALITICO/INTERPRETATIVI, PER ACQUISIRE UNA PROFONDA COMPRENSIONE DEI PROBLEMI IN UN PROCESSO DECISIONALE DI TIPO GENERALE. IN PARTICOLARE, GLI STUDENTI SVILUPPERANNO LA CAPACITÀ DI SPECIFICARE, STIMARE E VALIDARE UN'AMPIA CLASSE DI MODELLI STATISTICI QUANDO APPLICATI A STRUTTURE DATI COMPLESSE. UN FOCUS SPECIFICO SARÀ DATO AI MODERNI STRUMENTI DISPONIBILI PER GESTIRE E ANALIZZARE I BIG DATA E I LINGUAGGI DI PROGRAMMAZIONE STATISTICA DISPONIBILI PER SVILUPPARE E IMPLEMENTARE SOLUZIONI ANALITICHE EFFICACI. VERRANNO PRESENTATI E DISCUSSI DIVERSI CASI DI STUDIO PER CREARE LA CAPACITÀ DEGLI STUDENTI DI SFRUTTARE LE PROPRIE CONOSCENZE PER ANALIZZARE PROBLEMI E SET DI DATI REALI.
CONOSCENZE E CAPACITÀ DI COMPRENSIONE
LO STUDENTE SVILUPPERÀ CONOSCENZE:
–DELLE PRINCIPALI TECNICHE DI STIMA PER MODELLI LINEARI E DEI MODELLI LINEARI GENERALIZZATI (GLM ) PER DATA SETS DI TIPO MASSIVO (ELEVATO NUMERO DI OSSERRVAZIONI)
–DELLE PRINCIPALI TECNICHE DI STIMA PENALIZZATA (RIDGE, LASSO ED ELASTIC NET) NEL CONSTESTO DEI MODELLI LINEARI E DEI MODELLI LINEARI GENERALIZZATI (GLM) PER TRATTARE DATASET AD ALTA DIMENSIONALITÀ (ELEVATO NUMERO DI FEATURES)
–DELLE PRINCIPALI TECNICHE DI INFERENZA PER MODELLI SPARSI
–DEI PACKAGES DISPONIBILI NEL LINGUAGGIO R PER LA STIMA DI MODELLI PREDITTIVI LINEARI E GLM IN PRESENZA DI BIG DATA
CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE
SULLA BASE DELLE CONOSCENZE APPRESE, LO STUDENTE SVILUPPERÀ LA CAPACITÀ DI:
–IMPLEMENTARE MODELLI PREDITTIVI QUALE SUPPORTO ALLE DECISIONI IN AMBITI DIVERSI.
–UTILIZZARE IL LINGUAGGIO STATISTICO R PER L’IMPLEMENTAZIONE DEI MODELLI OGGETTO DEL CORSO
–ANALIZZARE E VALUTARE AUTONOMAMENTE ED IN MODO CRITICO DOCUMENTI E REPORT ELABORATI SULLA BASE DI MODELLI STATISTICI PER BIG DATA, FORMULANDO GIUDIZI CRITICI SULLE MODALITÀ DI SPECIFICAZIONE, STIMA E VALIDAZIONE DEI MODELLI INDIVIDUATI, SULLE TECNICHE DI INFERENZA E SUI MODELLI PREDITTIVI COSTRUITI, NONCHÉ SULLA VALIDITÀ, INTERNA ED ESTERNA, DELLE CONCLUSIONI RAGGIUNTE.
–PRESENTARE CON PROPRIETÀ DI LINGUAGGIO, IN MODO EFFICACE E CHIARO, I RISULTATI OTTENUTI, SIA IN FORMA ORALE CHE SCRITTA.
GLI STUDENTI SARANNO SOLLECITATI AD APPRENDERE LA STRUTTURA LOGICO-CONCETTUALE NECESSARIA PER LO SVILUPPO E L’IMPLEMENTAZIONE DI MODELLI PER BIG DATA, FORNENDO ALTRESÌ LA CAPACITÀ DI RACCORDARE LE COMPETENZE ACQUISITE CON QUELLE APPRESE NEI CORSI DI STUDIO PIÙ AFFINI.
Prerequisiti
È NECESSARIA LA CONOSCENZA DI NOZIONI DI CALCOLO MATRICIALE, DELLA PROGRAMMAZIONE DI BASE, DEL LINGUAGGIO STATISTICO R, DI PROBABILITÀ ED INFERENZA STATISTICA.
Contenuti
UN UNICO MODULO DI 60 (LM SCIENZE STATISTICHE PER LA FINANZA) E 63 ORE (LM DATA SCIENCE E GESTIONE DELL'INNOVAZIONE).
MODELLI PREDITTIVI DI TIPO LINEARE. STIME IN PRESENZA DI DATASETS DI TIPO MASSIVO. STIME DI MOLTI MODELLI SU DATASET DIFFUSI. STIMA DI MODELLI STATISTICI IN SPARK. STIMA IN PRRESENZA DI ALTA DIEMSIONALITÀ. STIME PENALIZZATE. RIDGE REGRESSIONE LASSO PER MODELLI LINEARI. MODELLI LINEARI GENERALIZZATI (GLM) . GENERALIZZAZIONE DEL LASSO. ELASTIC NET. THE GROUP LASSO. THE FUSED LASSO. METODI DI OTTIMIZZAZIONE PER STIME PENALIZZATE. INFERENZA STATISTICA: BOOTSTRAP, DEBIASED LASSO, POST-SELECTION INFERENCE. MODELLI LINEARI E GLM PER BIG DATA IN R. STIME PENALIZZATE IN R. CASI STUDIO E APPLICAZIONI A PROBLEMI NOTEVOLI
Metodi Didattici
IL CORSO PREVEDE 60 (LM SCIENZE STATISTICHE PER LA FINANZA) E 63 ORE (LM DATA SCIENCE E GESTIONE DELL'INNOVAZIONE). ORE DI DIDATTICA IN AULA. LA FREQUENZA PUR NON ESSENDO OBBLIGATORIA, DATA LA NATURA DEL CORSO, È FORTEMENTE CONSIGLIATA.
DURANTE LE LEZIONI SI AFFRONTERANNO TEMATICHE DI TIPO TEORICO AFFIANCATE COSTANTEMENTE DALLA PRESENTAZIONE DI CASI STUDIO MEDIANTE I QUALI SARANNO CHIARITE LE MODALITÀ DI IMPLEMENTAZIONE DELLE TECNICHE, I CONTESTI DI UTILIZZO DEI DIVERSI STRUMENTI E LE INTERPRETAZIONI POSSIBILI DEI RISULTATI OTTENUTI. LE ESERCITAZIONI PERTANTO COSTITUIRANNO PARTE INTEGRANTE DELLE LEZIONI PROGRAMMATE.
Verifica dell'apprendimento
LO STUDENTE VERRÀ VALUTATO DURANTE LA PROVA FINALE CHE SI TERRÀ NELLE DATE DI ESAME PREVISTE DAL DIPARTIMENTO.
DURANTE LA PROVA FINALE LO STUDENTE DOVRÀ SOSTENERE UNA PROVA SCRITTA (VALUTATA IN TRENTESIMI) E UNA PROVA ORALE CHE SI SVOLGERÀ TIPICAMENTE, NEI GIORNI IMMEDIATAMENTE SUCCESSIVI. LA DATA DELLA PROVA SCRITTA È QUELLA PREVISTA NEL CALENDARIO DI DIPARTIMENTO, IL GIORNO DELLA PROVA ORALE VIENE CONCORDATO CON GLI STUDENTI AL TERMINE DELLA PROVA SCRITTA.
LA PROVA SCRITTA (DURATA DI CIRCA 2 H) È VOLTA AD ACCERTARE LA CAPACITÀ DELLO STUDENTE DI UTILIZZARE GLI STRUMENTI SOFTWARE OGGETTO DEL CORSO, LE TECNICHE STATISTICHE SIA DI TIPO ESPLORATIVO CHE INFERENZIALE STUDIATE, PER INTERPRETARE E COMMENTARE I RISULTATI STATISTICI OTTENUTI. DURANTE LA PROVA SCRITTA, LO STUDENTE RICEVERÀ UNA TRACCIA D'ESAME E VERRÀ CHIESTO DI RISPONDERE A 5 DOMANDE (CIASCUNA CON UN PUNTEGGIO MASSIMO DI 6 PUNTI) SULL'INTERO PROGRAMMA DEL CORSO. LA PROVA ORALE (DELLA DURATA DI CIRCA 30 MINUTI) CONSISTE IN UN COLLOQUIO CON DOMANDE E DISCUSSIONE DELLA PROVA SCRITTA. IL VOTO FINALE (MIN 18, MAX 30 CON EVENTUALI LODE) VIENE ATTRIBUITO VALUTANDO I RISULTATI DELLE PROVE SCRITTE E ORALI IN CUI LA PADRONANZA DEI CONTENUTI DEL CORSO, L'ADEGUATEZZA DELLE DEFINIZIONI E DEI RIFERIMENTI TEORICI, LA CHIAREZZA DELL'ARGOMENTO, L'AMBITO DELLE COMPETENZE SPECIALISTICHE LINGUAGGIO.
L'ESAME NON PREVEDE PROVE INTERCORSO.
Testi
LECTURE NOTES, RISORSE WEB E ARTICOLI SUGGERITI DAL DOCENTE DURANTE IL CORSO SARANNO RESI DISPONIBILI A TUTTI GLI STUDENTI FREQUENTANTI
–GENERALIZED LINEAR MODELS FOR INSURANCE DATA, PIET DE JONG GILLIAN HELLER, CAMBRIDGE UNIVERSITY PRESS
–STATISTICAL LEARNING WITH SPARSITY, TREVOR HASTIE, ROBERT TIBSHIRRANI, MARTIN WAINWRIGHT, CRC PRESS
Altre Informazioni
IL DOCENTE FORNISCE ULTERIORI SPIEGAZIONI E SUPPORTO METODOLOGICO AGLI STUDENTI DURANTE LE ORE DI RICEVIMENTO.
GIORNI, ORARI E LUOGO DEL RICEVIMENTO, NONCHÉ LE EVENTUALI VARIAZIONI, SONO COMUNICATE SULLA PAGINA WEB DEL DOCENTE.
E’ POSSIBILE CONCORDARE UN APPUNTAMENTO AL DI FUORI DEGLI ORARI PREVISTI PER IL RICEVIMENTO INVIANDO UNA MAIL ALL’INDIRIZZO MAIL DEL DOCENTE.
  BETA VERSION Fonte dati ESSE3
  • Didattica