INFORMATION SYSTEMS FOR BIG DATA

Internazionalizzazione della Didattica INFORMATION SYSTEMS FOR BIG DATA

0222700009
DIPARTIMENTO DI SCIENZE AZIENDALI - MANAGEMENT & INNOVATION SYSTEMS
CORSO DI LAUREA MAGISTRALE
DATA SCIENCE E GESTIONE DELL'INNOVAZIONE
2021/2022

OBBLIGATORIO
ANNO CORSO 2
ANNO ORDINAMENTO 2020
PRIMO SEMESTRE
CFUOREATTIVITÀ
321LEZIONE
321LABORATORIO
Obiettivi
CONOSCENZA E CAPACITÀ DI COMPRENSIONE:
IL CORSO HA L’OBIETTIVO DI INTRODURRE I CONCETTI E LE TECNOLOGIE MAGGIORMENTE UTILIZZATE PER LA DEFINIZIONE DI ARCHITETTURE BIGDATA-ENABLED. LA CONOSCENZA E LA CAPACITÀ DI COMPRENSIONE SI SVILUPPERANNO PRINCIPALMENTE MEDIANTE LO STUDIO DI ALCUNI FRAMEWORK TECNOLOGICI FONDAMENTALI, FINALIZZATI A: ELABORAZIONE E ANALISI DISTRIBUITA IN MODALITÀ BATCH PIUTTOSTO CHE STREAM (HADOOP, SPARK, ETC.), MEMORIZZAZIONE DI DATI NON STRUTTURATI O SEMI-STRUTTURATI ATTRAVERSO NOSQL-DB (SOLR, MONGODB, NEO4J, ETC.), SERIALIZZAZIONE E SCAMBIO DEI DATI (JSON, ETC.). INFINE, SARANNO FORNITI CENNI INTRODUTTIVI ALLA VISUALIZZAZIONE DI ANALITICHE ESEGUITE ATTRAVERSO APPLICAZIONI WEB, INCLUDENDO D3.JS E GLI STACK TECNOLOGICI PIÙ UTILIZZATI, QUALI: APACHE SOLR AND BANANA, ELASTICSEARCH AND KIBANA

CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE:
ALLA FINE DEL CORSO, LO STUDENTE SARÀ IN GRADO DI UTILIZZARE I PRINCIPALI STRUMENTI TECNOLOGICI PER L’ACQUISIZIONE, LA MEMORIZZAZIONE, L’ELABORAZIONE E L’ANALISI DEI BIG DATA.
LO STUDENTE SARÀ INCORAGGIATO A SVOLGERE LAVORO DI GRUPPO IN CUI SARANNO APPLICATE LE CONOSCENZE ACQUISITE PER L’IMPLEMENTAZIONE DI UN PROGETTO CHE ESIBISCA FUNZIONALITÀ DI ANALYTICS SU BIG DATA IN UN AMBITO A SCELTA, AD ESEMPIO: SOCIAL MEDIA, CLOUD STORAGE, SMART ENVIRONMENT, ENTERPRISE DOCUMENT MANAGEMENT, ETC.

ABILITÀ COMUNICATIVE:
LE ABILITÀ COMUNICATIVE SI CONCRETIZZERANNO ATTRAVERSO LA CAPACITÀ DI CONDIVIDERE CON GLI ALTRI MEMBRI (E CON IL DOCENTE) I RISULTATI DELLE RICERCHE ESEGUITE, LE SCELTE ARCHITETTURALI E TECNOLOGICHE EFFETTUATE E LA SIGNIFICATIVITÀ DELLE ANALITICHE ELABORATE.
GLI STUDENTI SVILUPPERANNO ABILITÀ COMUNICATIVE CON LA PARTECIPAZIONE A LAVORI DI GRUPPO, IN CUI APPLICHERANNO LE CONOSCENZE ACQUISITE, E MEDIANTE L’ORGANIZZAZIONE E L’ESPOSIZIONE ORALE DEL PROGETTO REALIZZATO.

AUTONOMIA DI GIUDIZIO:
GLI STUDENTI SONO GUIDATI AD APPRENDERE IN MANIERA CRITICA E RESPONSABILE TUTTO CIÒ CHE VIENE SPIEGATO LORO IN CLASSE E AD ARRICCHIRE LE PROPRIE CAPACITÀ DI GIUDIZIO ATTRAVERSO LO STUDIO DEL MATERIALE DIDATTICO INDICATO DAL DOCENTE. L’AUTONOMIA DI GIUDIZIO SI CONCRETIZZA INOLTRE ATTRAVERSO IL LAVORO DI GRUPPO E IL CONFRONTO CON GLI ALTRI MEMBRI DEL TEAM DI PROGETTO.
Prerequisiti
È AUSPICABILE CHE GLI STUDENTI CONOSCANO: I CONCETTI RELATIVI AGLI ALGORITMI E ALLE STRUTTURE DATI FONDAMENTALI; UNO DEI LINGUAGGI DI PROGRAMMAZIONE TRA JAVA, PYTHON, SCALA PER SCRIVERE PROGRAMMI ATTI A RISOLVERE SEMPLICI PROBLEMI; I FONDAMENTI DELLE BASI DI DATI E DEL LINGUAGGIO SQL.
Contenuti
DOPO UNA BREVE INTRODUZIONE AI PRINCIPALI OBIETTIVI FORMATIVI DEL CORSO, GLI STUDENTI SARANNO INTRODOTTI AL MONDO DEI BIGDATA.
SIN DAI MOMENTI INIZIALI DEL CORSO GLI STUDENTI SARANNO INCORAGGIATI A LAVORARE IN GRUPPO ALLA DEFINIZIONE DI UN PROGETTO CHE REALIZZERANNO APPLICANDO LE CONOSCENZE ACQUISITE SEGUENDO UN APPROCCIO STEP-BY-STEP.
PERTANTO, IL CORSO SARÀ ARTICOLATO NELLE SEGUENTI PARTI PRINCIPALI.

(4 ORE) INTRODUZIONE AI BIGDATA ED ALLE ARCHITETTURE BIGDATA ENABLED
PANORAMICA SUI BIGDATA
REQUISITI BIGDATA INFORMATION SYSTEM
ARCHITETTURA LAMBDA E KAPPA

(4 ORE DI CUI 1 DI LABORATORIO) ACQUISIZIONE
FORMATI DI SCAMBIO E SERIALIZZAZIONE DATI: CSV, JSON, AVRO, PARQUET, ETC.
REST E STREAM API PER L’ACCESSO A SORGENTI DATI, QUALI: TWITTER, DROPBOX, ETC.

(10 ORE DI CUI 7 DI LABORATORIO) ELABORAZIONE ED ANALISI DISTRIBUITA DEI BIG DATA
HADOOP E TECNOLOGIE AD ESSO RELATE.
SPARK, E ALTRI ENGINE DI ELABORAZIONE DISTRIBUITA.
ESERCITAZIONI CON SPARK DATAFRAME
ESERCITAZIONI CON SPARK MACHINE LEARNING

(10 ORE DI CUI 7 DI LABORATORIO) STORAGE
NOSQL DB, QUALI KEY-VALUE STORE, DOCUMENT-ORIENTED DATABASE, COLUMN-ORIENTED E GRAPH DB.
ESERCITAZIONI CON MONGODB
ESERCITAZIONI CON NEO4J

(10 ORE DI CUI 4 DI LABORATORIO) DISTRIBUTED STREAM PROCESSING
INTRODUZIONE ALL’ELABORAZIONE DISTRIBUITA DI STREAM DI DATI.
APACHE STORM
ESERCITAZIONI CON SPARK STREAMING
ESERCITAZIONI CON KAFKA STREAMING

(4 ORE DI CUI 2 DI LABORATORIO) BIG DATA ANALYTICS
INTRODUZIONE ALLA REALIZZAZIONE DI DASHBOARD PER LA VISUALIZZAZIONE DI ANALYTICS MEDIANTE APPLICAZIONI WEB, INCLUDENDO D3.JS E GLI STACK TECNOLOGICI PIÙ UTILIZZATI, QUALI: APACHE SOLR E BANANA, ELASTICSEARCH E KIBANA
ESERCITAZIONI CON APACHE SOLR E BANANA
Metodi Didattici
IL CORSO SI PROPONE DI SPRONARE GLI STUDENTI AL PROCESSO DI FORMAZIONE PERMANENTE, CHE COMPORTA L’AGGIORNAMENTO CONTINUO (PER TUTTA LA VITA) DELLE CONOSCENZE E DELLE COMPETENZE, CERCANDO DI STIMOLARE LO SPIRITO CRITICO IN MERITO ALLE NUOVE TECNOLOGIE EMERGENTI NELL’AMBITO DI RIFERIMENTO.
AL FINE DI ABITUARLI ALL'AUTO-APPRENDIMENTO, GLI STUDENTI SARANNO INVITATI AD APPROFONDIRE GLI ARGOMENTI DEL CORSO PROPONENDO LORO L’ACCESSO A RISORSE ONLINE DI PARTICOLARE INTERESSE.
DURANTE IL CORSO IL DOCENTE FARÀ UN AMPIO USO DI ESEMPI, ESERCITAZIONI GUIDATE.
DA UN PUNTO DI VISTA STRUTTURALE, LE LEZIONI CONSISTERANNO IN:
(21 ORE) LEZIONI FRONTALI.
(21 ORE) LABORATORIO.
Verifica dell'apprendimento
IL RAGGIUNGIMENTO DEGLI OBIETTIVI DELL’INSEGNAMENTO È CERTIFICATO MEDIANTE IL SUPERAMENTO DI UN ESAME CON VALUTAZIONE IN TRENTESIMI.
L’ESAME È SUDDIVISO IN DUE PARTI, UNA “TEORICA” E UNA “PRATICA”; OGNI PARTE PRESENTA UNA SOGLIA MINIMA DI SUFFICIENZA, AL DI SOTTO DELLA QUALE L’INTERO ESAME NON È SUPERATO, ANCHE SE L’INSUFFICIENZA DOVESSE RIGUARDARE UNA SOLA DELLE DUE PARTI. IL VOTO FINALE È DATO, DI NORMA, DALLA SOMMA DEI VOTI DELLE DUE PARTI (SEMPRE SE ENTRAMBE SUPERATE).
PRIMA 1: LA VALUTAZIONE “TEORICA” CONSISTE NELL’ESPOSIZIONE DA PARTE DELLO STUDENTE DI UN ARGOMENTO DI INTERESSE, PER IL CORSO SVOLTO, DAL PUNTO DI VISTA TECNOLOGICO, METODOLOGICO E/O APPLICATIVO (MEDIANTE UNA RICERCA SVOLTA INDIVIDUALMENTE E CON SPIRITO CRITICO CON OPPORTUNI LEGAMI E PARALLELISMI CON LE TEMATICHE STUDIATE DURANTE IL CORSO);
PARTE 2: PROGETTO SVOLTO IN TEAM UTILIZZANDO PARTE DELLE TECNOLOGIE STUDIATE DURANTE IL CORSO E/O QUELLE EVENTUALMENTE EMERSE DALLE RICERCHE INDIVIDUALI.
Testi
MARZ, N., & WARREN, J. (2015). BIG DATA: PRINCIPLES AND BEST PRACTICES OF SCALABLE REAL-TIME DATA SYSTEMS. NEW YORK; MANNING PUBLICATIONS CO.

LIBRI SUGGERITI:

BAHGA, ARSHDEEP, AND VIJAY MADISETTI. BIG DATA SCIENCE & ANALYTICS: A HANDS-ON APPROACH. VPT, 2016.
Altre Informazioni
SARANNO FORNITI LINK A MATERIALE DISPONIBILE ONLINE E MATERIALE DIDATTICO USATO A LEZIONE.
  BETA VERSION Fonte dati ESSE3
  • Didattica