Moduli didattici
Modulo 1: Data, Big Data e Open Data
“Big data” e “data science” possono essere alcune delle parole d’ordine più importanti di questo decennio, ma non sono necessariamente concetti nuovi. L’idea di data science abbraccia molti campi diversi, e si è lentamente fatta strada nel mainstream per oltre cinquant’anni. In questo modulo si svolgerò una overview sulla figura del data scientist con maggiore attenzione a:
– Definizione Di Dato
– Ciclo di vita del dato
– Big Data
– Open Data
– Dati Geografici
– Sistemi GIS
Modulo 2: DATA MANAGEMENT E BUSINESS INTELLIGENCE
– La Business Intelligence è l’insieme dei processi, delle tecniche e degli strumenti basati sulla tecnologia dell’informazione e che supportano i processi decisionali di – carattere economico. Ha l’obiettivo di avere sufficienti informazioni e conoscenze in modo tempestivo e fruibile cosicché da poter avere un impatto positivo sulle strategie, le tattiche e le operazioni aziendali.
– DBMS e modello relazionale
– SQL – ETL
– Data Warehouse e Business Intelligence
– Architetture distribuite
– Analisi OLAP
– Paradigma MapReduce
– Database NoSQL
– Esercitazioni su database NoSQL
Modulo 3: ANALISI STATISTICA DEI DATI
-A partire dal XXI° secolo, si assiste ad un evidente cambio di paradigma: la nascita delle tecniche di Data Science (e più in generale tutto il corpus teorico della disciplina nota come Machine Learning) si interseca in modo indivisibile con lo sviluppo teorico della Statistica. il programma coprirà i concetti di:
– Variabili e correlazioni
– Campioni e popolazioni
– Intervalli di confidenza e test delle ipotesi
– Test statistici parametrici e non parametrici
– Regressione
– Uso di tool e linguaggi per l’analisi statistica (R)
Modulo 4: SEMANTIC WEB E LINKED OPEN DATA
– Dopo anni di ricerca prevalentemente teorica, le Semantic Web Technologies si stanno ora estendendo in aree di applicazione come la bioinformatica, l’eCommerce, l’eGovernment, o i Social Webs. La necessità di sfruttare il potenziale di combinare le informazioni in modo significativo per poter trarre beneficio dal Web creerà – ulteriore domanda e interesse per l’area della data science.
– Web e Semantic Web
– Ontologie
– Resource Description Framework (RDF)
– RDF schema e Ontology Web Language
– SPARQL
– Esercitazioni (OpenRefine e Protégé)
Modulo 5: DATA VISUALIZATION E VISUAL ANALYTICS
Nel contesto della Business Intelligence (BI), la visualizzazione dei dati viene applicata in due modi. In primo luogo, la visualizzazione dei dati è una disciplina che copre una teoria completa di come rappresentare visivamente i dati. I concetti e i sistemi possono essere applicati nella progettazione di interfacce visive per la comunicazione delle informazioni. In secondo luogo, i concetti e le linee guida per la visualizzazione dei dati sono realizzati attraverso le funzionalità del software di BI, il che rende facile l’applicazione dei concetti.
– Rappresentazioni Grafiche
– Analisi Grafica Univariata, Bivariata e Multivaria
– Strumenti per la Rappresentazione Grafica dei Dati
– Uso di Strumenti di Visual Analytics (Tableau/R/Qlik Sense)
Modulo 6: MACHINE LEARNING E DATA MINING
L’apprendimento automatico è un’applicazione di intelligenza artificiale (AI) che fornisce ai sistemi la capacità di apprendere e migliorare automaticamente dall’esperienza senza essere esplicitamente programmato. L’apprendimento automatico si concentra sullo sviluppo di programmi per computer che possono accedere ai dati e utilizzarlo per se stessi. Il processo di apprendimento inizia con osservazioni o dati, come esempi, esperienze dirette o istruzioni, per cercare modelli nei dati e prendere decisioni migliori in futuro sulla base degli esempi che forniamo. L’obiettivo principale è quello di permettere ai computer di apprendere automaticamente senza l’intervento umano o l’assistenza e di adattare le azioni di conseguenza.
– Approcci Supervisionati e Non Supervisionati
– Classificazione
– Regressione
– Clustering
– Analisi Serie Temporali
– Valutazione delle Performance
– Esercitazioni (Weka, Scikit-Learn, Liblinear)
– Deep Learning
– CNN, RNN, Autoencoder, Reinforcement Learning
– Keras, Tensorflow
Modulo 7: TEXT ANALYTICS, SEARCH E PERSONALIZATION
La Text Analytics, nota anche come text mining, è il processo di esaminare ampie raccolte di risorse testuali per generare nuove informazioni e trasformare il testo non strutturato in dati strutturati da utilizzare per ulteriori analisi. Il Text mining identifica fatti, relazioni e affermazioni che altrimenti rimarrebbero sepolti nella massa di grandi dati testuali. Questi fatti vengono estratti e trasformati in dati strutturati, per l’analisi, la visualizzazione (ad es. tramite tabelle html, mappe mentali, grafici), l’integrazione con dati strutturati in database o magazzini, e un ulteriore affinamento tramite sistemi di machine learning (ML).
– Natural Language Processing
– Elementi di Linguistica Computazionale
– Modelli di Ritrovamento delle Informazioni
– Question Answering
– Information Filtering e Recommender Systems
– Esercitazioni con Lucene/Elastic search
– Esercitazioni con tool per la Definizione di Recommender Systems
– Semantica distribuzionale
– Chatbots
Modulo 8: PROPRIETÀ E TUTELA DEL DATO
Il regolamento generale dell’UE sulla protezione dei dati (GDPR) sostituisce la direttiva 95/46/CE sulla protezione dei dati ed è stato concepito per: Armonizzare le leggi sulla privacy in tutta Europa, Proteggere e responsabilizzare tutti i cittadini dell’UE in materia di riservatezza dei dati, Ridisegnare il modo in cui le organizzazioni di tutta la regione si avvicinano alla riservatezza dei dati. GDPR rimodella il modo in cui i settori gestiscono i dati e ridefinisce i ruoli dei leader chiave nelle aziende, dai CIO ai CMO. I CIO devono assicurarsi di avere processi di gestione del consenso a tenuta stagna, mentre i CMO richiedono sistemi di gestione dei diritti di dati efficaci per garantire che non perdano il loro bene più prezioso: i dati.
– Diritto d’autore
– Licensing e Tutela Giuridica
– Marchi e Brevetti
– General Data Protection Regulation (GDPR)
Modulo 9: SOCIAL DATA SCIENCE
I dati sociali generati digitalmente (ad esempio, dai social media, dalle piattaforme di comunicazione, dai dispositivi dell’Internet degli oggetti, dai sensori/indumenti e dai telefoni cellulari) offrono la possibilità di accumulare nuovi dati su larga scala, oltre ai dati esistenti che sono stati convertiti in formati digitali. Questi dati possono essere utilizzati per aiutarci a comprendere i grandi temi di interesse cruciale per le scienze sociali, l’industria e i responsabili politici, tra cui il comportamento sociale, economico e politico, le relazioni interpersonali, la progettazione del mercato, la formazione di gruppi, l’identità, il movimento internazionale, l’etica e i modi responsabili per accrescere il valore sociale dei dati e molti altri argomenti.
– Opinion Mining
– Sentiment Analysis
– Social Network Analysis
– Twitter as a data provider
– Aspect-based social contents analysis
– Topic Monitoring
Modulo 10: I DATI IN AZIENDA: DALLA TEORIA ALLA VISION
I dati non sono mai stati così importanti come oggi. Si parla sempre di come sia al centro di ciò che rende preziosa un’azienda. Un’organizzazione tipica pone costantemente domande. “Come si fa a crescere? La risposta a tutte queste domande e più è sempre nei dati, più si può correlare, più si può analizzare e più si sfruttano questi numeri, più successo si avrà nel proprio business, soprattutto se si è un’azienda online (ad esempio, la vendita al dettaglio online).
– Il Valore dei Dati
– I Dati nella Visione di Impresa