Documentazione
- Sii-Mobility: DE4.2a-Sistema di acquisizione e Aggregazione dati, dal concetto al dato, dal dato al database con ETL, e dal database al modello ontologico (ITA, ENG)
- GUIDA alla programmazione: Programmazione ETL per Data Warehouse (ITA)
- manuale utente per la creazione di ETL per dati statici e dinamici
- SLIDE: Km4City Sii-Mobility: Data Ingestion Tutorial, Overview, Parte 1
- VIDEO: Km4City Sii-Mobility: Data Ingestion Tutorial, Overview, Parte 1
- SLIDE esercitazioni produzione ETL: Km4City Sii-Mobility: Data Ingestion Tutorial, Parte 2: Teoria ed esercitazioni, vedi anche video
- VIDEO Parte 2a, teoria: Data Ingestion Tutorial
- VIDEO Parte 2b, Esercitazione su ETL, data ingestion Tutorial
- Slide 2014-2015 Programmazione ETL per DataWarehouse (Parte 8): from open data to triples, OD 2 RDF, OD and PD, static and Dynamic OD, Problemi architetturali, programmazione ETL, esempi concreti, massive data mining and crawling, quality improvement, geolocalization, triplification, reasoning and rendering, example of km4city data ingestion.
- esempi di processi formalizzati in ETL per il DataWarehouse
-
Testi consigliati
- Pentaho Data Integration 4 Cookbook - PACKT Publishing (A. S. Pulvirenti, M. C. Roldàn)
- Pentaho Kettle Solutions - Wiley (M. Casters, R. Bouman, J. van Dongen)
- pagina web Km4City: http://www.km4city.org
- pagina Open Source di DISIT Org: http://www.disit.org/6763
- Scarica il Flyer di Km4City: http://www.km4city.org/km4city-booklet-v02-21x21-md1.pdf
- P. Bellini, M. Benigni, R. Billero, P. Nesi and N. Rauch, "Km4City Ontology Bulding vs Data Harvesting and Cleaning for Smart-city Services", International Journal of Visual Language and Computing, Elsevier, http://dx.doi.org/10.1016/j.jvlc.2014.10.023 http://www.disit.org/6573
Macchina Virtuale, VMSDETL, gia' pronta
Version 2019:
VM for download to be put in execution via VMware player: Version 2019
User Manual to download:
- https://www.snap4city.org/download/video/ETL_and_Console_of_the_Virtual_Machine_-_User_Manual.pdf (in ENG)
- Quick guide to VM Snap4City: https://www.snap4city.org/download/video/Snap4city_VM_Quick_guide.pdf
- https://www.disit.org/7107 (external link - In Italian)
- https://www.disit.org/6690 (external link - In Italian)
- https://www.pentaho.com/
- https://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps
- TC6.12: How to Create GTFS File Ingestion via ETL (Extract Transform Load): the case of Helsinki
Version 2017:
VMSDETL, con Linux Ubuntu 14.04 (root: ubuntu, password: ubuntu)
- questo è il LINK alla macchina virtuale (versione 0.7, 28-02-2017), da scaricare e decomprimere in una directory, include Karma
- manuale utente per la creazione di ETL per dati statici e dinamici
- puo' essere messa in esecuzione con VMware player o workstation
-
una volta avviata la VM
- usare come credenziali: root: ubuntu, password: ubuntu
- x modificare l'IP della VM, usate network-admin, o settings, per esempio se la VM non va in rete.
- x avviare servizi/applicazioni necessari si veda istruzioni di seguito
-
Oracle Java 7 JDK (requisito per Penthao Data Integration e per Apache HBase)
- http://www.oracle.com/technetwork/java/javase/downloads/index.html(link Oracle)
- https://help.ubuntu.com/community/Java (link Ubuntu)
-
Penthao Data Integration (PDI) ver. 5.0.1 (tool ETL)
- http://sourceforge.net/projects/pentaho/files/Data%20Integration/
- Avvio dalla cartella data-integration con il comando "./spoon.sh ."
-
XAMPP (Database MySQL)
- http://wiki.ubuntu-it.org/Server/Xampp
- Avvio con il comando sudo /opt/lampp/lampp start da lanciare da shell.
- Arresto con il comando sudo /opt/lampp/lampp stop da lanciare da shell.
- Accesso da PDI con username=disit e password=ubuntu .
-
Apache HBase ver. 0.90.5 (Database NoSQL), in uso come stand alone
- https://archive.apache.org/dist/hbase/hbase-0.90.5/
- Avvio con il comando start-hbase.sh da lanciare da shell una volta dentro la cartella /bin.
- Arresto con il comando stop-hbase.sh da lanciare da shell una volta dentro la cartella /bin.
- Verifica dell'esecuzione con il comando jps da shell.
- Verifica dell'esecuzione da interfaccia web con accesso a http://localhost:60010/master.jsp .
- h-rider ver. 1.0.3.0 (tool opzionale di visualizzazione/manipolazione dei dati memorizzati su HBase), noSQL database per big data
-
Karma data integration ver. 2.024 (necessario per la fase di triplification)
- https://github.com/usc-isi-i2/Web-Karma/wiki
- Avvio con il comando mvn -Djetty.port=9999 jetty:run dalla cartella /programs/Web-Karma-master/karma-web.
- Accesso da interfaccia web http://localhost:9999.
Esempi/sorgenti processi ETLe database setting
- la macchina virtuale VMSDETL contiene gia questi dati, in questa sezione saranno messi anche gli aggiornamenti a questi dati qualora la VMSDETL si piu' vecchia.
-
Database MySQL
- dump db Elaborato_Sis_Distr contenente le tabelle MappingCity,ServiceCategory,tbl_toponimo_BIS,process_manager2 (dump_db_elaborato.sql)
- per i sorgenti di processi ETL di esempio con le tre fasi, si veda cartella sul desktop della VM con il nome "trasformazioni". Dentro vi sono altre due cartelle con i due esempi.
ultima modifica: 29-04-2016