Enterprise Data Warehouse: ottimizzare il design usando la Dimensional Normal Form

Page 1

LA TECHNOLOGY TRANSFER PRESENTA

MICHAEL SCHMITZ ENTERPRISE ETL per il DATA WAREHOUSE: Data Warehouse: Ottimizzare il Design un approccio usando la DIMENSIONAL Template-Driven NORMAL FORM ROMA 7-9 GIUGNO 2010

ROMA 10-11 GIUGNO 2010

VISCONTI PALACE HOTEL - VIA FEDERICO CESI, 37

info@technologytransfer.it www.technologytransfer.it


ENTERPRISE DATA WAREHOUSE

DESCRIZIONE

PROGRAMMA

La Dimensional Normal Form è un nuovo approccio all’Architettura Dati del Data Warehouse che mette insieme i punti di forza delle metodologie di design normalizzate e dimensional per fornire schemi usabili, flessibili, scalabili e molto performanti per l’Enterprise Data Warehouse. La Dimensional Normal Form permette di costruire un Enterprise Data Warehouse con un Data Mart per volta senza richiedere un Data Warehouse intermedio. Pur somigliando all’approccio di Kimball, si differenzia da questo per due aspetti: le dimensioni ET completamente normalizzate e i metodi di tracking della dimension history. Questo workshop tratterà tutte le tecniche di design per il Data Warehousing e le soluzioni di Business Intelligence basate sulla Dimensional Normal Form e discuterà i pro e i contro delle molte decisioni di design che dovranno essere prese. Verranno anche fatte le considerazioni storiche per valutare il loro impatto sul design dello schema. Saranno presentati e discussi molti esempi di design dello schema. Inoltre verranno presentate architetture contrastanti di Data Warehouse e verranno discusse le variazioni richieste sul design fisico per i diversi ambienti di Data Warehousing. I partecipanti saranno chiamati a svolgere esercizi di design le cui soluzioni saranno analizzate e discusse dal gruppo.

1. Panoramica sul Data Modeling

Il seminario “Template-Driven ETL” che seguirà mostrerà come costruire, popolare e mantenere gli schemi costruiti usando la Dimensional Normal Form Data Architecture.

PARTECIPANTI • Business Intelligence e Data Warehouse Manager • Responsabili di Progetti BI e DW • Architetti, Progettisti e Sviluppatori di Business Intelligence • Architetti, Progettisti e Sviluppatori di ETL • Architetti e Sviluppatori di Data Warehouse • DBA di Data Warehouse • Data Modeler • Progettisti e Sviluppatori di Business Intelligence e OLAP

• Principi guida • Tipi di modelli • Normalizzazione

2. L’approccio Dimensional Normal Form • La sfida di Design per il Data Warehouse • Storia dell’approccio Dimensional • Basi della Dimension Table • Fact Table: caratteristiche, tipi, esempi • Fact Table: granularità, dimensionalità e cubi • Contenuto della Fact Table • Fact Table: misure e additività • Dimension Table: fondamenti • Dimension Table: caratteristiche, tipi, esempi • Famiglie di Dimension Table

3. Dimensional Normal Form • Dimensional Normal Form - Strutture ETL - Strutture della query • Conversione dalla terza forma normale a DNF • Esercizi di conversione

4. Pianificare il Database Design per la BI • Identificare e dare priorità ai processi • Matrice delle priorità • Carta delle priorità • Raccolta dei requisiti • Analisi del sistema sorgente • Design preliminare • Miglioramento • Famiglie di dimensione • Storia dell’attributo dimensione • Strutture di Audit e Data Quality • Strategia di Initial Summary


5. Dimensioni del Business in profondità • La famiglia della dimensione data • La dimensione tempo • Dimensioni condizione o casuale • Separare le dimensioni di Business con la stessa entità base • Perché non fare lo snowflake sullo schema della Query • Chiavi dimensione del Data Warehouse • Imposizione della Data Quality e Reporting • Esercizi di Design

6. Designing per estendibilità • Il Conformed Dimension Bus • Case Study

7. Case Study di Enterprise BI Modeling

8. Fare il tracking della storia dell’attributo dimensione • Metodologia • Considerazioni • Worksheet della storia dell’attributo dimensione • Metodi • Matrice di decisione • Case Study

9. Ulteriori aspetti di Design • Usare dimensioni embedded per Performance e Usability • Dimensioni eterogenee e Fact Tables/partitioning verticale • Fact Tables correlate gerarchicamente - Consolidamento - Chiavi surrogate della Fact Table • Attributi di Dimensione, livelli e gerarchie

• Dimensioni degenerate - Fact Tables del dettaglio della transazione - Fact Tables del sommario della transazione • Gestire dimensioni grandi - Dimensioni analitiche (profile) - Dimensioni di correlazione - Dimensioni che agiscono come Fact Tables • Dimensione multi-valore - Dimensioni miste - Tabelle di bridge - Fact Tables associate - Dimensioni di stringhe concatenate • Dimensioni di range di valori • Tabella di banda di valori • Attributi di bracketing • Gerarchie della variabile profondità • Supportare la dimensione uno a molti • Supportare gruppi di clienti • Permettere calcoli di percentuale • Nulls e Dimension Tables • Molteplici unità di misura • Dettaglio di promozione • Dimensioni distribuite

10. BI Real-Time (?)

11. Supporto internazionale • Situazioni • Problematicità • Calendari multi-nazionali • Time Zones • Diversità di valute

12. Strategie e Implementazione della Summary • Considerazioni • Selezione • L’impatto del sort • Automatic Summary Table Navigation e Maintenance • Esercizio

13. Physical Design e Tuning della Performance • Naming Conventions • Memorizzare le misure derivate • Implementare le colonne di conteggio • Fact Tables partizionate • Partizionamento delle Dimension Tables del dettaglio della transazione • Tipi di indice - Indici Btrees - Indici Bitmap • Ottimizzazione della query Dimensional - Pair-Wise Joins - Indice composito - Intersezione dell’indice • Indexing della Fact Table • Indexing della Dimension Table • Considerazioni sulla memoria • Tuning della Performance

14. Aspetti Architetturali DW/BI


ETL per il Data Warehouse

DESCRIZIONE Lo sviluppo del processo di ETL (Extract, Transform and Load) all’interno di un progetto di Data Warehousing tipicamente incide per un tempo di lavoro superiore al 50%. Sebbene sia complesso, un processo rigoroso di ETL assicura la qualità dei dati, la credibilità e l’usabilità del Data Warehouse. La buona notizia consiste nel fatto che, utilizzando un approccio standardizzato che fa uso di tecniche collaudate e di templates, la quantità degli sforzi richiesti diminuirà in maniera esponenziale e assicurerà qualità dei dati, scalabilità e Performance. Questo seminario, dopo aver dato esauriente panoramica sul processing ETL per il Data Warehouse, scava su alcuni aspetti critici, facendo importanti considerazioni. Valuta la necessità sempre crescente di avere RealTime data feeds per il Data Warehouse e discute i vari metodi per soddisfare questa necessità. In particolar modo presenta e spiega un approccio Template-Driven che accelera la velocità di sviluppo fornendo completezza. Questi Templates sono dimostrati con un codice che lavora su Informatica/Oracle, ma può ed è stato adattato per altri tools ETL e altre piattaforme database. Un CD contenente il codice sarà distribuito a tutti i partecipanti al seminario. In particolare i partecipanti impareranno: • Gli aspetti critici di sviluppo di ETL • I principali approcci architetturali di ETL • Le tecniche per indirizzare problematiche di sviluppo, includendo come sviluppare Data feeds quasi Real-Time • Come usare Templates standardizzati di manutenzione e applicarli al Vostro particolare ambiente

PARTECIPANTI • Architetti, Progettisti e Sviluppatori di Data Warehouse • Architetti, Progettisti e Sviluppatori di ETL • DBA di Data Warehouse • Managers che vogliono capire le difficoltà dello sviluppo ETL • Progettisti e Sviluppatori di Business Intelligence e OLAP che lavorano con ETL


PROGRAMMA 1. Introduzione

5. Sviluppo ETL Metadata-Driven

• Cosa è ETL • Acronimi differenti • Principali obiettivi di Design

• Design Model-Driven dei processi ETL • Metadati richiesti • Esempio di Repository dei Metadati • La realtà

2. Panoramica su ETL • Parti del processo ETL • Acquisizione dei dati • Validazione e trasformazione dei dati • Riconciliazione con il sistema sorgente • Data Publishing • Auditing • Metadati ETL

3. ETL: Infrastruttura e Architettura • Business drivers • Technology drivers • Costruire la Vostra Architettura • Architettura dell’Infrastruttura • Approcci di processing ETL - Tools ETL - Coding personalizzato - Utilities delle 3 parti - Packages specializzati • Specifiche dell’Architettura ETL • Esempi di Architettura di alto livello • Aggiunta hardware

4. Gestione della storia • Storia dell’attributo dimensione • Cosa è la storia dell’attributo dimensione • Perché è importante • Il nostro approccio • Attributi analitici e di dettaglio • Requisiti analitici e di audit • Storia del contesto • Requisiti basati sull’Audit • Il Worksheet della storia dimensione

6. Dimension Processing e Templates • Due situazioni di Dimension Processing • Processing di estrazione single state • Processing di estrazione multiple state • Templates per la manutenzione single state • Templates per manutenzione multiple state • Panoramica dei templates di Informatica • Flusso di Processing per dimensione multipla • Estratti di transazione

7. Fact Table Processing e Templates • Metodi di Lookup della Dimension Key • Dividi e conquista • Un mix di metodi • Diagramma di processo della Fact Table • Ordinare i dati nelle Fact Tables • Strategia e Implementazione della tabella Summary

8. Supportare i Requisiti RealTime • Cosa sono I Vostri Requisiti? • Un esempio di Business • Il Requisito Real-Time • Un Case Study


INFORMAZIONI Enterprise Data Warehouse € 1500 (+iva) ETL per il Data Warehouse € 1200 (+iva) La partecipazione ad entrambi i seminari viene offerta ad una speciale quota di € 2500 (+iva) La quota di partecipazione comprende documentazione, colazioni di lavoro e coffee breaks. LUOGO Roma, Visconti Palace Hotel Via Federico Cesi, 37 DURATA ED ORARIO 3 giorni/ 2 giorni: 9.30-13.00 14.00-17.00

MODALITÀ D’ISCRIZIONE Il pagamento della quota, IVA inclusa, dovrà essere effettuato tramite bonifico, codice Iban: IT 34 Y 03069 05039 048890270110 Banca Intesa Sanpaolo S.p.A. Ag. 6787 di Roma intestato alla Technology Transfer S.r.l. e la ricevuta di versamento inviata insieme alla scheda di iscrizione a: TECHNOLOGY TRANSFER S.r.l. Piazza Cavour, 3 00193 ROMA (Tel. 06-6832227 Fax 06-6871102) entro il 24 Maggio 2010 Vi consigliamo di far precedere la scheda d’iscrizione da una prenotazione telefonica.

È previsto il servizio di traduzione simultanea

CONDIZIONI GENERALI In caso di rinuncia con preavviso inferiore a 15 giorni verrà addebitato il 50% della quota di partecipazione, in caso di rinuncia con preavviso inferiore ad una settimana verrà addebitata l’intera quota. In caso di cancellazione del seminario, per qualsiasi causa, la responsabilità della Technology Transfer si intende limitata al rimborso delle quote di iscrizione già pervenute. SCONTI DI GRUPPO Se un’azienda iscrive allo stesso evento 5 partecipanti, pagherà solo 4 partecipazioni. Chi usufruisce di questa agevolazione non ha diritto ad altri sconti per lo stesso evento. ISCRIZIONI IN ANTICIPO I partecipanti che si iscriveranno al seminario 30 giorni prima avranno uno sconto del 5%.

TUTELA DATI PERSONALI Ai sensi dell’art. 13 della legge n. 196/2003, il partecipante è informato che i suoi dati personali acquisiti tramite la scheda di partecipazione al seminario saranno trattati da Technology Transfer anche con l’ausilio di mezzi elettronici, con finalità riguardanti l’esecuzione degli obblighi derivati dalla Sua partecipazione al seminario, per finalità statistiche e per l’invio di materiale promozionale dell’attività di Technology Transfer. Il conferimento dei dati è facoltativo ma necessario per la partecipazione al seminario. Il titolare del trattamento dei dati è Technology Transfer, Piazza Cavour, 3 - 00193 Roma, nei cui confronti il partecipante può esercitare i diritti di cui all’art. 13 della legge n. 196/2003.

QUOTA DI PARTECIPAZIONE

MICHAEL SCHMITZ nome ......................................................................

ENTERPRISE DATA WAREHOUSE: OTTIMIZZARE IL DESIGN USANDO LA DIMENSIONAL NORMAL FORM Roma 7-9 Giugno 2010 Visconti Palace Hotel - Via Federico Cesi, 37 Quota di iscrizione: € 1500 (+iva)

ETL PER IL DATA WAREHOUSE: UN APPROCCIO TEMPLATE-DRIVEN Roma 10-11 Giugno 2010 Visconti Palace Hotel - Via Federico Cesi, 37 Quota di iscrizione: € 1200 (+iva)

cognome ................................................................ funzione aziendale .................................................

Timbro e firma

azienda .................................................................. partita iva ............................................................... codice fiscale ......................................................... indirizzo .................................................................. città ........................................................................

ENTRAMBI I SEMINARI Quota di iscrizione per entrambi i seminari: € 2500 (+iva)

cap ......................................................................... provincia ................................................................ telefono ..................................................................

In caso di rinuncia o di cancellazione dei seminari valgono le condizioni generali riportate sopra.

fax ..........................................................................

È previsto il servizio di traduzione simultanea

e-mail .....................................................................

Da restituire compilato a: Technology Transfer S.r.l. Piazza Cavour, 3 - 00193 Roma Tel. 06-6832227 - Fax 06-6871102 info@technologytransfer.it www.technologytransfer.it


DOCENTE Michael Schmitz è uno specialista in soluzioni di Data Warehouse ad alta performance. Ha una approfondita esperienza nell’utilizzo di tecniche efficienti e scalabili adatte sia a Data Warehouse piccoli che a Data Warehouse su larga scala. Dopo aver lavorato per tanti anni nel settore del Database Management Systems per Software AG e IBM, ha cominciato a interessarsi di Data Warehousing nel 1987 con Teradata. Quindi ha lavorato per Red Brick, Informix ed è stato il direttore della Data Warehouse Technology per la Mid-Market Business Unit di Oracle. Dopo aver creato una società di consulenza, ha lavorato per Knightsbridge Solutions e Information Management di HP. Recentemente è stato Lead Architect di DW/BI per costruire una nuovo Enterprise Data Warehouse basato su Informatica e Teradata per la Nike. Oggi è Principal di The Database Performance LLC, una società di consulenza specializzata nel design e nell’implementazione di Data Warehouse ad altissime prestazioni. Negli ultimi anni Mr. Schmitz ha scritto molti articoli tecnici sul suo approccio ed è stato co-autore di un libro. Ha tenuto moltissimi seminari di design ed è attivamente coinvolto nell’implementazione di Data Warehouse.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.