Modelo Tese MGI / MEGI

MODELO ZeEN Uma abordagem minimalista para o desenho de data warehouses Miguel Nuno da Silva Gomes Rodrigues Gago Dissertação apresentada como requisito parcial para obtenção do grau de Mestre em Estatística e Gestão de Informação Dissertation presented as partial requirement for obtaining the Master’s degree in Statistics and Information Management ii TÍTULOTÍTULO Subtítulo Subtítulo Nome completo do Candidato Nome completo do Candidato Dissertação / Trabalho de Projeto / Relatório de Dissertação / Trabalho de Projeto / Relatório de Estágio apresentada(o)Estágio apresentada como requisito(o) como parcial requisito para obtenção parcial do para grauobtenção de Mestre do emgrau Gestão de Mestre de Informação em Estatística e Gestão de Informação Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa MODELO ZeEN Uma abordagem minimalista para o desenho de data warehouses por Miguel Nuno da Silva Gomes Rodrigues Gago Dissertação apresentada como requisito parcial para a obtenção do grau de Mestre em Estatística e Gestão de Informação, Especialização em Gestão dos Sistemas e Tecnologias de Informação Orientador: Prof. Dr. Miguel de Castro Neto Março 2013 iii Ao meu Pai, o Engenheiro Armando Rodrigues Gago, que me ensinou a procurar sempre mais além. iv Agradecimentos À minha Mãe Maria Ondina, À minha Mulher Luísa, pelo tempo que lhes subtraí e por acreditarem sempre em mim. Ao Prof. Dr. Miguel de Castro Neto, por me ter incutido confiança em desenvolver esta dissertação na área da Business Intelligence. v Il semble que la perfection soit atteinte, non quand il n'y a plus rien à ajouter mais quand il n'y a plus rien à retrancher. Saint-Exupéry, Terre des Hommes vi RESUMO Constituindo o data warehouse o componente estrutural por excelência dum sistema de Business Intelligence, alterações à estrutura do modelo de negócio servido implicam normalmente alterações ao modelo de dados utilizado e, logo, operações especializadas de administração e arquitectura, tais como: paragem do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação, testes, novo carregamento e novo arranque do sistema. Tendo em conta o tempo, risco e custo envolvidos nestas operações, potenciados pela rigidez e complexidade dos modelos de dados, torna-se oportuno procurar formas de agilizar os processos de mudança, pela concepção de um novo modelo de dados simples, seguro, e generalizável. Focando o âmbito da investigação numa necessidade do modelo de negócio da indústria farmacêutica, e após revisão de modelos de dados existentes, propõe-se nesta dissertação um novo modelo (ZeEN - Zero Effort Entity-Network) com o objectivo referido, cujos desempenho e complexidade de implementação e manutenção foram avaliados positivamente face aos modelos tradicionais relacional e dimensional e à recente abordagem Anchor Modeling. Desta comparação são retiradas conclusões relativas às necessidades de Business Intelligence em geral, e são propostas vias para futura actividade. PALAVRAS-CHAVE Base de dados; Data warehouse; Modelação de dados; Business Intelligence; Normalização; Customer Relationship Management vii ABSTRACT As the data warehouse is the core framework of a Business Intelligence system, changes to the business model at stake also imply changes to the applied data model, which require specialized maintenance and architecture operations, such as: halting the system, data warehouse redesign and reimplementation, changes to loading processes and information retrieval logic, tests, reloading of data and system rebooting. Considering time, risk and cost implied in these operations, strongly related to data model rigidity and complexity, it seems advisable to seek streamlining of change processes, by framing a new simple, safe and generalizable data model. Aiming at this purpose, after reviewing existing data model concepts, and by focusing research on a specific need of the pharmaceutical industry, a new model (ZeEN - Zero Effort Entity-Network) is presented here, which was succesfully benchmarked against traditional relational and dimensional models and Anchor Modeling recent approach, for performance, and implementation and maintenance complexity. From the experiment, conclusions are drawn over Business Intelligence generic needs, and future work is suggested. KEYWORDS Database; Data warehouse; Data modeling; Business Intelligence; Normalization; Customer Relationship Management viii ÍNDICE 1. Introdução .................................................................................................................. 21 1.1. Descrição do problema de investigação ............................................................. 21 1.2. Objectivo da investigação ................................................................................... 22 1.3. Questões de investigação ................................................................................... 22 1.4. Metodologia ........................................................................................................ 23 1.5. Valor da investigação .......................................................................................... 24 1.6. Estrutura da dissertação ..................................................................................... 25 2. Revisão da Literatura ................................................................................................. 27 2.1. Introdução ........................................................................................................... 27 2.2. Business Intelligence ........................................................................................... 27 2.3. Modelos de dados ............................................................................................... 29 2.3.1. Dados ........................................................................................................... 29 2.3.2. Ficheiros manuais ........................................................................................ 29 2.3.3. Sistemas baseados em ficheiros .................................................................. 30 2.3.4. Sistemas de gestão de bases de dados ........................................................ 31 2.3.4.1. Primeira geração ........................................................................ 31 2.3.4.2. Segunda geração ....................................................................... 34 2.3.4.3. Normalização de dados ............................................................. 34 2.3.4.4. Temporalidade ........................................................................... 43 2.3.4.5. Modelo dimensional .................................................................. 43 2.3.5. Outras Abordagens ...................................................................................... 54 2.3.5.1. Bases de dados baseadas em objectos ..................................... 54 2.3.5.2. Schema integration, Schema evolution e Schema versioning .. 55 2.3.5.3. Schema matching genérico ....................................................... 56 2.3.5.4. Row modeling / Entity-Attribute-Value ..................................... 57 2.3.5.5. Anchor modeling ....................................................................... 58 2.3.5.6. Data Vault .................................................................................. 61 2.3.5.7. Metodologias ágeis em bases de dados .................................... 64 3. Métodos e Materiais .................................................................................................. 66 3.1. Métodos .............................................................................................................. 66 3.2. Materiais ............................................................................................................. 67 4. Resultados e Discussão .............................................................................................. 69 ix 4.1. Descrição do modelo de negócio subjacente ao modelo de dados a testar ...... 69 4.2. Descrição dos dados utilizados para teste .......................................................... 71 4.2.1. Estrutura de Eventos .................................................................................... 71 4.2.2. Estrutura de Dimensões ............................................................................... 71 4.2.3. Modelação ................................................................................................... 72 4.2.4. Dados ........................................................................................................... 74 4.2.4.1. Factos ......................................................................................... 74 4.2.4.2. Dados de Estruturas .................................................................. 74 4.3. Descrição do processo de BI considerado .......................................................... 75 4.4. Descrição do dashboard pretendido................................................................... 77 4.4.1. Indicadores de Marketing e Vendas MI e Evol ............................................ 77 4.4.2. Necessidade de um dashboard .................................................................... 80 4.4.3. Configuração do dashboard pretendido ...................................................... 82 4.4.4. Alinhamento com o objectivo da investigação ............................................ 83 4.5. Implementação do modelo relacional

Modelo Tese MGI / MEGI

MCSA SQL Server 2016

Oracle White Paper June 2009

Data Mining with Microsoft SQL Server 2008 / Jamie Maclennan, Bogdan Crivat, Zhaohui Tang

SQL Server 2012 Tutorials – Analysis Services Data Mining

Building a Data Mining Model Using Data Warehouse and OLAP Cubes IST 734 SS Chung

Predictive Analysis in Microsoft SQL Server 2012 Gain Intuitive and Comprehensive Predictive Insight

SQL Server Analysis Services (SSAS)?

A Query Language for Analyzing Networks

Inductive Databases and Constraint-Based Data Mining Sašo Džeroski • Bart Goethals • Panþe Panov Editors

SPARQL-ML: Knowledge Discovery for the Semantic Web University Of

Mining Model Content

Normalization Rules