Business Intelligence com Pentaho

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Por que eu devo ler este artigo: Este artigo d� continuidade � apresenta��o do Pentaho no apoio ao desenvolvimento de uma solu��o de Business Intelligence que se revela como uma excelente op��o, pois al�m de ser uma ferramenta completa e escal�vel, � gratuita.

Confira: Business Intelligence Tutorial

Este artigo aborda as melhores pr�ticas empregadas na cria��o de um processo de Business Intelligence utilizando-se de um case fict�cio. Ser�o descritos os passos necess�rios para a cria��o de um processo de ETL, bem como da modelagem e publica��o da parte l�gica do cubo (metadados) e, por fim, a visualiza��o dos dados em uma ferramenta OLAP. Este processo foi desenvolvido com a su�te Pentaho Business Analytics, uma ferramenta gratuita e escal�vel.

Mais especificamente, nesta segunda parte ser�o descritos as etapas necess�rios para a cria��o das transforma��es respons�veis por migrar os dados da base Origem, a do sistema transacional (OLTP), para a base Destino (OLAP), a base anal�tica. Esta foi modelada em formato estrela e ser� a respons�vel por armazenar os dados do cubo de Produtos Vendidos da empresa fict�cia, Magazine Setorial.

Entender na pr�tica como definir um processo de migra��o de dados no contexto de uma solu��o de business intelligence. A realiza��o correta desta etapa � fundamental para o sucesso do projeto uma vez que os dados nem sempre est�o prontos e no formato adequado, sendo necess�rios ajustes e transforma��es antes de podermos utiliz�-los.

Na primeira parte deste artigo foram abordados os principais conceitos de Business Intelligence e, para exemplific�-los, foi proposto o case de uma loja de departamentos fict�cia, formada por diversas filiais e com a necessidade de analisar os dados de suas vendas. Na sequ�ncia do artigo, foi apresentada a su�te Pentaho, capaz de contemplar os requisitos e regras de neg�cio elencados. Al�m disso, a base de dados Origem foi analisada e o racioc�nio necess�rio para a modelagem da base Destino, em formato estrela, foi descrito. Por fim, as etapas para a configura��o do Pentaho Data Integration foram descritas.

Os resultados desse trabalho d�o subs�dios para que, nesta segunda e �ltima parte do artigo, o processo de ETL seja criado, juntamente com os metadados do cubo, sua publica��o no servidor web e a an�lise dos dados em uma ferramenta OLAP.

Com a base OLAP modelada, significa que as principais decis�es j� foram tomadas, restando agora a tarefa de migrar os dados para a estrutura proposta. Entretanto, n�o � raro que sejam necess�rios pequenos ajustes na modelagem devido a algum detalhe que tenha passado despercebido na an�lise inicial.

Nesta segunda parte do artigo ser�o descritos os passos necess�rios para a cria��o das transforma��es respons�veis por migrar os dados da base Origem, a do sistema transacional (OLTP), para a base Destino (OLAP), a base anal�tica, modelada em formato estrela e respons�vel por armazenar os dados do cubo de Produtos Vendidos da empresa fict�cia, Magazine Setorial. Estas transforma��es ser�o respons�veis por popular as dimens�es dim_data, dim_produto, dim_cliente, dim_vendedor, dim_notafiscal e a tabela fato, ft_notafiscal_produto.

Na continuidade, ser�o apresentados os passos necess�rios para criar um Job, que tem a responsabilidade de executar todas as transforma��es criadas, na sequ�ncia correta e tamb�m os passos para instalar e iniciar o servi�o do servidor de BI, no qual o Pentaho User Console (PUC) est� inserido, e o servi�o do Pentaho Administrator Console (PAC), que tem, entre outras responsabilidades administrativas, a fun��o de manter as conex�es JNDI, que d�o acesso �s bases de dados envolvidas nas ETLs. S�o descritas tamb�m as etapas necess�rias para a instala��o, via Pentaho Marketplace, do plugin da ferramenta OLAP Saiku Analytics.

Finalizando, outra ferramenta da su�te ser� descrita, o Pentaho Schema Workbench, respons�vel por gerar e publicar o modelo l�gico do cubo, fundamental para a an�lise de dados que ser� empreendida neste artigo por meio da utiliza��o de uma ferramenta OLAP.

Conex�es JNDI

A Java Naming and Directory Interface (JNDI) � uma API para acesso a servi�os de diret�rios. Ela permite que aplica��es cliente descubram e obtenham dados ou objetos atrav�s de um nome.

A API JNDI � utilizada em aplica��es Java que acessam recursos externos, como bases de dados, filas ou t�picos JMS e componentes Java EE. Os administradores do sistema gravam objetos administrados num servi�o de diret�rio disponibilizado pelo servidor de aplica��es (normalmente) e a aplica��o busca estes objetos atrav�s da JNDI (lookup).

A dimens�o Tempo

A dimens�o tempo, presente na maioria dos projetos de BI, � de grande valia, pois permite analisar os dados levando em considera��o o momento em que o fato ocorreu. Para este case, existe a necessidade de agruparmos os dados por ano, trimestre, m�s e dia. Diante disso, ser� criada a dimens�o tempo denominada dim_data, que receber� um registro para cada dia do ano, a partir de uma data pr�-determinada.

Para se definir o per�odo que ser� abrangido por esta dimens�o, � necess�ria uma an�lise dos dados da tabela de nota fiscal, a partir da qual percebe-se que a menor data de venda � 01/01/2008. Para que sejam analisadas as vendas j� efetuadas e permitir que este processo de gera��o de registros n�o precise ser reexecutado por um per�odo consider�vel, deve-se gerar as datas a partir da primeira venda e por dias suficientes para que haja registros para pelo menos os pr�ximos 10 anos a partir da data atual. Estes registros de datas futuras tamb�m s�o �teis para an�lises preditivas, tra�ando uma estimativa para o futuro com base nos dados hist�ricos.

A dimens�o dim_data pode ter sua estrutura ainda mais simples que a proposta neste case ou, pelo contr�rio, ser mais rica em detalhes que, dependendo do neg�cio, podem ser interessantes como, por exemplo, se o dia � um fim de semana, primeiro ou �ltimo dia da semana, primeiro ou �ltimo dia do m�s, etc.

Os registros para esta dimens�o podem ser criados de diversas maneiras como, por exemplo, por meio de stored procedures que fazem os c�lculos no banco de dados e at� mesmo por planilhas prontas para download, dispon�veis em sites como o kinballgroup.com e encontradas ao se pesquisar no Google por �date dimension xls�. Na maioria destes casos, no entanto, alguma adapta��o ser� necess�ria, dependendo das colunas que comp�em a dimens�o ou dos idiomas envolvidos. Apesar disso, independente da estrat�gia escolhida para a gera��o destes dados, esta dimens�o poder� ser compartilhada entre todos os futuros cubos.

Para gerar os dados da dimens�odim_data, utilizando o PDI, � necess�rio realizar um conjunto de passos. Inicialmente, crie uma transforma��o e salve-a com o nome: �1-dim_data�. � ela que conter� todas as informa��es sobre o processo de transforma��o de dados, permitindo sua automa��o.

Em seguida, arraste um componente Generate Rows, que como o nome sugere, tem a responsabilidade de gerar n linhas, com x colunas, especificando o nome, tipo de dado e o valor de cada uma delas. D� o nome de �Gera linhas com data inicial� e, em Limit, informe o n�mero de linhas desejadas. Como o primeiro registro da dimens�o ser� referente � data da primeira venda e o objetivo � gerar registros para, pelo menos os pr�ximos 10 anos a partir da data atual, informe o valor 8000, que ser� suficiente para gerar registros de 01/01/2008 at� 01/01/2028.

Feito isso, em Fields, informe o �nico campo desejado, com o nome �dtInicio�, tipo Date, formato �yyyyMMdd� e em Value informe a data inicial �20080101�. Com isso definimos qual tipo de dado ser� gerado em nosso banco. Em seguida, para verificar se est� tudo ok, fa�a um Preview dos dados e clique em OK para fechar o step.

O pr�ximo passo � arrastar o componente Add sequence, que gera um n�mero sequencial, e criar uma seta de liga��o entre os dois steps. Edite o step Add sequence, d� o nome de �nrSequencialDia�, preencha com este mesmo valor o campo Name of value, para que seja criada uma coluna com este nome em nosso resultset (de 8000 linhas) e clique em OK.

Ainda nesta etapa, arraste o step Calculator adicionando-o ao fluxo da ETL, d� o nome de �C�lculos e Formatos de Datas�, inclua uma linha para cada vari�vel a ser calculada, preencha as colunas de acordo com a Figura 1 e perceba a riqueza de op��es que este componente disponibiliza (desde o tratamento de strings, como escape e unescape HTML, at� fun��es de c�lculos com n�meros e datas). Neste componente foram criadas 10 vari�veis necess�rias para o preenchimento da dimens�o dim_data. A primeira � �dtData� que ser� obtida somando a data inicial, �01/01/2008�, com o n�mero sequencial criado pelo componente Add sequence. As outras vari�veis ser�o criadas com base na data obtida e servem para represent�-la em diversos formatos.

Business Intelligence com Pentaho — **Figura 1**. Componente Calculator, configurado para gerar as datas em v�rios formatos.

Agora partiremos para a defini��o dos atributos referentes ao trimestre. Como alternativa para n�o complicar o racioc�nio com o step Calculator, tamb�m capaz de executar esta atividade, inclua o step Value Mapper, que � uma tabela de mapeamento do tipo �de-para�, onde � feita a rela��o entre o n�mero do m�s e o n�mero do trimestre correspondente, conforme indica a Figura 2.

Componente Value Mapper, permite mapeamentos do
tipo de-para — **Figura 2.** Componente *Value Mapper*, permite mapeamentos do tipo de-para.

Para gerar a �ltima coluna necess�ria, onde teremos a descri��o do trimestre, com valores T1, T2, T3 e T4, concatene a letra �T� com nrTrimestre. Para isto, inclua um novo step Calculator e insira uma linha para cada vari�vel a ser criada, preenchendo as colunas conforme a Figura 3. Repare que a primeira vari�vel criada, dsConcatenar, est� com o valor �Y� em Remove. Isto indica que ela s� existir� neste step e n�o far� parte do resultset.

Componente Calculator, para concatenar duas
strings — **Figura 3.** Componente Calculator, para concatenar duas strings.

Em seguida, para persistir os dados no banco, inclua ao fluxo da ETL o componente Table output e edite-o, com dois cliques.

Nesse momento, d� o nome de dim_data e selecione a conex�o para a base Destino. Em Target table escreva dim_data e marque as op��es Truncate table e Specify database fields para que, na segunda aba, de nome Database fields, seja poss�vel fazer o mapeamento das colunas que receber�o valor neste Insert, proporcionado pelo componente.

Dando continuidade, para que o PDI preencha automaticamente a tabela deste componente com os nomes das colunas a serem afetadas, clique em Get fields, e quando perguntado pelo PDI se o usu�rio deseja limpar os valores j� preenchidos e incluir uma linha para cada campo da tabela informada, selecione Clear and add all, ap�s em Edit field mapping e ent�o em OK. Neste momento, o PDI montar� automaticamente o mapeamento das colunas pela semelhan�a dos nomes, sendo necess�rio apenas fazer o v�nculo entre �nrAno� e �dsAno�, tarefa necess�ria nos casos em que o nome da coluna do resultset n�o for igual ao nome da coluna no banco, como demonstra a Figura 4.

Table output para gravar a dimens�o dim_data — **Figura 4.** *Table output* para gravar a dimens�o dim_data.

Implementados os passos anteriores, execute a transforma��o a partir do menu Action > Run e obtenha uma tela como a apresentada na Figura 5 que confirma a inclus�o de 8000 linhas em 1.6 segundo.

Transforma��o
sendo executada — **Figura 5**. Transforma��o sendo executada, gerando e incluindo 8000 linhas em 1.6 segundo.

Por fim, confira o resultado obtido e perceba que os dados foram gerados no idioma adotado pelo computador em que o PDI est� instalado, que neste caso � o portugu�s, como demonstra a Figura 6.

Dados obtidos
com a transforma��o dim_data — **Figura 6.** Dados obtidos com a transforma��o dim_data.

A ETL desta dimens�o ser� a mais trabalhosa se comparada �s demais deste processo, pois as pr�ximas ter�o, t�o somente, a responsabilidade de mover os dados para a base anal�tica, j� que os dados deste case necessitam apenas da concatena��o dos campos DDD e telefone celular para gerar um campo �nico, formatado.

A dimens�o Produto

De acordo com os requisitos e regras de neg�cio propostos neste case, descritos na parte 1 deste artigo, a dimens�o �dim_produto� n�o possui a necessidade de que seus dados sejam versionados. Al�m disso, as informa��es sobre a categoria dos produtos ficar� nesta mesma dimens�o, uma vez que um produto sempre est� atrelado a uma mesma categoria. A ado��o de uma coluna para o c�digo do produto e outra para o c�digo da categoria do produto n�o � obrigat�ria, embora seja uma boa pr�tica. Dessa forma, a performance do processo de ETL � melhorada, pois um lookup em uma coluna do tipo inteiro � muitas vezes mais r�pido do que em uma coluna do tipo string. Nesta dimens�o fica claro que os atributos de produto e categoria est�o desnormalizados, ou seja, repetidos em todos os registros. Esta redund�ncia � uma das caracter�sticas do BI para agilizar a leitura dos dados sem se preocupar com o espa�o em disco gasto.

Com o objetivo de evitar repeti��o neste artigo, uma vez que o funcionamento do PDI est� esclarecido, a partir deste ponto n�o ser� mais especificado a todo step criado que este deve ser ligado ao fluxo da ETL por meio de um hop (seta).

Para criar a ETL respons�vel por popular a dimens�o dim_produto com os dados do sistema transacional � necess�rio realizar um conjunto de passos. Inicialmente, crie uma transforma��o e salve-a com o nome: �2-dim_produto�. Novamente, esta transforma��o ser� respons�vel por manter todo o fluxo que definiremos a partir de agora de forma que possamos execut�-la com maior agilidade.

O segundo passo � arrastar um componente Table input, d� o nome de �L� produto� e selecione no combo Connection a conex�o para a base Origem. Este componente � utilizado para ler os dados do banco de dados, via SQL.

Em seguida, clique em Get SQL select statement, selecione com um duplo clique a tabela �produto� e ent�o clique em Yes, para que o SQL seja montado com todos os nomes das colunas, ao inv�s de um simples, por�m n�o recomendado, �Select * from�. Fa�a um Preview dos dados e clique em OK.

Para recuperar o nome da categoria de produtos a que este produto est� relacionado, inclua no fluxo um step Database lookup, chame-o de �dsProdutoCategoria�, selecione a conex�o Origem e em Lookup table preencha com o nome da tabela em que se deseja fazer a consulta, �produtocategoria�. Em seguida, para habilitar o cache e carregar todo o conte�do desta tabela em mem�ria e, dessa forma, melhorar a performance, marque Enable cache e Load all data from table.

Na primeira tabela deste componente, The Keys(s) to lookup the value(s), indique os campos utilizados como chave neste lookup, equivalente � cl�usula Where de um SQL. Como indica a Figura 7, o campo Table field recebe �id� e o campo Field1 recebe �produtocategoria_id�, com Comparator �=�. Na segunda tabela deste componente, Values to return from the lookup table, s�o indicados os campos que se deseja buscar no banco de dados e o nome que se deseja atribuir a eles. No caso, Field recebe �dsNome� e New name recebe �dsProdutoCategoria�.

Componente Database Lookup — **Figura 7**. Componente *Database* *Lookup*, realizando uma busca pelo campo id da tabela produtocategoria e recuperando o nome da categoria do produto.

Na continuidade, inclua o step Select Values. Este step tem a finalidade de organizar o fluxo dentro do PDI, uma vez que � poss�vel renomear as colunas, exclu�-las do fluxo ou ainda alterar o seu tipo, precis�o e formato. Na primeira aba, chamada Select & Alter, clique em Get fields to select e em Clear and add all. Isto faz com que os nomes de todas as colunas sejam trazidos automaticamente, deixando os dados prontos para serem manipulados. Feito isso, renomeie a coluna �id�, para �produto_id� e �dsNome� para �dsProduto�, conforme a Figura 8. Na aba Remove, remova do fluxo as colunas �vlCompra�, �vlVenda� e �cdBarras� pois n�o precisaremos delas e ent�o clique em OK. Assim que o step for fechado, clique com o bot�o direito em Show input fields e verifique os campos que entraram no fluxo. Por fim, clique em Show output fields e verifique os campos que sa�ram deste step e formam o resultset.

Superados os passos anteriores, todos os dados da base transacional referentes ao produto est�o prontos. Para salv�-los na base anal�tica, arraste o componente Insert/Update, que antes de fazer o insert verifica se o registro j� existe na base. Caso exista, ele faz o update nos campos desejados. Para isso, edite o step, d� o nome de �dim_produto�, selecione a conex�o para a base Destino e em Target table preencha ou selecione em Browse o nome �dim_produto�. Da mesma forma que no componente de Database Lookup, na primeira tabela deste step, deve-se informar os campos-chave, no caso, �produto_id�. Na segunda tabela deste componente constam as colunas que far�o parte do Insert/Update. Observe a Figura 9.

Insert/Update
para persistir a dimens�o simples dim_produto — **Figura 9**. Insert/Update para persistir a dimens�o simples dim_produto.

Como boa pr�tica, � interessante que toda dimens�o tenha o seu primeiro registro com atributos sem valor, para que no momento da ETL da tabela fato, se porventura o lookup pelo id do produto falhar, o registro aponte para este registro default. Estes registros ficam persistidos no banco e evidenciam a falha nos dados, na l�gica ou no processamento de alguma ETL, ficando mais f�cil de perceber e corrigir a n�o conformidade. Para isso, inclua um componente Generate Rows e gere uma linha, mas ao inv�s de lig�-lo ao final do fluxo da ETL, fa�a com que ele seja outra fonte de dados para o step �dim_produto�. Os nomes e tipos das colunas devem ser os mesmos e estar na mesma ordem que os campos observados em Show input fields do step Insert/Update, como exp�e a Figura 10.

Gerando uma
linha com valores em branco — **Figura 10.** Gerando uma linha com valores em branco.

Por fim, execute a transforma��o, que ter� a apar�ncia observada na Figura 11. Perceba nos dados da base anal�tica que o registro default com dados nulos, oriundos do step Generate Rows, foi inclu�do antes dos outros, com o valor da coluna �SK_dimProduto� igual a 1. Caso esta ETL seja executada mais de uma vez, deixe o Generate Rows habilitado apenas na primeira, para que o insert/update n�o gere uma linha em branco a cada execu��o. Isto porque a condi��o do lookup em �dim_produto� nunca ser� satisfeita e seria inclu�do um novo registro com valores nulos, pois por defini��o, n�o se pode comparar qualquer valor a valores nulos.

Transforma��o 2-dim_produto
sendo executada — **Figura 11.** Transforma��o 2-dim_produto sendo executada.

A dimens�o Cliente � SCD

A partir dos requisitos e regras de neg�cio propostos neste case foi definido que a dimens�o dim_cliente tem a necessidade de que seus dados sejam versionados e que uma nova coluna seja criada, concatenando o DDD com o telefone no seguinte formato: (99) 9999-9999 ou (99) 99999-9999, dependendo se o telefone conta com 8 ou 9 d�gitos. Para popular esta dimens�o com os dados do sistema transacional, inicialmente crie uma transforma��o e salve-a com o nome: �3-dim_cliente�.

Com a transforma��o definida, arraste um componente Table input, d� o nome de �L� cliente�, selecione a conex�o para a base Origem em Get SQL select statement e aponte para a tabela cliente, trazendo os nomes de suas colunas. Para fins de confer�ncia, clique em Preview, visualize os dados obtidos e feche o step.

Para converter o inteiro �nrCelular� na string �dsCelular�, inclua o componente Calculator e crie uma linha para a primeira vari�vel, chamada, em New field, de �dsCelular�. Em Calculation, selecione Create a copy of field A. Depois, em Field A, selecione �nrCelular�, em Value type selecione string, em Length preencha �9� e em Conversion mask preencha com �#�. Para descobrir a quantidade de d�gitos do n�mero do telefone celular, crie uma linha para a segunda vari�vel, a coluna �tamanho_fone�, em Calculation selecione Return the length of a string A, em Field A selecione �dsCelular� e em Value type selecione Integer, conforme a Figura 12.

Calculator
para criar a string dsCelular e
recuperar a quantidade de caracteres desta string
em tamanho_fone — **Figura 12.** Calculator para criar a string dsCelular e recuperar a quantidade de caracteres desta string em tamanho_fone.

Visando distribuir o fluxo da ETL e recuperar o prefixo do telefone conforme a quantidade de caracteres, de 8 ou 9 d�gitos, inclua o step Filter rows e chame-o de �8 digitos?�. Ele � o famigerado if que toda linguagem de programa��o precisa ter. De acordo com uma condi��o, o fluxo segue para um ou outro lado. Ainda neste step, em The condition, selecione nos tr�s campos da condi��o a ser imposta os valores �tamanho_fone�, �=� e �8�. Caso esta condi��o seja verdadeira, o fluxo segue para o step que estiver selecionado em Send �true� data to step, caso contr�rio, o fluxo segue para o step selecionado em Send �false� data to step. Assim que os pr�ximos steps forem ligados ao Filter rows, o PDI perguntar� se o fluxo � para a condi��o verdadeira ou para a falsa.

A meta agora � separar o prefixo do sufixo do n�mero do telefone celular de 8 d�gitos. Para isto, inclua o componente Strings cut com o nome �Recorta fone 8 d�gitos�, ligando-o ao step Filter rows, criado no passo anterior, definindo que este caminho deve ser percorrido caso a condi��o definida seja verdadeira. De modo semelhante � Figura 13, crie duas novas colunas, a partir de �dsCelular�, chamadas �dsPrefixoCelular� e �dsSufixoCelular�. A primeira recebe o valor referente � substring da posi��o 0 at� a 4, enquanto a segunda recebe o valor referente � substring da posi��o 4 at� a 8.

String Cut,
para gerar prefixo e sufixo do n�mero de telefone com 8 digitos — **Figura 13.** String Cut, para gerar prefixo e sufixo do n�mero de telefone com 8 digitos.

Duplique o step criado no passo anterior a partir dos simples comandos de copiar e colar. Feito isto, ligue o step criado ao step Filter rows, adicionado no passo 4 deste t�pico, definindo que � para ser seguido caso a condi��o definida seja falsa. Chame-o de �Recorta fone 9 d�gitos� e altere os valores para que o prefixo receba valores dos caracteres 0 a 5, enquanto o sufixo, dos caracteres 5 a 9.

A �ltima tarefa � criar a nova string, concatenando as strings extra�das. Deste modo, inclua um novo step Calculator, ligue-o ao fluxo do fone de 8 d�gitos e preencha como na Figura 14. Repare que foram criadas duas constantes, �abre_parentesis� com o valor �(� e �fecha_parentesis� com o valor �) �, com um espa�o ap�s o par�ntese para facilitar a cria��o da string �dsFoneCel�, com o n�mero de telefone formatado.

Criando o campo
dsFoneCel — **Figura 14.** Criando o campo dsFoneCel, com formata��o prevendo prefixos com 4 ou 5 algarismos.

Um recurso interessante do PDI � fazer com que esses dois fluxos criados, ap�s o step Filter Rows, convirjam em um �nico step, unificando o fluxo dos dados na ETL. Isto s� ser� poss�vel, no entanto, se o resultset dos dois fluxos tiverem as colunas com o mesmo nome, na mesma ordem e com o mesmo tipo de dados. Para unificar o fluxo dos dados, fa�a o link do step �Recorta fone 9 d�gitos� criado no item 6 deste t�pico e vincule-o ao Calculator criado no item 7.

Com a finalidade de persistir os dados na SCD, isto �, uma dimens�o com versionamento dos dados, o step chamado Dimension lookup/update � necess�rio. Assim, inclua este step e chame-o de dim_cliente, selecione a conex�o de Destino e informe dim_cliente em Target table. Da mesma forma que foi feito nos steps de lookup, e Insert/Update, na aba Keys, deve-se informar os campos chave desta informa��o, que identificam o registro na base transacional. Neste caso, em Dimension field deve-se selecionar a coluna da base OLAP, cliente_id, e, em Field in stream, a coluna da base OLTP, id. Logo abaixo da aba Keys, em Technical key field, selecione a surrogate key SK_dimCliente, em Version field clique em nrVersaoRegistro, em Data range start field selecione dtInicioVigenciaRegistro e em Table daterange end clique em dtFimVigenciaRegistro, como demonstra a Figura 15. Com estas informa��es o PDI tem subs�dios para fazer o versionamento das informa��es de maneira automatizada, ajustando os valores do n�mero da vers�o e das datas in�cio e fim de vig�ncia dos registros.

Dimens�o de
Cliente preparada para ter seus registros versionados (SCD) — **Figura 15.** Dimens�o de Cliente preparada para ter seus registros versionados (SCD).

Na segunda aba, chamada Fields, faz-se o mapeamento das colunas afetadas versus as colunas do resultset. Uma terceira coluna, chamada Type of dimension update, exige um dos dois valores, Insert ou Update, para configurar a a��o que o componente executar� ao verificar o valor destes campos na dimens�o dim_cliente. Na primeira situa��o, caso o registro tenha sofrido altera��o com rela��o ao valor j� gravado no banco, um novo registro ser� inserido com o n�mero da vers�o acrescido em um. No segundo caso, o valor � simplesmente sobrescrito. Confira o mapeamento na Figura 16.

Dimens�o de
Cliente tendo seus registros versionados (SCD) caso qualquer coluna sofra
altera��o — **Figura 16.** Dimens�o de Cliente tendo seus registros versionados (SCD) caso qualquer coluna sofra altera��o.

Implementados os passos anteriores, execute a transforma��o, que se parecer� com a da Figura 17. Neste case, executado em um notebook pessoal com recursos limitados, foram lidas, transformadas e inclu�das 34.970 linhas em 21 segundos. Para finalizar a ETL desta dimens�o, verifique os dados obtidos e perceba que o componente Dimension lookup/update cria automaticamente o registro com valores nulos.

Dimens�o de
Cliente populada em poucos segundos — **Figura 17.** Dimens�o de Cliente populada em poucos segundos.

As dimens�es Vendedor e Nota Fiscal

Dando continuidade � cria��o das ETLs, as dimens�es dim_vendedor e dim_notafiscal devem ter seus dados populados, seguindo exatamente as mesmas t�cnicas vistas nos t�picos anteriores. Com o intuito de ganhar produtividade, reaproveite o trabalho j� criado nas primeiras ETLs para popular as dimens�es restantes. Por exemplo, para iniciar o desenvolvimento da ETL de Vendedor, salve com outro nome a de Cliente, pois s�o muito semelhantes. De igual forma, para agilizar a cria��o da transforma��o respons�vel por migrar as Notas Fiscais, salve com outro nome a ETL de Vendedor e fa�a as adapta��es necess�rias. Todas as transforma��es est�o dispon�veis no site da SQL Magazine.

Tabela Fato

A fato � a tabela central em um esquema estrela, contendo em sua chave prim�ria as chaves estrangeiras para todas as Dimens�es e em seus atributos as colunas referentes �s Medidas. Esta tabela � a mais importante de um cubo, pois � com base nela que o servidor de BI faz todos os c�lculos, como ser� explicado no t�pico �Modelo L�gico � Metadados do Schema�. Para preench�-la com os dados do sistema transacional, de forma semelhante a como procedemos anteriormente, crie uma transforma��o e salve-a com o nome: �6-ft_notafiscal_produto�. Assim como foi feito nos exemplos anteriores, arraste um componente Table input, d� o nome de notafiscal_produto, selecione a conex�o para a base Origem e busque todas as colunas. Isto permitir� que voc� manipule as informa��es. Em seguida, acrescente ao fluxo o componente Database lookup e recupere as colunas de notafiscal da base Origem, conforme a Figura 18.

Lookup em notafiscal — **Figura 18**. *Lookup* em notafiscal, na base OLTP, pelo id.

Nesta etapa do processo, os ids utilizados na base transacional j� foram obtidos, sendo necess�ria a busca dos ids correspondentes nas respectivas dimens�es da base anal�tica. A recupera��o da chave do registro na dimens�o, a SK, � feita normalmente com o componente Database lookup, entretanto o lookup nos casos de dimens�es SCD, que t�m seus dados versionados, exige uma aten��o especial, uma vez que se deve recuperar o id do registro vigente na data em que ocorreu cada fato, e n�o o registro vigente no momento da execu��o do processo.

A maneira mais simples de fazer o lookup em uma dimens�o SCD � incluir um step Dimension lookup/update, que como o pr�prio nome diz, pode ser utilizado tanto para persistir quanto para fazer o lookup em uma dimens�o SCD. Para o lookup, somente � necess�rio preencher a primeira aba, de acordo com a Figura 19. � importante ater-se ao campo Stream Datefield, que deve receber o nome da coluna com a data do fato. Este step retorna o valor da chave da dimens�o em quest�o, marcada em Technical Key Field, neste caso SK_dimVendedor.

Lookup em uma dimens�o SCD, retorna o
SK_dimVendedor vigente no momento em que o fato ocorreu — **Figura 19.** *Lookup* em uma dimens�o SCD, retorna o SK_dimVendedor vigente no momento em que o fato ocorreu.

Para recuperar a chave do registro nas outras dimens�es, crie o step Dimension lookup/update para a dim_cliente, que � SCD, e os steps Database lookup para as dimens�es simples dim_notafiscal, dim_produto e dim_data. Nos lookups de notafiscal e produto, lembre-se de deixar o valor um como default para evidenciar a falha caso n�o encontre o registro, e no lookup da data, o default, neste caso, seria �20080101�.

Antes de gravar os dados, deve-se avaliar se o cubo ser� insumo para an�lises que levar�o em conta, na maioria das vezes, o valor total de compra e venda, ou seja, o valor multiplicado pela quantidade de produtos, ou se ser� mais comum a necessidade de obter estat�sticas levando em conta a quantidade vendida de cada produto em uma nota fiscal. Para este case, entendeu-se que a quantidade � de menor import�ncia, ent�o o processo deve agilizar ao m�ximo as pesquisas referentes aos valores totais. Para isto, as colunas de valor ser�o persistidas j� multiplicadas pela quantidade vendida. Estes c�lculos, como ser� visto na continuidade, podem ser feitos no cubo por meio de Calculated Members, com uma f�rmula entre as colunas f�sicas existentes, dando origem a um valor calculado, sem a necessidade de t�-los como atributo da tabela fato. Assim, inclua um step Calculator, conforme a Figura 20.

Valores totais
sendo calculados — **Figura 20.** Valores totais sendo calculados, sendo que o valor do lucro ser� obtido no modelo l�gico.

Para persistir os dados da tabela fato ft_notafiscal_produto, acrescente o componente Table output. Tamb�m poderia ser utilizado o step Insert/Update para esta tarefa. Por fim, execute a transforma��o e migre 156 mil linhas em pouco mais de um minuto, como demonstra a Figura 21. Esta seria tanto a carga inicial quanto a ETL di�ria, lembrando que em um ambiente de produ��o, devem ser lidos apenas os registros inclu�dos ou alterados ap�s o �ltimo processo de ETL, tornando o processo ainda mais r�pido.

ETL para a
tabela fato a uma velocidade de 2.400 registros inclu�dos por segundo — **Figura 21.** ETL para a tabela fato a uma velocidade de 2.400 registros inclu�dos por segundo.

Automatizando as transforma��es utilizando Jobs

Para executar v�rias transforma��es na sequ�ncia correta e dispar�-las atrav�s de uma �nica a��o, o PDI conta com a funcionalidade dos Jobs, apresentada na Figura 22. Al�m disso, os Jobs podem executar tarefas de gerenciamento de arquivos, de FTP, de envio de e-mails em caso de sucesso ou, em caso de falha, enviar, por e-mail, os arquivos de log gerados pelo Pentaho. � bastante utilizado tamb�m para executar SQLs e outras atividades muito �teis como a possibilidade de se verificar se uma tabela j� existe, para que o processo ent�o a crie automaticamente ou confirmar se determinado web service est� no ar antes de executar determinada a��o.

Job
criado para executar todas as transforma��es na sequencia esperada — **Figura 22.** *Job* criado para executar todas as transforma��es na sequencia esperada.

Os Jobs, bem como as transforma��es, podem ser chamados a partir da linha de comando (pelos componentes Pan e Kitchen), via HTTP (pelo Carte), pelas interfaces web (PUC e PAC) ou ainda, executados automaticamente em hor�rio e periodicidade configur�veis, por meio de um BI-Server, que ter� algumas das suas principais funcionalidades brevemente descritas a seguir.

Instalando o BI-Server

O BI-Server refere-se, como o pr�prio nome diz, � camada servidora da Su�te Pentaho, que � composta pelo Pentaho User Console (PUC) e pelo Pentaho Administrator Console (PAC). Juntos, s�o respons�veis pela seguran�a e regras de neg�cio, sendo constitu�dos por diversos componentes. Os principais s�o: o Tomcat, como servidor de aplica��o para o PUC; o Jetty, como servidor light de aplica��o para o PAC; o Hibernate, para o mapeamento objeto-relacional; o Hypersonic, como SGBDR; o Quartz, para agendamentos de processos; e o Spring, como framework de desenvolvimento Java. O PUC conta ainda com as bibliotecas de todas as ferramentas da su�te, como o PDI, Pentaho Analysis Server (Mondrian OLAP Server), Pentaho Report Designer (JFreeReport) e Pentaho Data Mining (Weka).

Como todos os componentes s�o de c�digo aberto e amplamente difundidos no mercado, a configura��o � simples e as possibilidades de adapta��es s�o ilimitadas. Um recurso importante � a integra��o com autenticadores sigle sign-on (SSO) de usu�rios como LDAP, Active Directory ou com aplica��es Java via Spring.

Outro recurso importante para viabilizar o trabalho em equipe e facilitar a manuten��o das ETLs � a possibilidade de armazen�-las em um reposit�rio Pentaho no banco de dados ao inv�s de, como feito neste artigo, armazen�-las em arquivos. Para criar este reposit�rio, basta acessar no PDI o menu Tools > Repository > Connect. Em Repository, clique no bot�o com o sinal de + e crie a configura��o para o reposit�rio a ser criado. Em seguida, selecione Kettle database repository, configure a conex�o com o SGBDR desejado, d� um nome para o reposit�rio e, por fim, clique em Create or Upgrade. O reposit�rio ser� criado e estar� pronto para armazenar todo o processo de ETL, bastando para isso conectar-se a ele pelo PDI.

Para que o BI-Server tamb�m possa acessar as ETLs deste reposit�rio, �til para a futura automatiza��o da execu��o dos processos, ap�s executado o passo 1 deste t�pico, deve-se configurar o arquivo biserver-ce/pentaho-solutions/system/kettle/settings.xml, alterando o repository.type de �files� para �rdbms�, incluindo em repository.name o nome com que o reposit�rio foi criado e ajustando, caso necess�rio, o usu�rio do reposit�rio, em repository.userid, e sua senha, em epository.password.

Para instalar e configurar o BI-Server, inicialmente fa�a o download da �ltima vers�o do BI-Server, que na escrita deste artigo � a 4.8.0-stable, no endere�o indicado na se��o Links e efetue a configura��o do servidor da mesma forma que foi indicada para o PDI, simplesmente descompactando o arquivo .zip. Repare que foram criadas duas pastas, sendo uma para o PAC e outra para o BI-Server e o PUC. Para que o BI-Server tenha acesso �s bases de dados envolvidas, complete a configura��o incluindo o driver JDBC, mencionado na primeira parte deste artigo no t�pico �Drivers JDBC�, em bi-server-ce\tomcat\lib.

Dependendo do sistema operacional do servidor, execute o BI-Server simplesmente clicando em start-pentaho.bat ou via linha de comando, executando /start-pentaho.sh. A solu��o pode ser acessada pelo endere�o http://localhost:8080 utilizando o usu�rio padr�o joe e a senha password. Ap�s a conex�o estabelecida, altere o idioma do PUC pelo menu View > Languages > Portugu�s Brasil, e pelo menu Visualizar > Navegador, torne vis�vel a parte esquerda da tela, onde � poss�vel navegar pelas pastas com as solu��es criadas e disponibilizadas ao usu�rio final. Para armazenar os arquivos deste case, clique com o bot�o direito do mouse nesta �rea e em Nova Pasta crie uma pasta chamada SQLMagazine.

Ainda no PUC, para incluir no BI-Server um navegador OLAP feito com jQuery, acesse o menu Ferramentas > Pentaho Market Place e instale o plugin Saiku Analytics, clicando no bot�o Install correspondente, tal como se visualiza na Figura 23.

Instalando o
Saiku Analytics via Pentaho Market Place — **Figura 23.** Instalando o Saiku Analytics via Pentaho Market Place.

Para publicar no BI-Server schemas ou reports por meio de suas respectivas ferramentas Pentaho Schema Workbench e Pentaho Report Designer, deve-se informar a senha de publica��o cadastrada no arquivo biserver-ce/pentaho-solutions/system/publisher_config.xml, como demonstra a Listagem 1. Neste caso, a senha foi definida como 1234, sem criptografia.

Listagem 1. Configurando a senha para publica��es.


<publisher-config>
       <publisher-password>1234</publisher-password>
  </publisher-config>

Para facilitar toda a configura��o das fontes de dados, o Pentaho trabalha com conex�es JNDI. Isto quer dizer que � dado um nome para a configura��o criada para a conex�o com o banco e as ferramentas da su�te podem utiliz�-la. A administra��o destas conex�es � feita pela interface do PAC e permite que a aplica��o de homologa��o n�o precise de nenhuma altera��o quando passar para o ambiente de produ��o, pois as conex�es ter�o o mesmo nome, por�m apontando para bases distintas.

Para seguir com a cria��o de uma conex�o JNDI no BI-Server, necess�ria para que o cubo a ser criado tenha acesso � base de dados anal�tica, inicie o servi�o do PAC de acordo com o SO executando administration-console\start-pac.bat ou administration-console/start-pac.sh. Este servi�o � provido pelo servidor light de aplica��es Jetty, que pode ser acessado pelo mesmo endere�o que o BI-Server na porta 8099. Neste case, o servi�o do Pentaho Administrator Console est� dispon�vel no endere�o http://localhost:8099/ atrav�s do usu�rio admin e da senha password. Pela interface do PAC s�o gerenciados, na primeira aba, Users & Roles, os Usu�rios e seus Grupos, enquanto na segunda aba, Databases Connections, s�o gerenciadas as conex�es JNDI. Na terceira aba, Services, o cache de diversos servi�os � administrado, enquanto que na quarta e �ltima aba, Scheduler, s�o gerenciados os processos agendados.

Para criar a conex�o JNDI (vide Figura 24), clique em Database Connections e adicione uma conex�o com o nome �SQLMagazine�. De acordo com o driver JDBC instalado, selecione em Driver Class com.mysql.jdbc.Driver e preencha a URL com a string de conex�o JDBC jdbc:mysql://localhost:3306/dw_magazine_setorial, que foi criada obedecendo ao formato: jdbc:SGBDR:endere�o: porta/database.

Testando a
conex�o JNDI criada no BI-Server — **Figura 24.** Testando a conex�o JNDI criada no BI-Server, via PAC.

Modelo L�gico � Metadados do Schema

Vencidas as etapas anteriores, os dados do datamart de �Vendas� est�o prontos para serem visualizados em um cubo multidimensional, restando apenas as tarefas de criar e publicar a camada de metadados, necess�ria para que o servidor OLAP, o Mondrian, possa converter adequadamente as queries multidimensionais MDX em diversas queries SQL ANSI, se utilizando de suas fun��es de agrega��o como group by, sum, count, max, min, avg, etc., submetendo-as, posteriormente, ao banco de dados. � dentro deste servidor OLAP que s�o gerenciados, por exemplo, os c�lculos necess�rios para a extra��o das informa��es geradas pelo cubo, feitos a partir das Medidas elencadas nesta modelagem, as quais se referem a atributos da tabela fato, central no esquema estrela.

A camada de metadados possibilita que sejam usados nomes mais intuitivos e f�ceis de serem compreendidos pelos usu�rios, que n�o est�o habituados com a nomenclatura utilizada em um banco de dados. Al�m disso, faz parte desta modelagem, embora n�o seja foco deste artigo, o controle de acesso ao Schema, determinando a visibilidade de cubos, dimens�es, hierarquias e medidas por usu�rios e grupos de usu�rios.

Esta modelagem l�gica nada mais � que um arquivo no formato XML, respons�vel pelo mapeamento da estrutura f�sica e pela defini��o do formato em que as informa��es dever�o ser apresentadas. Este mapeamento cont�m um Schema, que por sua vez pode ser composto por v�rios Cubos. Neste case, temos o Schema �Vendas� e o cubo de �Produtos Vendidos�, recordando que um cubo � formado por uma tabela fato, diversas dimens�es e ao menos uma medida. Para contemplar todos os requisitos deste case, ser�o necess�rias as dimens�es Cliente, Vendedor, NotaFiscal, Produto e Data, al�m das medidas Quantidade, Valor Compra, Valor Venda e da medida calculada Valor Lucro.

Vale registrar que toda dimens�o ter� uma ou mais hierarquias, que servem para criar agrupamentos. Neste case, teremos hierarquias em Vendedor, com os n�veis Filial e Vendedor e em Produto, com n�veis para Categoria e Produto. Seguindo os mesmos princ�pios, os Clientes poderiam estar agrupados por UF, criando-se uma hierarquia com os n�veis UF e Cliente.

Pentaho Schema Workbench

A ferramenta da su�te que auxilia na cria��o do XML do esquema � o Pentaho Schema Workbench (PSW). Para criar a parte l�gica do cubo, fa�a o download da �ltima vers�o, atualmente a 4.4.0, no endere�o indicado na se��o Links e proceda a configura��o, tal como realizado com o PDI. � necess�ria tamb�m a c�pia do .jar do JDBC e a cria��o da conex�o para a base anal�tica, conforme vistos no t�pico �Download, Instala��o e Configura��o do PDI�, na primeira parte deste artigo. Esta ferramenta est� disponibilizada no Sourceforge, dentro do projeto Mondrian, ao inv�s de estar na su�te Pentaho. Isto porque ela � utilizada por outras ferramentas de Open Source Business Intelligence (OSBI).

Finalizada a configura��o do PSW, � necess�rio criar e publicar no BI-Server o arquivo com os metadados do cubo Vendas. Para isso, crie um Schema e salve-o com o nome �SQLMagazine.xml�, e, ent�o, na parte superior esquerda da tela do PSW, clique em Schema e no campo name, ao lado direito da tela, preencha com o nome �Vendas�.

Em seguida, clique com o bot�o direito em Schema e ent�o em Add Cube. Clique no cubo criado e d� o nome de �Produtos Vendidos�. Para entender melhor o que est� acontecendo, a cada passo aqui elencado, verifique o fonte do arquivo gerado com o nome SQLMagazine.XML. � recomendada a utiliza��o de uma ferramenta especializada em edi��o de arquivos XML, com realce de sintaxe, o que facilita a descoberta de n�o conformidades no c�digo.

Para criar a dimens�o Cliente, clique com o bot�o direito no cubo e ent�o em Add Dimension. Logo ap�s, clique na dimens�o criada e d� o nome de �Cliente�. Na sequ�ncia, para incluir a hierarquia Cliente na dimens�o de mesmo nome, clique com o bot�o direito nesta dimens�o e ent�o em Add Hierarchy, dando a esta o nome de �Cliente�. Para vincular a dimens�o do cubo com a tabela do banco de dados, clique com o bot�o direito na hierarquia criada e depois em Add Table, selecionando em name, a tabela dim_cliente.

Continuando o v�nculo da dimens�o com a tabela correspondente, clique na dimens�o Cliente e selecione em foreignKey a coluna SK_dimCliente, conforme a Figura 25. Em seguida, siga o mesmo procedimento que o item anterior, clicando na hierarquia Cliente, mas no campo primaryKey, conforme a Figura 26.

Mapeando a
dimens�o Cliente — **Figura 25.** Mapeando a dimens�o Cliente.

Mapeando a
hierarquia Cliente — **Figura 26.** Mapeando a hierarquia Cliente.

Para adicionar o n�vel da hierarquia Cliente, clique com o bot�o direito nesta hierarquia e em Add Level. Em column, selecione �cliente_id� e em nameColumn, selecione �dsNome�, como mostra a Figura 27. Repare que o fato de indicar qual � a coluna chave faz com que as dimens�es SCD tenham o mapeamento igual �s dimens�es simples. Para que o mapeamento seja considerado funcional, a sua tabela fato deve ser definida, como alertado ao clicar no cubo Produtos Vendidos, pela mensagem apresentada em vermelho �Fact name must be set�.

Mapeando o
n�vel Cliente na hierarquia Cliente da Dimens�o Cliente — **Figura 27.** Mapeando o n�vel Cliente na hierarquia Cliente da Dimens�o Cliente.

Para incluir a tabela fato no mapeamento, clique com o bot�o direito sobre o cubo Vendas, em Add Table e em name, selecione �ft_notafiscal_produto�. Feito isso, a mensagem de erro ao clicar no cubo passa a ser �Cube must contain mesures�, indicando que faltam informa��es sobre as Medidas para que o mapeamento seja considerado v�lido.

Com a finalidade de incluir as Medidas, clique com o direito no cubo Vendas. Em Add Measure inclua a Medida com o nome �Quantidade� e, em aggregator, selecione �sum�, em column, �qtProduto� e em datatype, �integer�. Siga o mesmo procedimento para criar as Medidas �Valor Compra� e �Valor Venda�, com a diferen�a que estes �ltimos t�m Numeric como datatype e totalizam, respectivamente, as colunas �vlCompra� e �vlVenda�. Perceba, neste momento, que o mapeamento est� funcional, pois a mensagem de alerta se apagou.

Com o intuito de criar a medida calculada que informar� o lucro obtido, que n�o est� persistido no banco de dados, clique com o bot�o direito no cubo �Produtos Vendidos� e em Add Calculated Member. Em name, preencha com �Valor Lucro� e em formula|formulaElement, insira a f�rmula �[Measures].[Valor Venda] - [Measures].[Valor Compra]�.

Para criar a dimens�o Vendedor, siga os passos de 3 a 7 deste t�pico, com a diferen�a de que esta ter� uma hierarquia e dois n�veis, um para a Filial e outro para o Vendedor. Desta forma, os vendedores de uma filial estar�o sempre agrupados. Continue seguindo os mesmos passos do mapeamento da dimens�o Vendedor e crie a camada l�gica para a dimens�o dim_produto, que ter� um n�vel para Categoria e outro para Produto. Crie tamb�m a camada l�gica para a dimens�o dim_notafiscal, que ter� um �nico n�vel na hierarquia. Observe a Figura 28.

Mapeando a
hierarquia de Produto entre os n�veis Categoria e Produto — **Figura 28.** Mapeando a hierarquia de Produto entre os n�veis Categoria e Produto.

Finalizando o mapeamento, crie a dimens�o de nome �Data� com o valor de type igual a TimeDimension, ao inv�s do valor default StandardDimension e ent�o inclua a hierarquia chamada Data, que possui em seu primeiro n�vel o Ano, com LevelType igual a TimeYears. Os n�veis Trimestre, M�s e Dia seguem a mesma l�gica, alterando o valor de LevelType para TimeQuarters, TimeMonths ou TimeDays, respectivamente. Isto permite ao BI-Server uma perfeita representa��o dos dados temporais, dentro de uma timeline.

Para publicar os metadados no BI-Server, clique em Publish no menu File do PSW e insira os dados de publica��o, de acordo com a Figura 29. Em Publish Password, insira a senha configurada na Listagem 1, informe o usu�rio default joe, a senha password e clique em Ok.

Autentica��o do
PSW exige a senha do usu�rio e a senha de publica��o — **Figura 29.** Autentica��o do PSW exige a senha do usu�rio e a senha de publica��o.

Finalizando a publica��o dos metadados, na tela que ser� aberta, selecione a pasta em que deseja salvar o XML, neste case a pasta SQLMagazine, criada no passo 2 do t�pico �Instalando o BI-Server�. Como apresenta a Figura 30, em Pentaho or JNDI Data Source, preencha com o nome da conex�o criada no PAC, demonstrada no item 5 do t�pico �Instalando o BI-Server�, e marque a op��o Register XMLA Data Source. Isto faz com que o PSW, al�m de copiar o XML para o local especificado, tamb�m registre automaticamente no Mondrian que este Schema foi mapeado, em biserver-ce/pentaho-solutions/system/olap/datasources.xml. Por fim, clique em Publish e aguarde a mensagem Published Successful.

Selecionando o
local para gravar o arquivo XML com o schema criado — **Figura 30.** Selecionando o local para gravar o arquivo XML com o schema criado.

Ap�s a publica��o dos metadados � necess�rio fazer um refresh no cache do Mondrian e para isto algumas alternativas est�o dispon�veis. Uma destas alternativas �, dentro do PUC, pelo menu Ferramentas > Atualizar > Mondrian Schema Cache. O mesmo resultado pode ser obtido dentro do PAC, na aba Services > Refresh BI Server, clicando no bot�o Mondrian Cache.

Navegador OLAP � Saiku Analytics

Encerrados os passos anteriores, o schema est� publicado e dispon�vel para que as an�lises sejam feitas, demonstrando o potencial que uma aplica��o de Business Intelligence oferece. Entretanto, para isso, � necess�ria a utiliza��o de uma ferramenta OLAP, que permite �navegar� no cubo e criar an�lises multidimensionais.

Na atual vers�o livre do Pentaho, em sua instala��o default, o navegador OLAP dispon�vel � o JPivot. Entretanto, este navegador � tido como deprecated, e n�o estar� dispon�vel nas pr�ximas vers�es da su�te. Diante disso, como alternativa, ser� utilizado neste case o plugin Saiku Analytics, que � um navegador OLAP mais atrativo e funcional. Cabe registrar que a vers�o paga do Pentaho conta com o Pentaho Analysis, um navegador OLAP ainda mais completo.

Caso o Pentaho apresente um comportamento inesperado quando os passos elencados adiante forem seguidos, leia o que o log descreve, armazenado em biserver-ce/tomcat/logs/catalina.out, pois costuma ser bastante elucidativo.

Para analisar os dados com o Saiku Analytics, na barra de ferramentas do PUC, clique no �cone vermelho, de nome New Saiku Analytics. Feito isto, ser� aberta uma aba com o navegador OLAP, que permite criarmos an�lises nos Schemas e Cubos publicados. Para permitir melhor visualiza��o deste plugin em uma nova aba do browser, clique duas vezes na aba criada dentro do PUC.

Agora selecione no combo chamado Cubos, dentro do Schema Vendas, o cubo Produtos Vendidos. As dimens�es e medidas ser�o apresentadas logo abaixo deste combo, permitindo que os n�veis de suas hierarquias sejam selecionados com um clique e ent�o arrastados e soltados em Columns, Rows ou Filters, de acordo com o resultado desejado. Na Figura 31 foi totalizado o lucro por filial, arrastando Valor Lucro para Columns e Filial para Rows.

Criando a
primeira an�lise OLAP no Saiku Analytics — **Figura 31.** Criando a primeira an�lise OLAP no Saiku Analytics.

Para que os eixos sejam invertidos, ou seja, os n�veis que estiverem dispostos em Columns sejam dispostos em Rows e vice-versa, clique em Swap axis na barra de ferramentas do Saiku. Ap�s, clique no �cone Toggle Chart e veja o gr�fico gerado (Figura 32).

**Figura 32.** Gr�fico gerado automaticamente.

Incrementando a an�lise, clique novamente em Swap axis e em Toggle Chart e acrescente o Ano junto �s colunas. Em seguida, clique na lupa, ao lado do Ano, selecione os anos desejados, de 2010 a 2012, confirme com OK e verifique o resultado. Na sequ�ncia, inclua a coluna Vendedor e tenha um resultado como o exposto na Figura 33.

Acrescentando o
atributo �Ano� como coluna — **Figura 33.** Acrescentando o atributo �Ano� como coluna.

Conclu�das as etapas elencadas neste case percebe-se, navegando no cubo com a ferramenta OLAP, que s�o in�meras as possibilidades de cruzamento de informa��es. A partir de ent�o � poss�vel constatar o quanto estas funcionalidades s�o valiosas e desejadas por empresas de todos os portes, ramos e nacionalidades.

Conclus�o

Este artigo teve como principal objetivo desmistificar Business Intelligence, demonstrando que BI n�o � um �bicho de sete cabe�as�. Dentre as solu��es dispon�veis no mercado para implementa��o de um processo de BI, a escolha de uma delas � sempre uma tarefa de especial relev�ncia. Neste contexto, para contemplar os requisitos propostos no case fict�cio, optou-se pela su�te Pentaho, que se revela como uma excelente op��o, pois al�m de ser uma ferramenta completa e escal�vel, � gratuita.

Na cria��o deste processo de BI, in�meras decis�es tiveram de ser tomadas, sempre vislumbrando contemplar os requisitos elencados pelo cliente. A necessidade de tomar tais decis�es evidencia que o BI se enquadra na categoria de Servi�os, pois diferente dos tradicionais Produtos �de prateleira�, as solu��es s�o desenvolvidas sob medida, considerando as necessidades de cada projeto, na medida em que os ambientes, neg�cios e requisitos se diferem.

Um dos fatores mais atrativos do Pentaho � o fato de ser altamente escal�vel, permitindo que o projeto de BI se inicie com uma configura��o de hardware pequena e, conforme o projeto evolui, esta configura��o possa ser melhorada. Para maximizar a performance, existe a possibilidade de executar as ETLs em um cluster de servidores ou de termos um cluster de servidores para fazer o cache dos dados de todas as queries e seus par�metros, por exemplo. Outra t�cnica muito �til � no mapeamento da tabela fato, utilizando-se de tabelas agregadas, que armazenam os valores pr�-computados dos agrupadores proporcionados pelos cubos, de acordo com as dimens�es, hierarquias e medidas definidas nele. A estrutura de cada uma destas tabelas e a devida query para gerar os seus dados podem ser criados com a utiliza��o da ferramenta Pentaho Aggregation Designer.

Vale registrar, no entanto, que os conceitos e t�cnicas aqui apresentados s�o suficientes para contemplar os requisitos elencados pelos clientes, na maioria dos projetos de BI. Entretanto, a cria��o de um cubo � apenas a primeira parte deste desenvolvimento, satisfazendo os usu�rios experientes e conhecedores do neg�cio com o poder de an�lise que uma ferramenta OLAP proporciona. Agora que os dados est�o prontos para serem �consumidos�, provavelmente outras formas de sa�das ser�o necess�rias, focadas nos diversos perfis de usu�rios que cada neg�cio exige. Relat�rios e dashboards, por exemplo, mostram informa��es em formatos pr�-estabelecidos, sempre �teis para o acompanhamento de determinados indicadores. Entretanto, o desenvolvimento destes e sua correta compreens�o demandam novos artigos, assim como as t�cnicas de otimiza��o, configura��es e deploy para o ambiente de produ��o.

Para os leitores que tiverem interesse em aprofundar seu conhecimento acerca de todas as ferramentas da su�te, aconselha-se a leitura da documenta��o por ela disponibilizada. A documenta��o pode ser acessada no PUC pelo menu Ajuda > Documenta��o, onde est�o os tutoriais para instala��o e upgrade do BI-Server, al�m de guias para administra��o e desenvolvimento Pentaho.

No atual est�gio de desenvolvimento da cultura de Business Intelligence, percebe-se que muitas empresas t�m optado, com sucesso, pela contrata��o de consultorias para criar um processo e implantar suas solu��es de BI. Este � um cen�rio bastante atrativo, visto que a capacita��o da equipe interna ocorre no decorrer deste processo e em pouco tempo ela ser� capaz de suprir todas as necessidades de manuten��o e at� de desenvolvimento.

Saiu na DevMedia!

D� o pr�ximo passo ap�s o HTML/CSS!:
Nesta s�rie falamos sobre o que vem depois do HTML/CSS. Saiba o que � requisi��o, resposta e se prepare para os seus primeiros passos na programa��o back-end.

Saiba mais sobre Business Intelligence ;)

Guias de Engenharia de Software:
Encontre aqui os Guias de estudo sobre os principais temas da Engenharia de Software. De metodologias �geis a testes, de requisitos a gest�o de projetos!

Confira outros conte�dos:

Por Eduardo Em 2013

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Sabrina Cruz

Novamente Eduardo. Adorei. Tamb�m trabalho com o Pentaho...

há +1 ano

Eduardo Carvalho

Que bacana Sabrina! Fico contente. Conte mais! eduardo@e-Setorial.com.br
abra�o

há +1 ano

Ricardo Pestana

Bom dia,

Estou usando Pentaho 8.0 CE, e estou tendo problemas para ler um arquivo texto delimitado por v�rgula com mais de 220 colunas.

Gostaria de saber se h� alguma limita��o de n�mero de colunas, pq aparentemente h� pq quando fa�o um preview do arquivo as ultimas colunas nem tem seu titulo (nome) exibido. Curioso at� que comecei a diminuir o tamanho dos nomes das colunas e come�ou a ler mais colunas mas tb atingi um limite aparentemente...

H� essa limita��o ou se tem alguma configura��o que posso fazer pra contornar esse problema?

Obrigado,

há +1 ano

Eduardo Carvalho

Oi Ricardo. Pesquise por Metadata Injection, que pode te ajudar. Qualquer coisa entre em contato pelo eduardo@e-Setorial.com.br. abra�o

há +1 ano

M�todo para iniciantes

sem base nenhuma

Mentorias individuais

quando voc� travar

+40 projetos reais

para o seu portf�lio

+5000 exerc�cios

para fixar o conte�do

Suporte IA

que te ensina

No code e automa��es

pra entregar mais r�pido

Veja os resultado dos nossos alunos

Conquistas reais de quem est� aplicando o m�todo

Conhecer Planos

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Business Intelligence com Pentaho

Ser�o descritos os passos necess�rios para a cria��o de um processo de ETL, bem como da modelagem e publica��o.

Conex�es JNDI

A dimens�o Tempo

A dimens�o Produto

A dimens�o Cliente � SCD

As dimens�es Vendedor e Nota Fiscal

Tabela Fato

Automatizando as transforma��es utilizando Jobs

Instalando o BI-Server

Modelo L�gico � Metadados do Schema

Pentaho Schema Workbench

Navegador OLAP � Saiku Analytics

Conclus�o

Saiu na DevMedia!

Saiba mais sobre Business Intelligence ;)

Links

Confira outros conte�dos:

<Perguntas frequentes>

Por onde devo iniciar os estudos?

Em quanto tempo vou me tornar um programador?

Eu preciso de um diploma de faculdade para come�ar a atuar como programador?

Por que a programa��o se tornou a profiss�o mais promissora da atualidade?

Quais s�o os principais diferenciais da DevMedia?

O que eu irei aprender estudando pela DevMedia?

Quais as vantagens de aprender programa��o atrav�s da linguagem JavaScript?

A plataforma oferece certificados?

A plataforma tem suporte ao aluno, como funciona?

A DevMedia me forma como programador Full Stack?

Tem hor�rio para as aulas?

Por que a DevMedia n�o usa videoaulas em sua did�tica?

Preciso de um computador espec�fico para estudar na DevMedia?

Eu consigo estudar pelo celular?

A DevMedia tem aplicativo?

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

Quais s�o os planos de assinatura dispon�veis?

Adquirindo o plano, terei acesso a todo o conte�do?

A plataforma tem planos vital�cios?

A DevMedia tem fidelidade?

Como funciona o cancelamento?

Como excluir meus dados da plataforma?