Pentaho BI - Conhecendo a Plataforma, Arquitetura e Infraestrutura

A su�te Pentaho de Intelig�ncia de Neg�cios � um conjunto de softwares livres que serve para criar solu��es de BI, de ponta a ponta, conforme mostrado na Figura 1.

Figura 1: Solu��o de BI com Pentaho Open BI Suite

Est�o dispon�veis componentes para execu��o de processos de ETL, que fazem carga de Data Warehouses, cria��o de relat�rios pr�-formatados e ad hoc, cubos OLAP, pain�is de instrumentos (Dashboards) e garimpagem de dados (Data Mining). Todos esses recursos podem ser combinados e acionados sequencialmente para cria��o de solu��es mais sofisticadas. Al�m disso, a plataforma executa todas as solu��es de BI como servi�os e, por isso, � poss�vel prover acesso �s solu��es para sistemas externos, via web services, atrav�s de um mecanismo baseado em SOAP/WSDL/UDDI.

A su�te se divide em duas partes: a Pentaho BI Plataform propriamente dita, implementada na forma de um servidor web, e clientes de desenvolvimento, que criam conte�do para a plataforma.

O Pentaho � um software patenteado nos EUA: os fundadores da empresa queriam desenvolver um pacote Java que pudesse ser usado para construir qualquer solu��o de BI. Eles queriam isso porque achavam que nenhuma ferramenta era flex�vel e poderosa o bastante para atender qualquer necessidade, de qualquer empresa. Eles acreditavam que devia haver uma maneira melhor de montar solu��es de BI, e que seria poss�vel fundar uma empresa sobre essa "maneira melhor". E foi o que eles fizeram.

Depois de desenvolver a primeira vers�o desse pacote, eles montaram uma demonstra��o de como us�-lo. Eles chamaram esse exemplo de "Pre-Configured Installation", ou PCI, mas ela fez tanto sucesso que a Pentaho foi for�ada a adot�-la como produto e a evolu�-la. Essa trilha levou ao Pentaho BI Server, que cont�m o console de usu�rio (Pentaho User Console, PUC) e o console de administra��o (Pentaho Administration Console, PAC). E hoje em dia, quando falamos a plataforma Pentaho estamos nos referindo indistintamente tanto � esse "sub-produto" como a plataforma propriamente dita.

A Plataforma � uma aplica��o em JSP que roda sobre um servidor de aplica��es Java - at� a vers�o 1.7GA o default era JBoss; a partir da 2.0GA passou a ser Tomcat. A plataforma se divide em duas partes:

O Solution Engine e seus componentes, s�o respons�veis pela execu��o e controle das solu��es. A base de seu funcionamento � uma m�quina de workflow interna, que sequencia as chamadas de cada componente para o resultado desejado.
O Portal, a por��o do Pentaho vis�vel ao cliente final. Atrav�s dele o cliente navega entre as solu��es e aciona a execu��o de qualquer recurso, como um relat�rio ou dashboard.

A partir da vers�o 2.0 algumas fun��es foram movidas do Portal para o Administration Console, uma outra aplica��o web e parte da su�te.

O BI Server oferece alguns servi�os pr�-configurados, como registro de solu��es, controle de acesso, relat�rios ad-hoc, agendamentos etc. Finalmente, a modularidade do portal permite que novos servi�os sejam criados e implementados livremente.

A vers�o 3.0 incorporou um mecanismo de plugins que tornou muito mais f�cil expandir as funcionalidades da plataforma, ela continua a mesma, em ess�ncia, mas com a camada de conex�o de plugins. A plataforma opera atrav�s de v�rios Servlets chamados Actions.

Todos os softwares da Suite Pentaho s�o programas Java e rodam em qualquer plataforma que tenha uma JVM padr�o.

Business Intelligence Server, a encarna��o mais famosa da plataforma, o BI Server, � uma aplica��o Java Web, montada sobre um Tomcat, pr�-configurada com v�rios recursos:

Controle de acesso ao ambiente por usu�rio e senha;
Controle de acesso aos objetos (pastas, relat�rios, pain�is etc.) baseado em usu�rios e pap�is;
Controle de acesso aos dados, que diz quem pode ver que registro, de que tabela;
Relat�rios AdHoc;
Visualizador/Navegador OLAP;
Relat�rios pr�-configurados (a priori);
Agendador de relat�rios;
Execu��o de relat�rios em background(plano de fundo);
Envio de resultados por e-mail (bursting).

A interface visual do BI Server leva o nome de Pentaho User Console, ou PUC. Existe ainda uma outra aplica��o, baseada em Jetty, que faz a administra��o da plataforma, com cria��o e gest�o de usu�rios, pap�is, fonte de dados e outros servi�os como purga autom�tica de conte�do e controle de agendas p�blicas. Essa interface se chama Pentaho Administration Console, ou PAC.

O BI Server exibe os resultados - relat�rios, vis�es OLAP, pain�is. Mas os recursos necess�rios para isso acontecer s�o criados pelos clientes de desenvolvimento (Clientes Pentaho).

Pentaho Report Designer (PRD), � o gerador de relat�rios stand-alone da su�te Pentaho, representante da categoria tornada famosa pelo Crystal Reports. Ele pode conectar-se a qualquer fonte de dados para qual exista um driver JDBC e criar relat�rios pixel perfect, exibindo n�o apenas lista de dados, mas tamb�m o resultado de f�rmulas, subrelat�rios, links, imagens, gr�ficos (pizza, barra, linha etc.), dentre outros recursos. A partir da vers�o 3.5, o PRD passou a oferecer parametriza��o de relat�rios na pr�pria ferramenta. O PRD pode ser usado sozinho, ou publicar os relat�rios diretamente no BI Server, para posterior acesso via web.

O Pentaho Metadata Editor (PME), permite que o arquiteto da solu��o de BI agrupe os campos de tabelas que tenham alguma correla��o, criando vis�es de neg�cios independentes, mesmo que campos de vis�es distintas residam em uma mesma tabela. Ele � totalmente visual, e pode mapear qualquer fonte de dados que possua um driver JDBC.

O Pentaho Schema Workbench (PSW), cria os cubos OLAP que ser�o exibidos na PUC. Ele tem uma interface visual para navegar entre as defini��es do cubo, permitindo criar m�tricas, dimens�es e hierarquias.

J� o Pentaho Design Studio (PDS) � o ambiente de implementa��o de Solu��es de BI, que cria Actions Sequences e as combina em solu��es mais complexas. Ele fornece ao desenvolvedor acesso de baixo n�vel aos recursos do Pentaho e � um plugin para a IDE Eclipse.

O Pentaho Weka � um ambiente gr�fico para Data Mining. Permite ao usu�rio criar e testar hip�teses contra as bases de dados.

Pentaho Data Integration (PDI) � a ferramenta que realiza tanto a integra��o de dados quanto os processos de ETL (Extra��o, Transforma��o e Carga), que alimentam Data Warehouses. Ele � capaz de ler e escrever mais de trinta formatos de SGDB, como Oracle, PostgreSQL, SQLServer, importar arquivos texto (csv ou fixo), planilhas Excel e base de dados ODBC. Ele � um ambiente gr�fico no qual conex�es com fontes de dados s�o estabelecidas e sequencia de passos executam a extra��o de dados, sua modifica��o e a carga desses em um destino. Pode integrar dados entre empresas e sistemas, substituindo a cria��o de camadas de programas para integra��o, por opera��es visuais.

A vers�o 4.0 implementa o conceito da Pentaho de AgileBI, no qual se combinam em uma interface a extra��o de dados, sua modelagem e relat�rios. Modelos e relat�rios podem ser publicados diretamente no BI Server. Essa integra��o permite que a equipe de BI gere resultados em dias ao inv�s de semanas.

A comunidade mundial Pentaho desenvolveu um n�mero de outros recursos que podem ser adicionados ao Pentaho, notadamente ao BI Server.

Por defini��o, a Suite Pentaho acessa (l�/grava) qualquer base de dados para qual haja um driver JDBC. Al�m disso, em ambiente Windows, a Suite consegue ler de qualquer base de dados que tenha driver ODBC, atrav�s do driver JDBC para ODBC. A capacidade de grava��o via ODBC n�o � uniforme (algumas bases disp�em, outras n�o). Na Figura 2 temos uma rela��o dos bancos empacotados no Pentaho.

Lista de Banco de Dados PDI

Figura 2: Lista de Banco de Dados PDI

A cria��o de solu��es de BI com a Plataforma Pentaho obedece a um fluxo simples, conforme mostrado na Figura 3:

Os clientes, PDI, PRD, PSW, PDS, PDA, criam os artefatos da solu��o;
Esses artefatos s�o publicados no BI Server;
Os usu�rios acessam o BI Server para executar as solu��es. Uma solu��o de BI precisa de fontes de dados confi�veis e de alguma interface para seu cliente explor�-los. Algum tempo depois, a explora��o eventualmente amadurece em um processo, que pode ser automatizado, gerando valor para empresa.

Figura 3: Processo de cria��o de Solu��o de BI Padr�o com Pentaho.

Os passos destacados correspondem �:

Cria��o de Data Warehouse, Data Mart ou dump do banco de dados com o Pentaho Data Integration, a partir de fontes de dados que podem ser bancos relacionais, servi�os de rede, p�ginas web e fontes desestruturadas (como e-mail e documentos texto), al�m de arquivos planos (CSV, Excel, Etc.).
Cria��o das solu��es iniciais para explora��o do reposit�rio de dados: Cubos OLAP, relat�rios (com ou sem par�metros), WAQR. Todos os clientes de desenvolvimento podem ser usados.
Entrega da solu��o com BI Server, com controle de acesso via web por seus clientes. Alguns clientes podem ter demandas especiais e optar por usar algum dos clientes de desenvolvimento, como PDI, Weka ou Report Designer para atend�-las.

Uma solu��o de BI, qualquer que seja a ferramenta, sempre ter� os mesmos elementos. Vamos examinar a arquitetura-padr�o de solu��es de BI, algumas varia��es e oferecer alguns par�metros para ajudar a sua empresa a decidir em que modelo investir.

Toda solu��o de BI sempre tem tr�s partes:

Data Warehouse: como n�o existe BI sem DW, essa � uma pe�a indispens�vel em projetos de BI. Quando falamos de DW no contexto da arquitetura de BI invariavelmente estamos nos referindo ao servidor de banco de dados - hardware e software - que vai cumprir a fun��o de armaz�m de dados para a solu��o de BI da empresa. Para definir esse componente � importante conhecer o volume de dados que ser� carregado inicialmente, a que velocidade (em bytes ou registros por m�s) ele vai crescer, quanto usu�rios poder�o consult�-lo e quantas estrelas ele vai ter. Normalmente nenhuma dessas informa��es � conhecida a priori, de modo que podemos quando muito fazer estimativas mais ou menos calibradas;
Servidor de ETL: se DW na infraestrutura significa a m�quina do banco de dados, ETL nesse contexto significa a m�quina que vai executar o processo de extra��o, transforma��o e carga das fontes de dados para dentro do DW. De novo, como n�o h� BI sem DW, n�o pode haver BI sem servidor de ETL porque a carga de um DW se d� por esse processo. Portanto, servidores de ETL tamb�m s�o indispens�veis na arquitetura de uma solu��o de BI;
Servidor de Explora��o de Dados: uma vez que os dados estejam dispon�veis no DW, os usu�rios come�am a acess�-los e a explor�-los para resolver suas diversas necessidades: medir o desempenho da empresa, responder as perguntas estrat�gicas, t�ticas e at� mesmo operacionais, planejar e avaliar o resultado das a��es e um inimagin�vel sem n�meros de usos.

Alguns projetos de BI, como os que envolvem Data Mining, consomem os dados na forma de arquivos extra�dos do DW especialmente para essas necessidades, e s�o tratados com um rol bem particular de ferramentas - como o Weka ou SPSS.

Mas a maioria esmagadora de usos do DW na empresa depende de uma interface gr�fica que esconda a complexidade das consultas atrav�s de uma intera��o f�cil e prazerosa com os dados. Consumir os dados do DW usando interfaces de texto para realizar consultas SQL que populam planilhas Excel simplesmente matam o interesse, n�o pela falta de versatilidade, mas pela falta de usabilidade e de prazer em trabalhar com esses dados.

Por isso todo projeto de BI que se preze oferece aos usu�rios finais, seus clientes, um programa que d� essa interface gr�fica. At� meados da d�cada de 2000 ainda existiam softwares stand-alone, que eram instalados na esta��o de cada usu�rio. Mas uma tend�ncia nascida na d�cada anterior estava atingindo a maturidade: interfaces para DW em ambientes web, ou cliente-servidor como eram chamados.

Esse � o terceiro componente indispens�vel de uma solu��o de BI: um software que ofere�a ao cliente uma poderosa e agrad�vel interface gr�fica para explora��o de dados do DW.

Tudo-Em-Um Hardcore, ideal para os projetos pilotos, pequenas empresas ou o in�cio de projetos �geis. A combina��o de todos os servidores em uma s� m�quina f�sica e l�gica � uma boa op��o porque oferece menor complexidade e maior facilidade de gest�o, pre�o reduzido e menor consumo de m�o-de-obra especializada. � um �timo ambiente para experimenta��es ou para projetos departamentais, conforme mostrado na Figura 4.

Figura 4: Esquema tudo-em-um, hardcore.
� Tudo-Em-Um Softcore, a empresa que sabe que sua necessidade de BI vai crescer pode usar uma varia��o do modelo anterior: uma �nica m�quina, mais parruda que a m�dia, mas com tr�s m�quinas virtuais, conforme mostrada na Figura 5.

Figura 5: Esquema tudo-em-um, softcore.

Quando a necessidade de poder de processamento, mem�ria, disco ou rede aumentar, a virtualiza��o d� mais op��es de reestrutura��o. Por exemplo, separar os servidores por demanda em uma fazenda de servidores virtualizados.

Virtualiza��o, com o barateamento do hardware de prateleira, torna-se poss�vel criar ambientes virtualizados cada vez mais poderosos em m�quinas cada vez mais baratas. A extrapola��o do modelo Tudo-Em-Um Softcore leva a uma estrutura de nuvem, conforme mostrado na Figura 6.

Figura 6: Virtualiza��o total (nuvem).

A populariza��o e o barateamento de software de clusteriza��o din�mica (cloud computing) - permite que a empresa invista em um ambiente inicial e o expanda a medida que a demanda crescer.

A maior vantagem dessa arquitetura � a capacidade de expans�o praticamente ilimitada com um custo reduzido de manuten��o e gest�o. Al�m disso n�o h� impacto significativo para a equipe de desenvolvimento, j� que ela v� m�quinas distintas. O �nico sen�o - e � sen�o e tanto - � a transfer�ncia dos dados dos sistemas de origem para o servidor de ETL.

Servidores Independentes, organiza��es que conseguem estimar com precis�o o crescimento da demanda sobre o ambiente de BI podem optar por um esquema no qual todos os servidores s�o reais e separados, conforme mostrado na Figura 7.

Servidores reais e independentes

Figura 7: Servidores reais e independentes

A maior vantagem � a economia decorrente do autoconhecimento. Como a empresa conhece bem a pr�pria demanda ela pode planejar a evolu��o de cada ambiente e com isso espa�ar mais as compras de hardware. Outro benef�cio colhido � a economia de gerenciar apenas tr�s servidores f�sicos. Gerir esses servidores � mais barato que gerir uma nuvem pois n�o requerem a administra��o da arquitetura de nuvem al�m das inst�ncias de banco de dados e servidores, especialmente do ponto de vista de m�o-de-obra. Finalmente, � poss�vel crescer mem�ria e CPU da m�quina que se tornar um gargalo com alguns upgrades relativamente baratos, antes de trocar por m�quinas mais potentes.

Servidores Combinados, quando a empresa n�o est� disposta a investir em uma nuvem particular, e nem disp�e de recursos para imobilizar em hardware potente, ela pode optar por combinar o ETL em um dos outros servidores (DW ou Interface) e assim aproveitar melhor os per�odos ociosos, conforme mostrado na Figura 8.

Figura 8: Servidores DW e ETL combinados.

O processo de ETL tamb�m pode ficar dentro do servidor de explora��o, conforme mostrado na Figura 9.

Figura 9: Processo ETL roda dentro do servidor de explora��o.

Essa combina��o � melhor que a anterior porque d� m�quinas inteiras dedicadas a cada parte do processo, sem comprometer-se entre si. Na anterior, CPU, mem�ria e disco usado pelo processo de ETL era subtra�do do banco de dados, e vice-versa.

Softwares, hoje em dia, 100% das necessidades de um projeto de BI, de pequeno a grande porte, pode ser atendido com Software Livre(SL).

Sua necessidade de hardware vai depender diretamente do ambiente que voc� deseja implantar. Como linhas gerais, e em ordem decrescente de import�ncia, busque:

Maior capacidade de expans�o de mem�ria;
Maior capacidade de rede (para ambientes separados);
HDs com maior vaz�o;
Maior capacidade de CPU;
Isso porqu�:
o O maior gargalo na expans�o de usu�rios � espa�o para todas as sess�es simult�neas;
o O maior gargalo para consultas simult�neas � a troca de dados entre o servidor DW e o de explora��o;
o O maior gargalo � troca de dados � a velocidade de acesso aos dados em disco;
E s� depois desses gargalos resolvidos � que vai adiantar aumentar o poder de processamento, pois sem dados prontamente dispon�veis para todos os usu�rios n�o adianta nada ter CPU potente.

At� a pr�xima! Um abra�o.

Refer�ncias:

THOMSEN, ERICK. OLAP Solutions. 1a. Ed. EUA: Wiley Publishing, 1997.
SCHEPS, SWAIN. Business Intelligence for Dummies. 1a. Ed. EUA: Wiley Publishing, 2008.
Pentaho na pr�tica (F�bio, Caio & Cesar) ISBN: 978-85-915459-0-2
WHITEHORN, MARK. Fast Track to MDX. 2a. Ed EUA: Springer 2005.

Confira outros conte�dos:

Programa��o x Concurso P�blico

Osvaldo aprendeu programa��o

DevMedia x Netflix: Onde investir meu...

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Jorge Em 2014

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Robson Morais

N�vel 0

Como analista de BI utilizando a Plataforma da Pentaho h� 3 anos, posso falar que a ferramenta � fant�stica, parab�ns pelo post.

há +1 ano

Jorge Dias

N�vel 0

Obrigado Robson! Abra�os.

há +1 ano

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso