Artigo Java Magazine 50 - Programa��o � prova de balas

Esse artigo faz parte da revista Java Magazine edi��o 50. Clique aqui para ler todos os artigos desta edi��o

FONT-FAMILY: Verdana">">

Neste artigo, vamos explorar um tema importante para o sucesso de projetos de miss�o cr�tica: como criar aplica��es tolerantes a faltas (faults). O desafio de escrever este artigo � que o tema � considerado �rduo, talvez por muitas vezes ser tratado de forma puramente te�rica ou processual. Assim, j� tranq�ilizo o leitor que gosta de programa��o, avisando que procurei uma abordagem pr�tica, direcionada � tecnologia Java (especialmente Java EE) e baseada em experi�ncia de projetos reais. Teremos que come�ar com alguns conceitos inevit�veis, mas logo ilustraremos tudo com exemplos de c�digo ou discuss�es situadas no contexto do Java (recursos de linguagens, runtimes, APIs etc.). Os artigos que falam do tema de toler�ncia a faltas s�o, de fato, na maioria artigos sobre clusters. Clusters s�o uma parte importante da solu��o, mas s�o um assunto j� bem coberto, inclusive aqui na Java Magazine, por exemplo no artigo �Clusters Web com Tomcat� (Edi��o 29). Um cluster s� protege sua aplica��o de um tipo muito espec�fico de falta: a pane total (onde um processo trava ou � abortado). Neste artigo vamos falar de muitas coisas, mas n�o de clusters. Ali�s, uma aplica��o realmente tolerante a faltas s� se beneficia de clusters em casos raros (esperamos!) de pane externa � aplica��o, como um HD pifado ou um crash do sistema operacional.

Conceitos

Uma aplica��o tolerante a faltas n�o � a mesma coisa que uma aplica��o sem bugs � por dois motivos. Primeiro, porque n�o existe aplica��o sem bugs; pelo menos n�o acima de um grau de complexidade que hoje em dia caracteriza qualquer aplica��o �s�ria�. Segundo, porque n�o ter bugs est� longe de ser suficiente. A maioria das aplica��es depende de diversos fatores externos � que est�o sujeitos a toda sorte de comportamentos indesej�veis: conex�es que caem, usu�rios que entram dados inv�lidos, SGBDs com concorr�ncia no acesso �s tabelas, e assim por diante. A terminologia resumida na Tabela 1 � comum na literatura de engenharia de software (e mesmo na engenharia em geral). Iremos utiliz�-la de forma estrita neste artigo. Repare nos termos equivalentes em ingl�s. � comum se dizer, em portugu�s, �toler�ncia a falhas�, mas isso � impreciso. Existe uma rela��o de causalidade entre os tr�s primeiros conceitos: Faltas produzem Falhas, e Falhas produzem Erros. Estamos habituados a ver softwares como sistemas em camadas, numa organiza��o vertical que vai do mais baixo n�vel (ex.: hardware ou S.O.) ao mais alto (ex.: regras de neg�cio ou interface com o usu�rio). Pense, ent�o, que estas criaturas indesej�veis � Faltas, Falhas e Erros � se originam em alguma camada do sistema, e se n�o tratadas, propagam-se para as camadas superiores. Por exemplo, uma Falta na camada de hardware �bloco ruim no HD� pode gerar a Falha na camada de S.O. �erro na leitura do arquivo EMAILS.DAT�, terminando num Erro na camada de aplica��o, �notifica��es por e-mail n�o funcionam�. O mesmo � v�lido para as camadas internas de uma �nica aplica��o, ex.: uma Falta na camada de acesso a dados como mas logo ilustraremos tudo com exemplos de c�digo ou discuss�es situadas no acesso �s tabelas, e assim por diante. A terminologia resumida na � comum na literatura de engenharia de software (e mesmo na engenharia em geral). Iremos utiliz�-la de forma estrita neste artigo. Repare nos termos equivalentes em ingl�s. � comum se dizer, em portugu�s, �toler�ncia a � impreciso. Existe uma rela��o de causalidade entre os tr�s primeiros conceitos: Faltas produzem Falhas, e Falhas produzem Erros. Estamos habituados a ver softwares como sistemas em camadas, numa organiza��o vertical que vai do mais baixo n�vel (ex.: hardware ou S.O.) ao mais alto (ex.: regras de neg�cio ou interface com o usu�rio). Pense, ent�o, que estas criaturas indesej�veis � Faltas, Falhas e Erros � se originam em alguma camada do sistema, e se n�o tratadas, propagam-se para as camadas superiores. uma Falta na camada de hardware �bloco ruim no HD na camada de S.O. � arquivo EMAILS.DAT Erro na camada de aplica��o, � por e-mail n�o funcionam O mesmo � v�lido para as camadas internas de uma �nica aplica��o, ex.: uma Falta na camada de acesso a dados como �query incorreta em UsuarioDAO.update()� pode propagar-se at� a camada de apresenta��o, onde resultar� em v�rios Erros, como �Tela de altera��o de senha n�o funciona�, ou �Ap�s tr�s tentativas de login com senha errada, usu�rio n�o � bloqueado� � � e qualquer outra funcionalidade que exija alterar um registro de usu�rio. Esse exemplo ilustra que os relacionamentos Falta -> Falha e Falha -> Erro s�o muito freq�entemente do tipo 1-para-N: uma �nica Falta pode gerar v�rias Falhas diferentes e uma �nica Falha pode gerar v�rios Erros diferentes.

Nota 1: Este seria um exemplo de erro �silencioso�, que a maioria dos usu�rios finais n�o perceberia. Mas software n�o � mec�nica qu�ntica: um erro � sempre um erro, mesmo que n�o seja observado como tal pelo usu�rio.

Bugs, ocorr�ncias e suporte

Existem outros detalhamentos poss�veis para cada conceito. Faltas, Falhas e Erros podem ser categorizados conforme o tipo, recorr�ncia, severidade e outros crit�rios. Quem j� usou softwares de acompanhamento de bugs (bug tracking, como Bugzilla ou JIRA) j� tem familiaridade com isso. E qual � a rela��o entre Faltas/Falhas/Erros e Bugs? �Bug� � um conceito mais geral que engloba os outros � tanto usu�rios finais quanto desenvolvedores habituados a usar o bug tracking para organizar seu trabalho costumam chamar tudo de �bug�, inclusive coisas como requisi��es de mudan�as e de novas funcionalidades, e at� esclarecimentos de d�vidas ou equ�vocos de usu�rios�. Com esse escopo mais amplo, muitos preferem substituir �bug� por um termo mais adequado, como issue (ocorr�ncia). Vamos preferir esse termo, quando aplic�vel, tamb�m aqui.

Nota 2: Isso acaba sendo um abuso do bug tracking, pois em muitos projetos, especialmente quando o fornecedor � cobrado pelos tempos de resolu��o de bugs, os usu�rios logo percebem que a maneira mais f�cil de ver qualquer tipo de solicita��o atendida � registr�-la como bug.

Tabela 1. Termos essenciais em Toler�ncia a Faltas

Usu�rios finais costumam reportar Erros, mas n�o Faltas ou Falhas, pois o usu�rio n�o costuma ter visibilidade das causas de um problema � s� v� os sintomas. A equipe de suporte ou de desenvolvimento ir� diagnosticar as causas de um Erro (determinar as Faltas e Falhas). Esse tipo de diagn�stico auxilia muito o processo de suporte e corre��o, pois resulta em tarefas de corre��o mais precisas e objetivas. Pode tamb�m resultar em nenhuma tarefa de corre��o, quando a ocorr�ncia na verdade � apenas um erro ou d�vida do usu�rio. Um programador que recebe a tarefa de resolver uma ocorr�ncia que cont�m apenas a descri��o de um Erro, como �Tela de altera��o de senha n�o funciona�, ter� que fazer um trabalho de investiga��o talvez bem maior do que a corre��o em si. O mesmo programador, recebendo a descri��o de uma Falta como �query incorreta em UsuarioDAO.update()�, resolver� o problema rapidamente. Ou seja, o grosso do trabalho de suporte e manuten��o n�o � um trabalho de desenvolvimento, e sim de An�lise de Falhas. Um fornecedor de software pode definir um processo onde esta an�lise seja executada de uma maneira bem definida, por pessoal diferente. Talvez pelos mesmos profissionais respons�veis por testes, que s�o quem mais entende de coisas que n�o funcionam. Pois na maioria das vezes os programadores s�o um gargalo, e sobrecarreg�-los com todo o trabalho de suporte resulta em atrasos das pr�ximas entregas de funcionalidade.

An�lise de falhas

Por exemplo, numa aplica��o que chamaremos A, a falta �Tabela VENDAS cont�m valor inv�lido num_itens = -17� produz a Falha �retorno de dados incorretos na query de vendas�, e esta produz o Erro �relat�rio de vendas incorreto apresentado na GUI�. An�lise de Falhas (como indica o nome) � o processo de diagn�stico de falhas, com o objetivo de determinar sua causa � no caso a(s) falta(s) � e determinar como evitar novas falhas do mesmo tipo�. Nosso exemplo pode parecer �bvio, mas n�o se deixe enganar pelas apar�ncias. Pode ser que a tabela que estamos lendo seja populada por uma outra aplica��o B, para a qual um registro reportando -17 vendas num dia n�o � inv�lido: esta aplica��o usa valores negativos para representar itens devolvidos. Para a aplica��o A, que n�o tem interesse em devolu��es, mas s� no movimento de vendas mesmo, o correto seria filtrar os registros: WHERE num_itens >= 0.

Nota 3: Algu�m poderia argumentar que o certo seria �An�lise de Erros�, j� que a maioria dos problemas (pelo menos os identificados por usu�rios finais) costuma ser reportada como Erros. Mas a que usei � a terminologia comum. Talvez porque, normalmente, deduzir a Falha a partir do Erro seja uma tarefa �bvia (para quem conhece o sistema por dentro), mas deduzir a Falta seja bem mais dif�cil; da� a necessidade de uma disciplina de an�lise.

Nesse caso, uma Falha s� aconteceria se A esquecesse de fazer esse filtro. A Falta ent�o estaria na aplica��o A, n�o em B que gerou os dados, e nem nos pr�prios dados. Mist�rio resolvido? Ainda n�o. Aqui considero que a verdadeira Falta foi ou de design ou de documenta��o. No lado do design, essa id�ia de reusar a mesma tabela de vendas para registrar devolu��es, jogando com o sinal da coluna num_itens, � um truque no m�nimo confuso. Essa tabela �nica reusada para dois conceitos distintos � venda e devolu��o � n�o segue nem a Primeira Forma Normal. Essas teorias �s vezes s�o encaradas como pouco pr�ticas, mas no exemplo, segui-las ajudaria a evitar erros. Talvez essa modelagem n�o-normalizada seja justificada, por exemplo, como uma otimiza��o (com ela, consultas que precisem ler tanto vendas quanto devolu��es, digamos para estimar o estoque atual, n�o precisariam de um join). Mas se for este o caso, a Falta � de documenta��o. O dicion�rio de dados da tabela VENDAS, que foi criada para a aplica��o A, deveria documentar o fato que a coluna num_itens pode conter valores negativos, al�m de especificar o que tais valores significam, pois isso n�o � nada intuitivo. Se esta documenta��o tivesse sido feita, a outra equipe que posteriormente implementou a aplica��o B acessando os mesmos dados, n�o teria deixado de fazer o filtro.

Valida��o de dados

Nota: Esta se��o e a pr�xima ainda n�o tratam propriamente de toler�ncia a faltas, e sim, de preven��o de um tipo espec�fico de faltas, os bugs de implementa��o. Mas como prevenir � sempre melhor do que consertar, � importante cobrir tamb�m este material. Outra t�cnica importante nesse mesmo contexto, que n�o repetiremos aqui porque cobrimos h� n�o muito tempo, � o uso de ferramentas de valida��o de c�digo (como PMD, FindBugs e Checkstyle, ou as valida��es adicionais do compilador do Eclipse); para isso, veja o artigo �Qualidade Aplicada� na Edi��o 36.

Dizer que todos os dados devem se validados parece ser chover no molhado. Todos sabem disso, qualquer bom desenvolvedor valida seus dados de entrada, n�o? Por exemplo, numa GUI, todos os campos que aceitam digita��o livre devem ser �protegidos� por restri��es como valores m�ximo e m�nimo, express�es regulares etc. Em interfaces web, por exemplo, � f�cil fazer isso com o Jakarta Commons Validator 4 ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Por Osvaldo Em 2008

Artigo Java Magazine 50 - Programa��o � prova de balas

Artigo publicado pela Java Magazine 50.

Confira outros conte�dos: