Redes Bayesianas (exemplo de aplicação)

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Redes Bayesianas (exemplo de aplica��o)

No �ltimo artigo foi apresentada a base te�rica que subsidia a extra��o de conhecimento em bases de dados por redes bayesianas, o que pode ser ent�o praticado neste momento por meio do demo de um software espec�fico para redes bayesianas, o NETICA, marca registrada da Norsys Software Corporation.

Antes de sua utiliza��o, devemos contextualizar o objetivo aqui, que � extrair conhecimento de forma autom�tica a partir de uma base de dados hipot�tica contendo um n�mero seq�encial de candidatos e mais tr�s vari�veis: Aprovado, Cursinho e IBL (Internet Banda Larga), contendo dois atributos poss�veis cada (Sim e N�o). Ver Tabela 1:

Tabela 1: Dados de trabalho

Candidato (N� Seq�encial)	Aprovado	Cursinho	IBL
1	Sim	Nao	Sim
2	Nao	Sim	Nao
3	Sim	Sim	Nao
4	Nao	Nao	Nao
5	Sim	Sim	Nao
6	Sim	Sim	Sim
7	Nao	Sim	Nao
8	Nao	Sim	Nao
9	Sim	Nao	Sim
10	Nao	Sim	Nao
11	Sim	Sim	Nao
12	Nao	Nao	Nao
13	Sim	Sim	Nao
14	Sim	Sim	Sim
15	Nao	Sim	Nao
16	Nao	Sim	Nao
17	Sim	Nao	Sim
18	Nao	Sim	Nao
19	Sim	Sim	Nao
20	Nao	Nao	Nao
21	Sim	Sim	Nao
22	Sim	Sim	Sim
23	Nao	Sim	Nao
24	Nao	Sim	Nao

Nosso interesse aqui � calcular as probabilidades associadas a dois eventos espec�ficos, com base nos dados acima, quais sejam, a de um candidato ser aprovado, dado que fez cursinho; e a de um candidato ser aprovado, dado que n�o possui internet de banda larga (IBL) em casa.

Para responder a esses questionamentos, inicialmente assumimos aqui a j� conhecida hip�tese pr�via de independ�ncia condicional - dizemos que Cursinho � condicionalmente independente de IBL, dado Aprovado, se a distribui��o de probabilidades de Cursinho � independente do valor de IBL, dado o valor de Aprovado. Com isso, e de posse de nossos conhecimentos de probabilidades consolidados no artigo anterior, podemos facilmente calcular algumas probabilidades a priori e a posteriori, a partir da tabela 1, que ser�o �teis para a constru��o e valida��o das probabilidades a serem aprendidas automaticamente pelo NETICA:

Inicialmente, vale dizer que a parte gr�fica da rede ser� predefinida pelo usu�rio e seguir� o seguinte esquema em forma de grafo:

Figura 1: Estrutura gr�fica da rede

Para executar esse layout no NETICA, o leitor poder� direcionar-se ao endere�o eletr�nico http://www.norsys.com/netica.html, onde pode obter todas as informa��es t�cnicas e tutoriais sobre o NETICA, as condi��es de licenciamento e de uso das vers�es com ou sem password, e pode fazer o download para experimentar a vers�o free do NETICA para Windows 95 ou superior, Linux ou Macintosh, que � uma vers�o demo que proporciona capacidade de criar redes bayesianas plenamente funcionais, mas limitadas at� 15 n�s, o que � suficiente para o escopo ilustrativ

o deste artigo. O arquivo baixado ao ser executado extrai automaticamente seu conte�do para um diret�rio a ser indicado pelo usu�rio. Ap�s a extra��o, para iniciar o aplicativo deve-se executar o arquivo Netica.exe, que inicialmente notifica o usu�rio de que o programa estar� atuando com funcionalidade limitada, a menos da utiliza��o de uma password. Neste ponto deve-se clicar no bot�o �Limited Mode�, que inicia o aplicativo propriamente dito na modalidade limitada (free).

O primeiro passo para formar uma rede bayesiana � seguir, com o mouse, o fluxo File ? New Network, conforme a Figura 2:

Figura 2: Criando nova rede

Clicando em New Network, uma nova rede abre-se na janela principal do aplicativo e o leitor poder� nomear e salvar sua rede onde desejar. Em seguida deve-se adicionar tr�s novos n�s � rede, e isso se faz clicando em Modify ? Add Nature Node, como segue:

Figura 3: Adicionando n�s

Ap�s isso, deve-se clicar com o cursor do mouse internamente � janela da �minharede�, para posicionar o novo n� adicionado, e devemos mesmo fazer esse procedimento de adi��o tr�s vezes, chegando � seguinte disposi��o gr�fica:

Figura 4: Rede parcial

Falta agora renomear as vari�veis, inserir seus atributos poss�veis e adicionar os arcos de liga��o, tudo conforme requisita nosso exemplo. Para renome�-las, basta dar um duplo clique em um n� e se abre o seguinte painel, no caso do n� �A�:

Figura 5: Painel de especifica��es para o n� A

Para alterar o nome do n�, basta digitar �Aprovado� na caixa de texto �Name� demarcada pela elipse na Figura 5. Quanto aos atributos, observe-se que na mesma figura h� uma caixa de sele��o �States�. Esta caixa possui internamente como default os atributos �True� e �False� (este n�o vis�vel na figura), que devem ser alterados para �Sim� e �N�o�. Clicando no bot�o �Delete�, True ser� deletado e automaticamente surgir� o atributo �False�, mas caso o leitor queira deletar �False� pelo bot�o �Delete�, o programa n�o deixar�, emitindo mensagem de que um n� deve possuir pelo menos um atributo. A solu��o � marcar ou selecionar o atributo False com o mouse e digitar diretamente �Sim� em seu lugar. Ap�s isso, como �True� foi deletado, deve-se clicar em �New� para adicionar um novo atributo e digitar �Nao� no campo de texto da caixa de sele��o. Com o bot�o �New� pode-se acrescentar quantos atributos forem necess�rio, mas aqui todas as tr�s vari�veis possuem somente os dois atributos j� mencionados, e o importante � que o usu�rio se certifique que n�o h� nem falta e nem excesso de atributos, sob pena do algoritmo de aprendizado n�o funcionar adequadamente. Ap�s executar esse procedimento de renomear e inserir atributos para todas as vari�veis, deve-se fechar o painel da Figura 5 clicando no bot�o �OK�. Para adicionar os arcos de liga��o, deve-se clicar em Add Link, conforme segue:

Figura 6: Adicionando arcos de liga��o

Com isso, o ponteiro do mouse se torna uma pequena seta indicadora de link que deve ser utilizado pelo m�todo de clicar e arrastar para ligar dois n�s entre si. Primeiramente deve-se clicar no n� �Aprovado�, de forma a que ali a seta de liga��o tenha sua origem em rela��o aos demais n�s. E assim o leitor dever� chegar ao layout mostrado anteriormente na Figura 1, e a rede estar� apta a aprender probabilidades, nosso pr�ximo passo.

Para se trabalhar com o programa deve-se inicialmente salvar o arquivo de dados da Tabela 1 em formato texto (extens�o txt), dados separados por tabula��es e nomes das vari�veis na primeira linha. Al�m disso, um cabe�alho especial deve ser inserido antes da primeira linha de dados do arquivo para que este seja lido. O arquivo pronto para leitura pelo NETICA fica com o seguinte aspecto (n�o precisamos do n�mero seq�encial do candidato):

Figura 7: Arquivo pronto para se lido pelo NETICA

Agora basta que o NETICA leia o arquivo de dados e aprenda as probabilidades ali consignadas. Para isso basta clicar em Relation ? Incorp Case File, como na Figura 8:

Figura 8: Leitura de um arquivo de texto para aprendizado num�rico

Ap�s, aparecer� uma caixa para sele��o do arquivo a ser lido, e que, ao ser efetivamente selecionado, provoca o NETICA a emitir uma caixa de texto conforme segue:

Figura 9: Designa��o do fator de amortecimento do aprendizado

Neste ponto clique em �Okay�, para um aprendizado sem amortecimento, e ap�s o processamento dos dados, deve-se clicar em Network ? Compile, como segue:

Figura 10: Compilando a rede

Por fim, chega-se � rede final, que demonstra as probabilidades a priori (n�o condicionais) associadas �s vari�veis:

Figura 11:

Para verificar se o aprendizado deu-se corretamente, podemos retornar � primeira e segunda quest�es objetivo do estudo:
1) Qual a probabilidade de um candidato ser aprovado dado que fez cursinho?
2) Qual a probabilidade de um candidato ser aprovado dado que n�o possui internet de banda larga em casa?
Para respond�-las basta instanciar a rede de acordo com as probabilidades condicionais associadas �s quest�es de pesquisa. Por exemplo, quanto � quest�o �2�, clicando no atributo �N�o� da vari�vel IBL, vemos diretamente que esta probabilidade condicional equivale a 33,33%:

Figura 12:

Isso confirma que o aprendizado deu-se de acordo com a probabilidade te�rica calculada pela equa��o 11 e valida nossa rede. Em rela��o � primeira quest�o, do cursinho, na verdade o leitor pode instanciar � vontade a vari�vel Cursinho ou mesmo a vari�vel Aprovado e ver� que elas n�o influenciam-se mutuamente por serem independentes entre si, como pode ser verificado pelo fato de que:

Agora o usu�rio pode instanciar e �brincar� � vontade com sua nova rede bayesiana - um dos principais diferenciais do NETICA � sua excelente e interativa interface gr�fica - ou construir outras a seu gosto e necessidades.

O leitor poderia ainda estar se perguntando qual seria a vantagem do aprendizado bayesiano, se as probabilidades que interessam ao exemplo foram calculadas analiticamente pelas equa��es 11 e 12. Ocorre que estas foram calculadas a partir da Tabela 1, que cont�m apenas tr�s vari�veis e 24 registros. No caso de uma tabela com centenas de vari�veis e milhares de registros esse processo seria bem mais trabalhoso e certamente requisitaria algumas linhas de c�digo.

Por fim, deve-se ressaltar que n�o realizamos aqui o aprendizado de estruturas, somente o de probabilidades num�ricas, e isso s� confirma que as redes bayesianas apresentam muitas outras caracter�sticas e potencialidades que podem ser exploradas pelo usu�rio profissionalmente, academicamente ou simplesmente por lazer. Nesse contexto, existem ainda outros excelentes softwares dispon�veis, como o MSBN da Microsoft (livre para fins n�o comerciais) e o Hugin (vers�o demo livre), dentre outros, que podem constituir-se em bases de novos aprendizados e pesquisas. Como bibliografia adicional, segue o link para um excelente manual de constru��o e utiliza��o de redes bayesianas por meio do NETICA. Um abra�o e at� a pr�xima.

Alexandre.

Bibliografia:
Nassar, Silvia M. Manual de Utiliza��o da Shell NETICA. Acesso em http://inf.ufsc.br/~silvia.