Introdução

As redes bayesianas (RB) são esquemas de representação simbólica de conhecimento - a representação é modelada pela lógica proporcionada pelos processos de formalização matemática adotados - que incorporam em sua base de conhecimento uma distribuição conjunta de probabilidades envolvendo variáveis aleatórias. Entre as variáveis haverá relações de dependência estocásticas, explicitadas por fatos ou regras, que podem ser adquiridas por meio de um especialista no domínio enfocado ou por uma base de dados. As aplicações práticas de RB vêm sendo bastante desenvolvidas no âmbito dos sistemas especialistas probabilísticos (principalmente no diagnóstico e prognóstico médico), da recuperação de informação probabilística, da descoberta de conhecimento em bases de dados (descrição), e da classificação bayesiana.

Segundo Simões, Nassar e Pires (2001), as RB são compostas basicamente por duas partes, uma qualitativa e outra quantitativa. A parte qualitativa, que pode ser visualizada esquematicamente na Figura 1, é um modelo gráfico, na verdade um grafo acíclico direcionado (GAD), no qual as variáveis são representadas por nós, e os arcos que os ligam significam dependências diretas entre essas variáveis. Ele é acíclico no sentido de que não há, no grafo, arcos ligando a saída de um nó à sua própria entrada.

21-08pic01.JPG

Já a parte quantitativa é formada pelo conjunto de probabilidades totais e condicionais, a priori, associadas aos nós e arcos existentes na parte qualitativa.

Um dos grandes incentivos à utilização desse método de representação, um verdadeiro diferencial, é o flexível ambiente conjunto gráfico-quantitativo proporcionado pelas RB, o qual permite prontamente, e de forma on-line, a realização de simulações e análises de sensibilidade, como o leitor poderá verificar na próxima coluna.

As referidas distribuições de probabilidade condicionais, que representam o conhecimento adquirido do especialista ou dos dados, devem ser registradas por meio de algum teorema ou corolário matemático. Isso tem sido obtido satisfatoriamente pelo Teorema de Bayes. Esse teorema, herança devida ao estudo das probabilidades por parte do teólogo e matemático Thomas Bayes (1702 - 1761), é a base para a parte quantitativa das redes bayesianas. É importante ao usuário conhecer, ao menos em certo grau, os fundamentos desse teorema, já que isso é importante na fase de validação da RB em um processo de classificação.

Então sejam H 1 , H 2 ,..., H k partições de um espaço amostral S , e sendo e um evento associado a S , o teorema é formalizado por:

21-08formula01.JPG(1)

Sendo i = 1,2..., k . Essa equação, também conhecida como fórmula das probabilidades das causas (ou dos antecedentes), nos informa, em última análise, a probabilidade de uma particular hipótese H i (causa) ocorrer, dada a ocorrência do evento e . Este teorema, segundo a literatura específica, é matematicamente perfeito, e somente a má avaliação dos P( H i ) é que pode tornar sua aplicação discutível (MEYER, 1975).

No que concerne a aquisição do conhecimento, os H's são as hipóteses possíveis e mutuamente excludentes do estado de uma variável. Os eventos e's são entendidos como as evidências provocadas pelo estado H da variável. Um resultado muito interessante para o uso em RB é obtido a partir da suposição prévia, ou a verificação, de que dois ou mais eventos e 1 , e 2 ,...,e n são independentes, dada a ocorrência da hipótese H , ou seja, o conhecimento sobre a ocorrência do evento e 1 não traz informação adicional sobre a ocorrência de e 2 , e vice versa. Assim, o Teorema de Bayes, sob a hipótese de evidências múltiplas e independentes assume a forma seguinte:

21-08formula02.JPG(2)

Atualização Bayesiana para Novas Evidências

As RB, no contexto da aplicação em sistemas inteligentes e extração de conhecimento, devem ser capazes de se atualizar frente a novas evidências e realidades percebidas a partir do mundo real. Essa capacidade de atualização é proporcionada pelo teorema em tela e, para tal, considerando-se a referida hipótese de independência condicional, que simplifica sobremaneira a atualização bayesiana da rede, basta que seja adaptada a equação (2). De fato, considerando-se uma hipótese H i e denotando-se uma seqüência de eventos, supostamente independentes em relação à H i , por e 1 , e 2 ,...,e n = e n , a ocorrência de uma nova evidência e n+1 pode ser contabilizada da seguinte forma:

21-08formula03.JPG(3)

Esse resultado mostra que ao ser calculada a probabilidade condicional da hipótese H i , dado um conjunto de evidências e n , isto é, 21-08formula04.JPG a probabilidade conjunta das evidências passadas 21-08formula05.JPG pode ser desprezada na equação, pois 21-08formula06.JPG passa a representar completamente a experiência passada, e sua atualização para um novo evento e n+1 requer apenas sua multiplicação pela razão 21-08formula07.JPG, a qual contabiliza o impacto da nova evidência.


Classificação e Descrição Bayesiana

Para a aplicação de RB em data-mining, tanto na descrição quanto em classificação, é necessário que a rede apreenda determinadas características e parâmetros a partir dos dados, de forma a estar apta a produzir conhecimento ou classificar probabilisticamente casos ou indivíduos em classes ou categorias. Nesse contexto de aprendizagem, o objetivo básico é levantar todas as informações sobre a estruturação e magnitude das probabilidades totais e condicionais a priori associadas aos estados das variáveis aleatórias envolvidas no domínio.

Vimos que uma RB possui uma estrutura qualitativa e uma parte quantitativa. Ambas podem ser aprendidas indutivamente a partir de dados. Primeiro aprende-se a estrutura gráfica e, posteriormente, a parte quantitativa (numérica) que envolve as probabilidades. O aprendizado numérico atualmente é considerado relativamente simples, enquanto que o aprendizado da estrutura gráfica, que envolve a definição e orientação das relações de dependência condicional, é bastante complexo, pois se houver hipoteticamente dez variáveis em uma base de dados, o número total de redes (estruturas gráficas) possíveis se eleva a incríveis f(10) = 4,2 x 1018 (Silva e Ladeira, 2002).

Por isso, muitas vezes a pesquisa bayesiana utiliza-se da chamada abordagem ingênua para o aprendizado da estrutura. O enfoque ingênuo assume a mencionada hipótese simplificadora de independência condicional entre as variáveis. De forma a aclarar esse conceito, sejam X, Y e Z três variáveis aleatórias discretas. Dizemos que X é condicionalmente independente de Y, dado Z, se a distribuição de probabilidades de X é independente do valor de Y, dado o valor de Z.

Essa suposição implica, na prática, que os atributos para as variáveis em questão são condicionalmente independentes, dada uma determinada classe Ci, resultando que a probabilidade de se observar o conjunto de atributos (e1,..., en) é dada pela equação 5:

21-08formula08.JPG(4)

Com isso, as probabilidades 21-08formula09.JPG podem ser aprendidas facilmente a partir de uma amostra de estimação e, utilizando-se das equações (2) e (4), vai-se atribuir ao caso ou indivíduo a classe de maior probabilidade posterior, o que, na prática, implica atribuir-lhe a classe de maior valor de

21-08formula10.JPG

Estudos comparativos informados na literatura dão conta de que o classificador ingênuo, para certos domínios, é comparável em termos de resultados com as redes neurais e as árvores de decisão. Contudo, há ocasiões em que a rigidez da hipótese de independência condicional não funciona a contento, e ela tem de ser relaxada, requisitando um aprendizado generalizado, de forma a produzir bons resultados, e isso eleva bastante o grau de complexidade do aprendizado de estruturas, pois todas as relações de dependência/independência passíveis de ocorrerem a partir de uma distribuição de probabilidade conjunta P, são, a princípio, passíveis de aposição no grafo, e, portanto devem ser investigadas. A aprendizagem generalizada é um campo em aberto atualmente, e tem sido tema de extensos estudos e pesquisas envolvendo elevado nível de complexidade e processamento computacional.

Os leitores que quiserem aprofundar-se nos aspectos formais apresentados acima, bem como estudar algoritmos de aprendizado bayesiano generalizado, podem consultar a bibliografia relacionada ao final deste artigo.

A partir das noções aqui apresentadas, não percam na próxima coluna a utilização prática de uma Shell (em versão Demo) especificamente voltada para aplicações de RB, objetivando efetuar um aprendizado automático de estrutura e quantitativo, pelo processo ingênuo, a partir de uma amostra de dados teste.

Abraços, Alexandre.

Bibliografia Referenciada e Consultada:

BARRETO, Alexandre; VIEIRA, Renato C.; NASSAR, Silvia M. Redes Bayesianas e Produção de Conhecimento: uma abordagem de data-mining em dados de um concurso vestibular. In: 35º Reunião Regional da ABE/SOBRAPO, Florianópolis-SC, 2003 e V Escola Regional da Sociedade Brasileira de Computação (SBC) - Centro-Oeste, 2002.

B ITTENCOURT, Guilherme. Inteligência Artificial: ferramentas e teorias. Florianópolis: Editora da UFSC, 2001.

MEYER, Paul L. Probabilidade: Aplicações à Estatística. Rio de Janeiro: LTC, 1975.

NEAPOLITAN, Richard. Probabilistic Reasoning in Expert Systems. John Wiley & Sons, Inc. New York, 1990.

RABUSKE, Renato A. Inteligência Artificial. Florianópolis: Editora da UFSC, 1995.

RUSSEL, Stuart; NORVIG, Peter. Artificial Intelligence - A Modern Approach. Prentice-Hall, 1995.

SCHEINES, Richard. (R.Scheines@andrew.cmu.edu)/Carnegie Mellon University "http://www.andrew.cmu.edu/user/scheines/tutor/d-sep.html", acesso em 25/08/2003, 10:50 hs.

SIMÕES, Priscyla Waleska Targino de Azevedo; NASSAR, Silvia Modesto; PIRES, Maria Marlene de Souza. Sistema de Apoio na Avaliação da Falência do Crescimento Infantil. In: CONGRESSO BRASILEIRO DE COMPUTAÇÃO, Workshop de Informática Aplicada à Saúde, 2001.

SILVA, W. T., e LADEIRA, M. Mineração de Dados com Redes Bayesianas. XXI JAI – Jornada de Atualização em Informática. Anais do XXII Congresso da Sociedade Brasileira de Computação, vol. 2, pg. 235-286, 2002.

STEIN, Carlos Efrain. Sistema Especialista Probabilístico: Base de Conhecimento Dinâmica. 2000. Dissertação (Mestrado em Ciências da Computação) - Programa de Pós-Graduação em Ciências da Computação, UFSC, Florianópolis.

Um abraço.

Alexandre.