| Últimas 20 atualizações de ALEXANDRE SERRA BARRETO |
|
|
Exibição do post interrompida. Para ler conteúdo completo, clique aqui
|
|
|
|
Redes Bayesianas (exemplo de aplicação)
No último artigo foi apresentada a base teórica que subsidia a extração de conhecimento em bases de dados por redes bayesianas, o que pode ser então praticado neste momento por meio do demo de um software específico para redes bayesianas, o NETICA, marca registrada da Norsys Software Corporation.
Antes de sua utilização, devemos contextualizar o objetivo aqui, que é extrair conhecimento de forma automática a partir de uma base de dados hipotética contendo um número seqüencial de candidatos e mais três variáveis: Aprovado, Cursinho e IBL (Internet Banda Larga), contendo dois atributos possíveis cada (Sim e Não). Ver Tabela 1:
Tabela 1: Dados de trabalho
|
Candidato (Nº Seqüencial) |
Aprovado |
Cursinho |
IBL |
...
Exibição do post interrompida. Para ler conteúdo completo, clique aqui
|
|
|
|
Extração de Conhecimento em Bases de Dados por Redes Bayesianas
Introdução
As redes bayesianas (RB) são esquemas de representação simbólica de conhecimento - a representação é modelada pela lógica proporcionada pelos processos de formalização matemática adotados - que incorporam em sua base de conhecimento uma distribuição conjunta de probabilidades envolvendo variáveis aleatórias. Entre as variáveis haverá relações de dependência estocásticas, explicitadas por fatos ou regras, que podem ser adquiridas por meio de um especialista no domínio enfocado ou por uma base de dados. As aplicações práticas de RB vêm sendo bastante desenvolvidas no âmbito dos sistemas especialistas probabilísticos (principalmente no diagnóstico e prognóstico médico), da recuperação de informação probabilística, da descoberta de conhecimento em bases de dados (descrição), e da classificação bayesiana.
Segundo Simões, Nassar e Pires (2001), as RB são compostas basicamente por duas partes, uma qualitativa e outra quantitativa. A parte qualitativa, que pode ser visualizada esquematicamente na Figura 1, é um modelo gráfico, na verdade um grafo acíclico direcionado (GAD), no qual as variáveis são representadas por nós, e os arcos que os ligam significam dependências diretas entre essas variáveis. Ele é acíclico no sentido de que não há, no grafo, arcos ligando a saída de um nó à sua própria entrada.

Já a parte quantitativa é formada pelo conjunto de probabilidades totais e condicionais, a priori, associadas aos nós e arcos existentes na parte qualitativa.
Um dos grandes incentivos à utilização desse método de representação, um verdadeiro diferencial, é o flexível ambiente conjunto gráfico-quantitativo proporcionado pelas RB, o qual permite prontamente, e de forma on-line, a realização de simulações e análises de sensibilidade, como o leitor poderá verificar na próxima coluna.
As referidas distribuições de probabilidade condicionais, que representam o conhecimento adquirido do especialista ou dos dados, devem ser registradas por meio de algum teorema ou corolário matemático. Isso tem sido obtido satisfatoriamente pelo Teorema de Bayes. Esse teorema, herança devida ao estudo das probabilidades por parte do teólogo e matemático Thomas Bayes (1702 - 1761), é a base para a parte quantitativa das redes bayesianas. É importante ao usuário conhecer, ao menos em certo grau, os fundamentos desse teorema, já que isso é importante na fase de validação da RB em um processo de classificação.
Então sejam H 1 , H 2 ,..., H k partições de um espaço amostral S , e sendo e um evento associado a S , o teorema é formalizado por:
(1)
Sendo i = 1,2..., k . Essa equação, também conhecida como fórmula das probabilidades das causas (ou dos antecedentes), nos informa, em última análise, a probabilidade de uma particular hipótese H i (causa) ocorrer, dada a ocorrência do evento e . Este teorema, segundo a literatura específica, é matematicamente perfeito, e somente a má avaliação dos P( H i ) é que pode tornar sua aplicação discutível (MEYER, 1975).
No que concerne a aquisição do conhecimento, os H's são as hipóteses possíveis e mutuamente excludentes do estado de uma variável. Os eventos e's são entendidos como as evidências provocadas pelo estado H da variável. Um resultado muito interessante para o uso em RB é obtido a partir da suposição prévia, ou a verificação, de que dois ou mais eventos e 1 , e 2 ,...,e n são independentes, dada a ocorrência da hipótese H , ou seja, o conhecimento sobre a ocorrência do evento e 1 não traz informação adicional sobre a ocorrência de e 2 , e vice versa. Assim, o Teorema de Bayes, sob a hipótese de evidências múltiplas e independentes assume a forma seguinte:
(2)
Atualização Bayesiana para Novas Evidências
As RB, no contexto da aplicação em sistemas inteligentes e extração de conhecimento, devem ser capazes de se atualizar frente a novas evidências e realidades percebidas a partir do mundo real. Essa capacidade de atualização é proporcionada pelo teorema em tela e, para tal, considerando-se a referida hipótese de independência condicional, que simplifica sobremaneira a atualização bayesiana
...
Exibição do post interrompida. Para ler conteúdo completo, clique aqui
|
|
|
|
Motivações para trabalhos acadêmicos na área da análise de dados e data-mining em bancos de dados
Alguns leitores desta coluna têm me enviado mensagens de e-mail indagando sobre bons temas de pesquisa em data-mining e banco de dados, isso para fins de monografias de graduação, pós-graduação e até de dissertações de mestrado. Tenho então, na medida do possível, enviado respostas pontuais, mas nesta coluna resolvi abordar mais detidamente este assunto.
É claro que a escolha de um tema de pesquisa é passível de ser influenciada por diversos fatores, tais como ênfases dos cursos, disciplinas da grade curricular, tendências acadêmicas e de mercado e também aptidões e gostos pessoais. Aliás, este último aspecto é por vezes relegado ao segundo plano, mas um trabalho cuja temática seja agradável ao aluno provavelmente será concluído com maior rapidez e qualidade.
Posso, portanto, comentar aqui sobre os aspectos mercadológicos e acadêmicos. Inicialmente não devemos nos esquecer que continuam em voga as já tradicionais aplicações de data-mining em segmentação de mercado, análise de crédito e basket analysis (análise de cestas de mercado) praticadas em repositórios de dados, principalmente, dos bancos, instituições de crédito e supermercados, isso tanto pelo barateamento dos repositórios, quanto pelo avanço vertiginoso da capacidade de processamento de dados nos últimos anos.
À parte essas já tradicionais aplicações, tenho recebido mensagens de leitores que dispõem de acesso a bases de dados médicas. De fato, como pode ser verificado pelo banco de teses e dissertações do EPS/UFSC , têm sido numerosas as defesas de trabalhos aplicando sistemas especialistas, data-mining e análise multivariada na área da saúde. Basicamente esses trabalhos procuram disseminar e disponibilizar conhecimento e diminuir os custos de recursos humanos, manutenção e atendimento hospitalar por meio de estudos que identifiquem padrões que viabilizem e facilitem a prevenção, classificação e os diagnósticos médicos. Assim é que os planos de saúde, clínicas e hospitais procuram viabilizar a classificação de indivíduos como portadores de determinadas patologias, efetuando um verdadeiro diagnóstico através dos sistemas especialistas. Também, o data-mining, notadamente por regressão, regras de associação e análise de agrupamento, pode identificar grupos de risco, comportamentos e hábitos mais associados ou vinculados a determinadas patologias médicas ou odontológicas e até estimar a expectativa de vida para segurados de sistemas de saúde. Além disso, uma área interessante seria o data-mining aplicado ao processamento de imagens médicas, mas não apenas a título de reconhecimento, pois seria conveniente que esse processo fosse direcionado pela conceituação prévia das ontologias referentes ao domínio médico específico e, dessa forma, muito do conhecimento estaria disponível a baixo custo mesmo nas localidades mais distantes do território, mas sempre a título de triagem, bem entendido, já que o objetivo não seria substituir o profissional de medicina ou qualquer outro, mas sim disponibilizar uma possibilidade de atendimento ágil e universalista à população, mesmo porque uma ontologia só poderia ser definida sob a supervisão desses profissionais graduados.
Mas o que é ontologia? No contexto da inteligência artificial, seu conceito está associado aos pressupostos, regras e definições considerados verdadeiros ou aceitos em um determinado escopo ou domínio de conhecimento. Vê-se, portanto, porque ela tem de ser definida ou estabelecida sob a tutela de um diplomado ou especialista no ramo. Por exemplo, se estamos utilizando data-mining para o
...
Exibição do post interrompida. Para ler conteúdo completo, clique aqui
|
|
|
|
Considerações prévias à utilização empírica do Data-Mining
Neste momento, em que vamos iniciar a abordagem das tarefas e técnicas de Data-Mining (DM) ao longo desta coluna, é interessante pontuar alguns aspectos conceituais do tema e que antecedem aos aspectos eminentemente práticos.
Nos últimos quarenta anos as tecnologias de informação e de banco de dados proporcionaram a migração do primitivo processamento de arquivos de dados para os complexos e robustos sistemas de banco de dados. Contudo, a abundância de dados armazenados, associada à ausência de processos não sistematizados de consulta aos repositórios de dados e, de ordinário, subjugados ao processamento operacional, gerou uma situação de excesso de dados armazenados em presença de pobreza de informação. Felizmente, mormente nas duas últimas décadas, o rápido aumento da capacidade de processamento computacional, associado ao baixo custo de armazenamento, vem contribuindo para a construção de repositórios de dados que permitem cruzar dados de diferentes fontes, procurando identificar informações relevantes e transformando-as em conhecimento útil para o processo decisório gerencial. Nesse contexto, a motivação é transformar informação em estado bruto em conhecimento aplicável e isso pode se dar por meio do DM.
Os conceitos teóricos de DM encontrados na literatura variam na medida em que são mais ou menos restritivos em relação a dois aspectos: o tamanho da base de dados alvo e o grau de automatização dos processos de mineração. Nesse contexto, para Berry e Linoff (1997) “data-mining é a exploração e análise, por meio automático ou semi-automático, de grandes quantidades de dados, com o objetivo de revelar regras e padrões significativos”. Outra interessante definição é a de Han e Kamber (2001), por conceituarem o repositório de dados a ser minerado, qual seja, “data-mining é o processo de descoberta de conhecimento interessante a partir de grandes quantidades de dados armazenados tanto em bancos de dados e data warehouses quanto em qualquer outro repositório de informação”.
Já uma definição menos restritiva é obtida em Fayyad et al. (1997), “qualquer algoritmo que identifica padrões em dados, ou ajusta modelos aos dados, executa data-mining. É uma das etapas do knowledge data discovery”. O extrato de importância a ser concluído dessas conceituações é o de que bases de dados, antes inescrutáveis em seu todo devido às limitações de tempo e de recursos humanos e tecnológicos, estão cada vez mais servindo de apoio à tempestiva decisão gerencial, haja vista formarem matéria prima para aplicação factível e intensiva de algoritmos e técnicas tradicionalmente aplicáveis em análise de dados.
A partir das definições anteriores, surgem outros interessantes conceitos: Data Warehouse (DW) e Knowledge Data Discovery (KDD). Resumidamente, um DW é um repositório de dados especificamente orientado para o suporte à decisão gerencial, em que os dados históricos, provenientes das diversas fontes organizacionais, passam por um processo de limpeza, transformação, padronização, documentação, armazenamento e, posteriormente, publicação aos usuários finais, com vistas exclusivamente ao processamento e viabilização de consultas.
Pode-se dizer que as potencialidades que diferenciam um DW residem em um armazenamento e processamento de dados destacado do operacional, em uma modelagem de dados dimensional (sedimentada em tabelas de fato e de dimensão), e na definição de metadados (dados sobre os dados) especificamente orientados aos negócios corporativos. Esse conjunto de recursos proporciona que as consultas formuladas sejam respondidas por informações corretas, consistentes e em bom tempo. O leitor provavelmente já se apercebeu de que um DW é um ambiente extremamente favorável à implementação de um processo de DM, este o utilizando como fonte de matéria bruta a ser m
...
Exibição do post interrompida. Para ler conteúdo completo, clique aqui
|
|
|
|
Boas-Vindas
Saudações a todos! Devo dizer que é com grande alegria e entusiasmo que inicio este espaço no Portal SQL Magazine, cujo objetivo é estabelecer um canal de aprendizado conjunto sobre dois tópicos permanentemente em voga nos meios profissionais e acadêmicos: a análise de dados e o data-mining. Nossa atenção aqui será prestada principalmente aos aspectos práticos e de aplicação, mas com o tempo também abordaremos algumas questões conceituais e mercadológicas importantes na medida em que auxiliam em um melhor aproveitamento dos processos de data-mining e análise de dados.
Suas sugestões, contribuições e críticas ao aqui abordado são bem vindas e fazem parte de um processo de crescimento contínuo e democrático.
Um abraço.
Alexandre. -->">
|
|
|
| |
|