As funções esquecidas do Oracle � Parte II

As fun��es esquecidas do Oracle � Parte II

�

Ol�, leitores, estamos de volta e continuaremos falando sobre algumas fun��es esquecidas do Oracle. Neste artigo falamos sobre Life Sciences e as fun��es que existem no banco de dados que s�o usadas para dados biol�gicos. � isso mesmo! O Oracle (bem como o DB2) tem fun��es pr�-definidas para serem usadas em dados de pesquisas com genomas, proteomas, vias metab�licas, etc.

�

As fun��es para alinhamento de seq��ncias podem ser encontradas dentro do banco dados e aplicadas diretamente sobre os dados armazenados no mesmo.

�

Bem, mas vamos dar uma refrescada na mem�ria. O que � uma seq��ncia de dados de DNA? O que � um alinhamento de seq��ncias? Para que isto � importante? O que n�s da computa��o temos haver com essa coisa toda de bi�logos e biom�dicos? Vamos l�.

�

Uma seq��ncia de DNA ou seq��ncia gen�tica � a representa��o da estrutura prim�ria de uma mol�cula de DNA. Essa representa��o � feita atrav�s de letras, que representam os quatro tipos de nucleot�deos. As poss�veis letras em uma seq��ncia de DNA s�o: A, T, C e G que s�o respectivamente Adenina, Timina, Citosina e Guanina. AAATCGCTTGG representa uma pequena seq��ncia de DNA; qualquer sucess�o de nucleot�deos maior que quatro j� pode ser considerada uma seq��ncia.

�

Um alinhamento de seq��ncias � uma forma de descrever a rela��o entre as cadeias de caracteres. Vejamos: se uma seq��ncia de DNA � representada por uma cadeia de caracteres, para compararmos duas seq��ncias nos iremos alinh�-las para descobrirmos onde podemos encontrar pontos similares. Esses pontos similares entre as seq��ncias podem indicar caracter�sticas iguais entre esp�cies diferentes e ajudam a tra�ar com maiores detalhes o processo evolutivo. Existem, basicamente, dois tipos de alinhamento: o global e o local. O alinhamento global consiste no alinhamento de no m�nimo duas seq��ncias inteiras que nem sempre t�m o mesmo tamanho. Para suprir os espa�os vagos entre uma seq��ncia e as outras s�o levadas em conta algumas regras biol�gicas (que n�o vamos entrar em detalhes) que permitem que as seq��ncias tenham, no final, tamanhos iguais. J� o alinhamento local � o alinhamento de apenas parte de uma seq��ncia com parte de outra e assim � poss�vel comparar a similaridade entre determinadas fun��es descritas naquele peda�o da cadeia de DNA.

�

Vejam um pequeno exemplo:

�

�� Seq��ncia 1: CGCTATAT

Seq��ncia 2: TATACTA

�

O Alinhamento das duas ficaria desta forma:

�

CGCTATAT-T-

-----TATACTA

�

Acima podemos ver que as partes mais pr�ximas est�o alinhadas. O coeficiente de similaridade entre as seq��ncias � obtido fazendo-se uma pontua��o (score) e, dada a pontua��o alcan�ada pelo alinhamento, � poss�vel dizer o grau de similaridade entre elas. N�o vamos entrar no detalhe de como � feita esta pontua��o, pois envolvem alguns conceitos biol�gicos.

�

Estudos e trabalhos que envolvem esse tipo de an�lise representam uma grande evolu��o em tratamentos m�dicos, produ��o de novos medicamentos, t�cnicas para entender o comportamento evolutivo de popula��es, da humanidade, identificar fontes causadoras de doen�as como o c�ncer, etc. E novamente eu pergunto. O que n�s da computa��o temos com isso? Sem a grande evolu��o das m�quinas e com isso, a possibilidade de implementarmos algoritmos com t�cnicas de intelig�ncia artificial, servidores capazes de processar volumes extraordin�rios de dados, capacidade de armazenamento desses dados, etc. Sem tudo isso, os pesquisadores ainda estariam no in�cio do processamento do genoma humano.

�

Uma das principais t�cnicas aplicadas em bioinform�tica � a de Minera��o de Dados, um dos focos desta coluna. As fun��es da Oracle que abordam o uso deste tipo de informa��o fazem parte do pacote Oracle Data Mining.

�

Bom, depois desta r�pida explica��o, vejamos na pr�tica como usar a fun��o BLAST no Oracle.

�

BLAST � a abrevia��o de Basic Local Alignment Search Tool. O BLAST foi um algoritmo desenvolvido em 1990 por Stephen Altschul para compara��o r�pida de seq��ncias. Normalmente � usado para comparar seq��ncias de nucleot�deos ou de amino�cidos. Dentro do Oracle existem as seguintes varia��es do BLAST:

�

�� BLASTN: Compara uma seq��ncia de DNA informada pelo usu�rio com as seq��ncias armazenadas na base de dados e retorna as seq��ncias mais similares.

�� BLASTP: Compara uma seq��ncia de prote�nas informada pelo usu�rio com as seq��ncias armazenadas na base de dados e retorna as seq��ncias mais similares.

�� BLASTX: Compara os produtos conceituais da tradu��o de uma seq��ncia de nucleot�deos com uma seq��ncia de prote�na do banco de dados.

�� TBLASTN: Compara uma seq��ncia de prote�nas informada pelo usu�rio com seq��ncias de nucleot�deos no banco, fazendo a tradu��o de nucleot�deos para prote�nas dinamicamente.

�� TBLASTX: Compara as tradu��es das seq��ncias de nucleot�deos informadas pelo usu�rio com as seq��ncias de prote�nas armazenadas na base.

�

Existem duas function tables para BLAST no Oracle:

�

�� MATCH, que retorna:

�

�� q_seq_id: o identificador da seq��ncia.

�� t_seq_id: identifica o id da seq��ncia usado em bancos espec�ficos de seq��ncia, como GenBank.

�� score: score do alinhamento.

�� value: o valor esperado.

�

ALIGN, que retorna:

�

�� q_seq_id: o identificador da seq��ncia.

�� t_seq_id: identifica o id da seq��ncia usado em bancos espec�ficos de seq��ncia, como GenBank.

�� pct_identity: percentual de similaridade id�ntica entre as seq��ncias consultadas e as armazenadas no banco.

�� aligment_length: tamanho do alinhamento.

�� mismatches: n�mero de alinhamentos mal-sucedidos entre a seq��ncia informada e as armazenadas no banco.

�� gap_openings: n�mero de espa�os inseridos para o alinhamento acontecer.

�� gap_list: lista dos locais onde foram inseridos os espa�os.

�� q_start: posi��o onde se inicia a inser��o de espa�o no alinhamento.

�� q_end: posi��o onde termina a inser��o de espa�o no alinhamento.

�� s_start: posi��o onde come�a o alinhamento dentro da seq��ncia.

�� s_end: posi��o onde termina o alinhamento dentro da seq��ncia.

�� expect: o valor esperado do alinhamento.

�� score: score do alinhamento.

�

N�s vamos usar os dados abaixo para os nossos exemplos:

�

Tabela de Prote�nas:

�

Tabela de Nucleot�deos � Organismo E. Coli:

�

Nosso primeiro exemplo � uma busca na seq��ncia de prote�nas humanas nos dados do SwissProt (o SwissProt � um banco de dados de prote�nas desenvolvido pelo Instituto de Bioinform�tica da Su��a). A seq��ncia que vamos informar tamb�m � uma parte de outra seq��ncia do SwissProt.

�

select T_SEQ_ID AS seq_id, score

� from TABLE(

�� BLASTP_MATCH (

�� (select sequence from query_db),

�� CURSOR(SELECT seq_id, seq_data

�� FROM swissprot

�� WHERE organism = 'Homo sapiens (Human)'),

�� 1,

�� -1,

�� 0,

�� 'BLOSUM62',

�� 10,

�� 0,

�� 0)

�� )

order by score,seq_id;

�

SEQ_ID ��SCORE ��

---------- -----------

O14530�� 30

P31947�� 169

P31946�� 205

�

O score que tivemos como resposta representa o qu�o pr�ximo a seq��ncia em quest�o est� da seq��ncia informada. No nosso caso, a primeira seq��ncia se difere apenas 30 �pontos� da seq��ncia informada.

�

Nosso segundo exemplo utiliza o BLASTX, onde a seq��ncia que ser� inserida � de nucleot�deos, que ser� traduzida e comparada com dados de prote�nas. Vamos usar as seq��ncias de nucleot�deos do organismo E. coli e a seq��ncia que iremos inserir � uma parte do SwissProt, banco de prote�nas.

�

select *

�� from TABLE(

�� TBLAST_MATCH (

�� (select sequence from ecoli_query),

�� CURSOR(SELECT seq_id, seq_data FROM prot_db),

�� 1,

�� -1,

�� 'blastx',

�� 1,

�� 0,

�� 'BLOSUM62',

�� 10,

�� 0,

�� 0)

�� )

order by score,t_seq_id;

�

T_SEQ_ID�� SCORE

------------ ---------

103625�� 32��

100368�� 33 ��

103625�� 33 ��

52624�� 33 ��

54625�� 33 ��

103625�� 36 ��

132801�� 36 ��

132801�� 38 ��

132801�� 41 ��

103625�� 44 ��

132801�� 44 ��

103625�� 45 ��

12416�� 45 ��

103625�� 49 ��

�

Bem pessoal, se n�s, al�m de usarmos estas fun��es espec�ficas para dados biol�gicos pudermos juntar a isto outras caracter�sticas de BI, aumentamos as possibilidades de an�lise de dados. Por exemplo, poder�amos descobrir padr�es entre determinadas seq��ncias para cria��o de novas drogas, apenas analisando as diferen�as encontradas entre elas.

�

Eu espero que voc�s tenham gostado deste artigo e se tiverem mais interesse, mandem e-mail, postem coment�rios. Estou � disposi��o para esclarecer d�vidas.

�

Um abra�o a todos e at� a pr�xima.

�

Vander Emiro Muniz

vmuniz@triscal.com.br

www.triscal.com.br

Leia tamb�m

As fun��es esquecidas do Oracle

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Vander Em 2007

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

As fun��es esquecidas do Oracle � Parte II

Neste artigo falaremos sobre Life Sciences e as fun��es que existem no banco de dados que s�o usadas para dados biol�gicos.

Leia tamb�m

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Perguntas frequentes

Nossos casos de sucesso