Elasticsearch: Como gerenciar logs com Logstash

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Desenvolvido pela Elastic (a mesma empresa que lidera o desenvolvimento do Elastichsearch), o Logstash � um pipeline de dados que ajuda a processar logs (que podem ser, de forma mais abstrata, registros e outros dados de eventos) a partir de uma variedade de sistemas. Com 165 plugins, o Logstash pode se conectar a uma variedade de fontes e permite a cria��o de sistema de an�lise central altamente escal�vel. Al�m disso, com o fim dos conectores do tipo River (removidos na vers�o 1.5), o Logstash passou a ser definitivamente a melhor forma de conectar-se com bases de dados SQL .

O Logstash � parte da pilha ELK, composta tamb�m pelo Elasticsearch e o Kibana. O Elasticsearch � uma ferramenta de indexa��o textual altamente difundida e o Kibana permite a cria��o de gr�ficos a partir de dados indexados no Elasticsearch. A ideia do ELK � simples e muito interessante, como ilustrada na Figura 1: o Logstash recebe os logs de distintas fontes, realiza as transforma��es, normaliza e agrupa os mesmos, indexa no Elasticsearch, e o Kibana, por sua vez, os apresenta de forma gr�fica.

Pilha ELK

Figura 1. Pilha ELK.

A motiva��o por tr�s do Logstash � que dados essenciais aos neg�cios est�o geralmente espalhados entre diversos sistemas, cada um no seu pr�prio formato. Logstash permite analisar esses dados e transform�-los para um formato �nico antes de inseri-lo no Elasticsearch ou em outra ferramenta de an�lises de sua escolha. Al�m disso, como a maioria dos registros escritos por infraestrutura e aplica��es t�m formatos personalizados, o Logstash fornece uma maneira r�pida, conveniente e personalizada para analisar esses logs em grande escala.

Para instalar o Logstash n�o � necess�rio ter o Elasticsearch instalado ou em execu��o, por�m, nesse artigo as duas ferramentas v�o ser utilizadas em conjunto. Assim, em uma m�quina com Java instalado, deve-se baixar a �ltima vers�o do site do Elasticsearch, desempacot�-la e executar o seguinte comando:

 ./bin/elasticsearch

Se tudo ocorreu bem, pode-se chamar localhost:9200 em um navegador e o Elasticsearch ir� retornar uma resposta JSON, conforme ilustrado na Listagem 1. Nessa resposta, o par�metro name provavelmente ir� variar para cada leitor, pois � escolhido de forma aleat�ria (em resumo: n�o se preocupe se a resposta JSON n�o for exatamente igual a Listagem 1).

Listagem 1. Resposta do Elasticsearch


  {
   "status" : 200,
   "name" : "Alistaire Stuart",
   "cluster_name" : "elasticsearch",
   "version" : {
     "number" : "1.4.5",
     "build_hash" : "2aaf797f2a571dcb779a3b61180afe8390ab61f9",
     "build_timestamp" : "2015-04-27T08:06:06Z",
     "build_snapshot" : false,
     "lucene_version" : "4.10.4"
   },
   "tagline" : "You Know, for Search"
 }

Para instalar o Logstash deve-se seguir os passos seguintes passos de instala��o:

Baixar e desempacotar a �ltima vers�o do Logstash (vide se��o Links);
Alterar a o arquivo logstash.conf, conforme ser� apresentado na sequ�ncia; e
Executar bin/logstash agent -f logstash.conf.

No exemplo apresentado nesse artigo as entradas vir�o de logs do Apache Web Server e de um servidor de e-mail. A ideia apresentada na Figura 2 � que esses logs sejam filtrados usando, por exemplo, o Grok, o GeoIP, o Data e o Anonymize (explicados na sequ�ncia) e enviados ao Elasticsearch. Assim, existem tr�s abstra��es principais no Logstash:

inputs, ou entradas, que s�o as fontes dos logs que ser�o analisados. Tais fontes devem ser arquivos alcan��veis pelo sistema operacional onde o Logstash est� instalado;
filters, ou filtros, que s�o transforma��es e opera��es que podem ser realizadas sobre os dados presentes nos logs. Geralmente s�o escritos na linguagem de scripts Grok, mas existem tamb�m outros tipos de filtros, como ser� apresentado na sequ�ncia do artigo;
finalmente, existem os outputs, ou sa�da, que definem onde e como os logs v�o ser escritos (geralmente no Elasticsearch).

Arquitetura do
exemplo

Figura 2. Arquitetura do exemplo.

Os tipos de entradas (ou inputs) para o Logstash s�o os mais variados poss�veis, entre os quais destacam-se logs de servidores (por exemplo: Apache, Tomcat, Glasfish), arquivos de e-mail, bancos SQL, e outros tipos de arquivo. A Listagem 2 apresenta como declarar um input no arquivo logstash.conf. Deve-se dizer qual � o caminho para acessar os logs no sistema de arquivos, o tipo (que � meramente um nome para refer�ncia posterior) e a posi��o de onde o Logstash deve come�ar a analisar o arquivo.

Listagem 2. Input de logs do Apache


  input {
  file {
  type => "apache-access" 
  path => "/var/log/apache.log"
  start_position => "beginning" 
  } 
  }

A Listagem 2 � um bom come�o, mas n�o o suficiente. Imagine a seguinte situa��o: voc� quer que o Logstash leia os valores dos logs do MySQL a cada segundo (imagine um ambiente com muito processamento), al�m disso, podemos ativar o debug para saber o que est� acontecendo durante o desenvolvimento, e finalmente, no lugar de buscar um arquivo espec�fico, podemos analisar toda a pasta /var/log/mysql/*, mas evitar os arquivos com o final .gz. A Listagem 3 apresenta o input para os logs do MySQL.

Listagem 3. Input de logs do MySQL


  input {
  file {
  type => "mysql" 
  start_position => "beginning" 
  debug => true
  discover_interval => 1
  path => "/var/log/mysql/*"
  exclude => "*.gz"
  } 
  }

Uma vez que foi configurada as entradas de dados � necess�rio que as mesmas sejam analisadas e seus valores estruturados. Para tal, a linguagem Grok � atualmente a melhor maneira em logstash para analisar e transformar dados de log n�o estruturados em algo estruturado e pass�vel de consulta. Aqui uma dica � importante: para verificar se seu script Grok est� executando corretamente ou mesmo encontrar onde est� algum tipo de falha � recomendado utilizar o debugger para Grok (vide se��o Links).

O Grok � uma ferramenta perfeita para logs como syslog, apache e outros logs de servidor web, logs de MySQL, e em geral, qualquer formato de registro, que � escrito para o homem e n�o para o consumo do computador. A Listagem 4 apresenta como filtrar apenas mensagens de log do Apache.

A primeira parte do filtro verifica se o valor filtrado vem do input apache-access, na sequ�ncia garante que s� registros que contenham o valor COMBINEDAPACHELOG sejam enviados para a sa�da.

Listagem 4. Filtro com Grok


  filter {
  if [type] == "apache-access" { 
  grok {
  match => [ "message", "%{COMBINEDAPACHELOG}" ] 
  }
   }
  }

Antes de listar os tipos de filtro dispon�veis � importante saber que nem todos os filtros est�o dispon�veis na distribui��o padr�o do Logstash. Para usar esses filtros deve-se instalar plugins, sendo o mais importante chamado de contrib. Para instalar essa ferramenta de forma padr�o deve-se navegar at� o diret�rio de instala��o do Logstatsh e executar o comando bin/plugin install contrib.

Al�m do Grok, a seguir veremos exemplos para alguns tipos de filtros.

Date

Esse filtro ret�m registros do log de acordo com um valor temporal. Por exemplo, n�o maiores que uma certa data, ou a partir de um dia e hora espec�fico. Na Listagem 5 apresenta-se o uso desse plugin.

Listagem 5. Filtro de datas


  filter {
  date {
  match => [ "logdate", "MMM dd YYYY HH:mm:ss" ]
  }
  }

Grep

Permite filtrar elementos que n�o contenham um certo padr�o de caracteres. Conforme a Listagem 6, o grep evita que registro com certos valores sejam enviados ao Elasticsearch. Esse filtro � parte do pacote contrib.

Listagem 6. Filtro Grep


  filter {
   grep{
  match => [ "message", "valor" ]
  }
  }

Anonymize

Esse filtro substitui valores de campos usando um hash consistente (ou seja, � poss�vel fazer correla��es entre os valores substitu�dos), a fim de n�o revelar n�meros de documentos, nomes de pessoas, ou outras informa��es sens�veis. Pode-se definir diversos campos para isso, usando o fields e al�m disso, devemos dizer qual � a chave, ou seja, o valor que ser� substitu�do. O algoritmo para gera��o do novo valor pode ser "SHA1", "SHA256", "SHA384", "SHA512", "MD5", "MURMUR3" ou "IPV4_NETWORK", sendo "SHA1" o padr�o. Veja um exemplo na Listagem 7.

Listagem 7. Filtro Anonymize


  filter {
  anonymize {
  fields => ["address", "firstname", "lastname", "secretData"] 
  key => "valor"
  algorithm => "SHA256"
  }
  }

CSV

Esse filtro toma um campo de evento que cont�m dados CSV, analisa-o e guarda-o como campos individuais (opcionalmente pode especificar os nomes). Este filtro tamb�m pode analisar os dados com qualquer separador, n�o apenas v�rgulas. A Listagem 8 apresenta um exemplo que cont�m nomes para as colunas e usa como separador pipe em lugar da v�rgula.

Listagem 8. Filtro CSV


  filter {
  csv {
  columns => ['A','B','C','D','E']
  separator => "|"
  }
  }

Checksum

Oferece um filtro til para a exclus�o de mensagens duplicadas ou simplesmente para proporcionar um identificador �nico. Deve ser usado com cuidado, pois ainda � experimental. A Listagem 9 apresenta um exemplo de como usar o filtro checksum.

Listagem 9. Filtro Checksum


  filter {
  checksum {
  add_field => { "campo_%{somefield}" => "Campo do host  %{host}" }
  }
  }

GeoIP

Esse filtro adiciona informa��es sobre a localiza��o geogr�fica de endere�os IP, com base em dados do banco de dados MaxMind. O campo criado armazena as informa��es no formato GeoJSON e, quando enviado para o Elasticsearch, mapeia para um campo geo_point ElasticSearch. A Listagem 10 apresenta o filtro GeoIP, onde o �nico campo obrigat�rio � o source, que define onde est� o IP que ser� transformado em latitude e longitude. Al�m disso, pode-se definir qual � o campo de sa�da usando o target, qual base de dados ser� usada (no caso GeoLiteCity.dat) e adicionar campos ao pipeline (no caso longitude e latitude).

Listagem 10. Filtro GeoIP


  geoip {
        source => "clientip"
        target => "geoip"
  database => "/etc/logstash/GeoLiteCity.dat"      
  add_field => [ "[geoip][coordinates]", "%{[geoip][latitude]}"  ]
  add_field => [ "[geoip][coordinates]", "%{[geoip][longitude]}" ]
  }

Range

Permite verificar se os registros est�o dentro de valores esperados. S�o suportados n�meros e strings, sendo que os n�meros devem estar dentro do intervalo valor num�rico e a string respeitar um certo comprimento. Como ilustrado na Listagem 11, para usar o filtro range deve-se definir sobre qual campo se est� trabalhando, o tamanho m�nimo e m�ximo que deve ser considerado e o valor de sa�da.

Listagem 11. Filtro Range


  range {
  ranges => [
  "message", 0, 10, "tag:short",
  "message", 11, 100, "tag:medium",
  "message", 101, 1000, "tag:long",
  "message", 1001, 1e1000, "drop"
  ]
    }

XML

Recebe um campo que cont�m XML e o expande de acordo com sua estrutura. A Listagem 12 apresenta um exemplo desse filtro, onde define-se que os valores do campo message ser�o expandidos.

Listagem 12. Filtro XML


  filter {
  xml {
  source => "message"
  }
  }

Urldecode

Permite descodificar os campos que contenham URLs. A Listagem 13 apresenta um exemplo desse campo, onde o mais interessante � que podemos definir o charset de decodifica��o (no caso foi usado o ISO-8859-7), mas o padr�o � o UTF-8.

Listagem 13. Filtro Urldecode


  filter {
  urldecode {
  charset => "ISO-8859-7"
  add_tag => [ "foo_%{somefield}", "taggedy_tag"]
  }
  }

Mutate

Permite muta��es gerais sobre campos. Voc� pode renomear, remover, substituir e modificar os campos em seus eventos. Na Listagem 14 esse filtro ir� converter os valores do campo idade em inteiros, ir� unir os valores do array entrada (caso o campo n�o seja um array, o logstash ir� ignor�-lo) e transformar os valores do campo nome em letras min�sculas.

Listagem 14. Filtro Mutate


  filter {
  mutate {
  convert => { "idade" => "integer" }
   join => { "entradas" => "," }
  lowercase => [ "fieldname" ]
  }
  }

Prune

Permite remover eventos com base em uma whitelist/blacklist de nomes de campo ou seus valores (nomes e valores tamb�m podem ser express�es regulares). Na Listagem 15 apresenta-se como utilizar o prune para garantir que s� eventos com os campos method, referrer, status ou que termine com field sejam enviados ao Elasticsearch.

Listagem 15. Filtro Prune


  filter {
    prune {
  add_tag => [ "pruned" ]
                  whitelist_names => [ "method", "(referrer|status)", "${some}_field" ]
    }
  }

Os filtros podem ser combinados com o Grok. Por exemplo, na Listagem 16 apresenta-se como combinar o Grok e um filtro de Date e Mutate. Como pode-se notar, um filtro s� pode ter v�rias partes, ou seja, formar� um pipeline (uma sequ�ncia) por onde a informa��o vai fluir.

Listagem 16. Combinando Filtro com Grok com Data


  filter {
  if [path] =~ "access" {
  mutate { 
  replace => { type => "apache_access" } 
  }
   
  grok {
  match => { "message" => "%{COMBINEDAPACHELOG}" }
  }
   
  date {
  match => [ "timestamp" , "dd/MMM/yyyy:HH:mm:ss Z" ]
  }
  } else if [path] =~ "error" {
      mutate { replace => { type => "apache_error" } }
    } else {
      mutate { replace => { type => "random_logs" } }
    }
  }

Finalmente, devemos criar um output para que as informa��es de log sejam inseridas no Elastisearch. A Listagem 17 apresenta essa atividade, sendo que devemos escolher: o host, a porta, o �ndice que j� deve estar criado previamente, e o protocolo de envio.

Sobre o protocolo de envio, al�m do HTTP, que usa uma conex�o RESTful para comunicar-se com o Elasticsearch, pode-se usar os tipos node e transport.

O protocolo node ir� se conectar ao cluster como um n� normal de um cluster Elasticsearch, permitindo, por exemplo, fazer descoberta multicast (ou seja, n�o seria necess�rio especificar o host e porta do Elasticsearch).

Para usar o protocolo node deve-se liberar a comunica��o bidirecional na porta 9300 da m�quina onde o Logstash est� conectado. O protocolo transport vai se conectar ao host tamb�m usando o protocolo de comunica��o usado entre os n�s do Elasticsearch, mas nesse caso, o Logstash n�o vai aparecer como mais um n� do cluster. Isso � interessante quando n�o se pode liberar o acesso bidirecional entre o Logstash e o Elasticsearch.

Listagem 17. Criar um output


  output {
  elasticsearch {
  host => "localhost"
  port => 80
  index => "devmedia"
  protocol => "http" 
  } 
  }

Para que seja poss�vel usar o Logstash, deve-se criar o �ndice devmedia. Para a cria��o desse �ndice, pode-se usar o Sense (vide se��o Links), que � um plugin para o Google Chrome que atua como um cliente enviando chamadas REST/HTTP. Conforme ilustrado na Figura 3, o comando PUT /devmedia/ ir� criar um �ndice chamado devmedia.

Sense no
Chrome

Figura 3. Sense no Chrome.

Para come�ar a enviar seus registros, voc� ter� que baixar Logstash e colocar os trechos de configura��o vistos no arquivo logstash.conf. Em seguida, � preciso iniciar o Logstash com o comando:

bin/logstash agent -f logstash.conf

Uma vez que os registros estejam registrados no �ndice, esses podem ser explorados usando Kibana ou as pr�prias buscas do Elasticsearch.

O Logstash foi constru�do com extensibilidade em mente, por isso fornece uma API para o desenvolvimento de plugins. Dessa forma, a comunidade pode publicar novos plugins a qualquer momento. Um dos principais plugins para Logstash � o Logstash Forwarder (vide se��o Links), que facilita a entrada dos arquivos de log, pois permite que os mesmos sejam enviados atrav�s de um endere�o de rede usando protocolos de transporte seguros.

A primeira provid�ncia � adicionar o Logstash Forwarder como uma entrada. A Listagem 18 mostra como fazer isso: deve-se criar um input do tipo lumberjack (esse era o nome antigo do Logstash Forwarder), a porta pela qual os logs chegar�o, os caminhos para os certificados SSL e o type que � apenas um nome.

Listagem 18. Configura��o do Logstash Forwarder

 
  input {
    lumberjack {
   
      port => 12345
   
     ssl_certificate => "path/to/ssl.crt"
      ssl_key => "path/to/ssl.key"
      type => "somelogs"
    }
  }

Para instalar o Logstash Forwarder deve-se compilar seus c�digos em Go (vide se��o Links). Em seguida baixe o c�digo do logstash-forwarder usando o Git e complie seu c�digo da Listagem 19.

Listagem 19. Construir o Logstash Forwarder

 
  git clone git://github.com/elasticsearch/logstash-forwarder.git
  cd logstash-forwarder 
  go build -o logstash-forwarder

Os autores do projeto Logstash-Fowarder recomendam que n�o se use gccgo para compilar este projeto, caso contr�rio ser� produzido um bin�rio com depend�ncias para libgo o que inviabiliza a execu��o independente do Logstash-Fowarder.

Os pacotes criados devem ser copiados em /opt/logstash-forwarder, e para execu��o usa-se o seguinte comando:

logstash-forwarder -config logstash-forwarder.conf

O arquivo logstash-forwarder.conf deve ter a configura��o da Listagem 20, onde o campo network vai definir os par�metros dos servidores para onde os logs devem ser enviados (no exemplo, 10.0.0.5:5043 e 10.0.0.6:5043), e o campo files quais s�o os arquivos que ser�o enviados para esses servidores.

Listagem 20. Construir o Logstash Forwarder


  {
    "network": {
                  "servers": [ "10.0.0.5:5043", �10.0.0.6:5043� ],
                  "ssl certificate": "/etc/ssl/certs/logstash-forwarder.crt",
                  "ssl key": "/etc/ssl/private/logstash-forwarder.key",
                  "ssl ca": "/etc/ssl/certs/logstash-forwarder.crt"
    },
    "files": [
                  {
                  "paths": [ "/var/log/syslog" ],
                  "fields": { "type": "iptables" }
                  },
                  {
                  "paths": [ "/var/log/apache2/*access*.log" ],
                  "fields": { "type": "apache" }
                  }
    ]
  }

O Logstash Forwarder permite a cria��o de arquiteturas bastante complexas para o tratamento de logs. Por exemplo, a Figura 4 mostra como ele poderia ser usado em uma arquitetura que contaria tamb�m com duas inst�ncias do Logstash (uma para recebimento e outra para indexa��o) e o Redis, al�m do Elasticsearch e do Kibana.

Arquitetura
avan�ada usando o Logstash Forwarder

Figura 4. Arquitetura avan�ada usando o Logstash Forwarder

Links

Logstash
https://www.elastic.co/downloads/logstash

Debugger para Grok
http://grokdebug.herokuapp.com/

GeoIp para bancos MaxMind
http://www.maxmind.com/en/geolite

Sense
https://github.com/bleskes/sense

Forwarder
https://github.com/elastic/logstash-forwarder

Go
http://golang.org/doc/install

Confira outros conte�dos:

Por Luiz Em 2015

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Faculdade Florianopolis

As listagens 5 e 6, dos filtros por data e pelo grep, n�o tem nada de diferente. Est� correto isso? � assim mesmo?

há +1 ano

Ver coment�rio anterior

Luiz Santana

Desculpe a demora. Na verdade est� correto. Ambos filtros de grep e date possuem a op��o "match". Qualquer d�vida entre em contato novamente. Um abra�o, Luiz.

há +1 ano

M�todo para iniciantes

sem base nenhuma

Mentorias individuais

quando voc� travar

+40 projetos reais

para o seu portf�lio

+5000 exerc�cios

para fixar o conte�do

Suporte IA

que te ensina

No code e automa��es

pra entregar mais r�pido

Veja os resultado dos nossos alunos

Conquistas reais de quem est� aplicando o m�todo

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Elasticsearch: Como gerenciar logs com Logstash

Esse artigo apresenta o Logstash, uma ferramenta para gerenciar logs que funciona muito bem com o Elasticsearch.

Date

Grep

Anonymize

CSV

Checksum

GeoIP

Range

XML

Urldecode

Mutate

Prune

Confira outros conte�dos:

<Perguntas frequentes>

Por onde devo iniciar os estudos?

Em quanto tempo vou me tornar um programador?

Eu preciso de um diploma de faculdade para come�ar a atuar como programador?

Por que a programa��o se tornou a profiss�o mais promissora da atualidade?

Quais s�o os principais diferenciais da DevMedia?

O que eu irei aprender estudando pela DevMedia?

Quais as vantagens de aprender programa��o atrav�s da linguagem JavaScript?

A plataforma oferece certificados?

A plataforma tem suporte ao aluno, como funciona?

A DevMedia me forma como programador Full Stack?

Tem hor�rio para as aulas?

Por que a DevMedia n�o usa videoaulas em sua did�tica?

Preciso de um computador espec�fico para estudar na DevMedia?

Eu consigo estudar pelo celular?

A DevMedia tem aplicativo?

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

Quais s�o os planos de assinatura dispon�veis?

Adquirindo o plano, terei acesso a todo o conte�do?

A plataforma tem planos vital�cios?

A DevMedia tem fidelidade?

Como funciona o cancelamento?

Como excluir meus dados da plataforma?