Elasticsearch: Como gerenciar logs com Logstash

Desenvolvido pela Elastic (a mesma empresa que lidera o desenvolvimento do Elastichsearch), o Logstash � um pipeline de dados que ajuda a processar logs (que podem ser, de forma mais abstrata, registros e outros dados de eventos) a partir de uma variedade de sistemas. Com 165 plugins, o Logstash pode se conectar a uma variedade de fontes e permite a criaç�o de sistema de an�lise central altamente escal�vel. Al�m disso, com o fim dos conectores do tipo River (removidos na vers�o 1.5), o Logstash passou a ser definitivamente a melhor forma de conectar-se com bases de dados SQL .

O Logstash � parte da pilha ELK, composta tamb�m pelo Elasticsearch e o Kibana. O Elasticsearch � uma ferramenta de indexaç�o textual altamente difundida e o Kibana permite a criaç�o de gr�ficos a partir de dados indexados no Elasticsearch. A ideia do ELK � simples e muito interessante, como ilustrada na Figura 1: o Logstash recebe os logs de distintas fontes, realiza as transformaç�es, normaliza e agrupa os mesmos, indexa no Elasticsearch, e o Kibana, por sua vez, os apresenta de forma gr�fica.

Figura 1. Pilha ELK.

A motivaç�o por tr�s do Logstash � que dados essenciais aos neg�cios est�o geralmente espalhados entre diversos sistemas, cada um no seu pr�prio formato. Logstash permite analisar esses dados e transform�-los para um formato �nico antes de inseri-lo no Elasticsearch ou em outra ferramenta de an�lises de sua escolha. Al�m disso, como a maioria dos registros escritos por infraestrutura e aplicaç�es t�m formatos personalizados, o Logstash fornece uma maneira r�pida, conveniente e personalizada para analisar esses logs em grande escala.

Para instalar o Logstash n�o � necess�rio ter o Elasticsearch instalado ou em execuç�o, por�m, nesse artigo as duas ferramentas v�o ser utilizadas em conjunto. Assim, em uma m�quina com Java instalado, deve-se baixar a �ltima vers�o do site do Elasticsearch, desempacot�-la e executar o seguinte comando:

./bin/elasticsearch

Se tudo ocorreu bem, pode-se chamar localhost:9200 em um navegador e o Elasticsearch ir� retornar uma resposta JSON, conforme ilustrado na Listagem 1. Nessa resposta, o par�metro name provavelmente ir� variar para cada leitor, pois � escolhido de forma aleat�ria (em resumo: n�o se preocupe se a resposta JSON n�o for exatamente igual a Listagem 1).

Listagem 1. Resposta do Elasticsearch

{ "status" : 200, "name" : "Alistaire Stuart", "cluster_name" : "elasticsearch", "version" : { "number" : "1.4.5", "build_hash" : "2aaf797f2a571dcb779a3b61180afe8390ab61f9", "build_timestamp" : "2015-04-27T08:06:06Z", "build_snapshot" : false, "lucene_version" : "4.10.4" }, "tagline" : "You Know, for Search" }

Para instalar o Logstash deve-se seguir os passos seguintes passos de instalaç�o:

Baixar e desempacotar a �ltima vers�o do Logstash (vide seç�o Links);
Alterar a o arquivo logstash.conf, conforme ser� apresentado na sequ�ncia; e
Executar bin/logstash agent -f logstash.conf.

No exemplo apresentado nesse artigo as entradas vir�o de logs do Apache Web Server e de um servidor de e-mail. A ideia apresentada na Figura 2 � que esses logs sejam filtrados usando, por exemplo, o Grok, o GeoIP, o Data e o Anonymize (explicados na sequ�ncia) e enviados ao Elasticsearch. Assim, existem tr�s abstraç�es principais no Logstash:

inputs, ou entradas, que s�o as fontes dos logs que ser�o analisados. Tais fontes devem ser arquivos alcanç�veis pelo sistema operacional onde o Logstash est� instalado;
filters, ou filtros, que s�o transformaç�es e operaç�es que podem ser realizadas sobre os dados presentes nos logs. Geralmente s�o escritos na linguagem de scripts Grok, mas existem tamb�m outros tipos de filtros, como ser� apresentado na sequ�ncia do artigo;
finalmente, existem os outputs, ou sa�da, que definem onde e como os logs v�o ser escritos (geralmente no Elasticsearch).

Figura 2. Arquitetura do exemplo.

Os tipos de entradas (ou inputs) para o Logstash s�o os mais variados poss�veis, entre os quais destacam-se logs de servidores (por exemplo: Apache, Tomcat, Glasfish), arquivos de e-mail, bancos SQL, e outros tipos de arquivo. A Listagem 2 apresenta como declarar um input no arquivo logstash.conf. Deve-se dizer qual � o caminho para acessar os logs no sistema de arquivos, o tipo (que � meramente um nome para refer�ncia posterior) e a posiç�o de onde o Logstash deve começar a analisar o arquivo.

Listagem 2. Input de logs do Apache

input { file { type => "apache-access" path => "/var/log/apache.log" start_position => "beginning" } }

A Listagem 2 � um bom começo, mas n�o o suficiente. Imagine a seguinte situaç�o: voc� quer que o Logstash leia os valores dos logs do MySQL a cada segundo (imagine um ambiente com muito processamento), al�m disso, podemos ativar o debug para saber o que est� acontecendo durante o desenvolvimento, e finalmente, no lugar de buscar um arquivo espec�fico, podemos analisar toda a pasta /var/log/mysql/*, mas evitar os arquivos com o final .gz. A Listagem 3 apresenta o input para os logs do MySQL.

Listagem 3. Input de logs do MySQL

input { file { type => "mysql" start_position => "beginning" debug => true discover_interval => 1 path => "/var/log/mysql/*" exclude => "*.gz" } }

Uma vez que foi configurada as entradas de dados � necess�rio que as mesmas sejam analisadas e seus valores estruturados. Para tal, a linguagem Grok � atualmente a melhor maneira em logstash para analisar e transformar dados de log n�o estruturados em algo estruturado e pass�vel de consulta. Aqui uma dica � importante: para verificar se seu script Grok est� executando corretamente ou mesmo encontrar onde est� algum tipo de falha � recomendado utilizar o debugger para Grok (vide seç�o Links).

O Grok � uma ferramenta perfeita para logs como syslog, apache e outros logs de servidor web, logs de MySQL, e em geral, qualquer formato de registro, que � escrito para o homem e n�o para o consumo do computador. A Listagem 4 apresenta como filtrar apenas mensagens de log do Apache.

A primeira parte do filtro verifica se o valor filtrado vem do input apache-access, na sequ�ncia garante que s� registros que contenham o valor COMBINEDAPACHELOG sejam enviados para a sa�da.

Listagem 4. Filtro com Grok

filter { if [type] == "apache-access" { grok { match => [ "message", "%" ] } } }

Antes de listar os tipos de filtro dispon�veis � importante saber que nem todos os filtros est�o dispon�veis na distribuiç�o padr�o do Logstash. Para usar esses filtros deve-se instalar plugins, sendo o mais importante chamado de contrib. Para instalar essa ferramenta de forma padr�o deve-se navegar at� o diret�rio de instalaç�o do Logstatsh e executar o comando bin/plugin install contrib.

Al�m do Grok, a seguir veremos exemplos para alguns tipos de filtros.

Date

Esse filtro ret�m registros do log de acordo com um valor temporal. Por exemplo, n�o maiores que uma certa data, ou a partir de um dia e hora espec�fico. Na Listagem 5 apresenta-se o uso desse plugin.

Listagem 5. Filtro de datas

filter { date { match => [ "logdate", "MMM dd YYYY HH:mm:ss" ] } }

Grep

Permite filtrar elementos que n�o contenham um certo padr�o de caracteres. Conforme a Listagem 6, o grep evita que registro com certos valores sejam enviados ao Elasticsearch. Esse filtro � parte do pacote contrib.

Listagem 6. Filtro Grep

filter { grep{ match => [ "message", "valor" ] } }

Anonymize

Esse filtro substitui valores de campos usando um hash consistente (ou seja, � poss�vel fazer correlaç�es entre os valores substitu�dos), a fim de n�o revelar n�meros de documentos, nomes de pessoas, ou outras informaç�es sens�veis. Pode-se definir diversos campos para isso, usando o fields e al�m disso, devemos dizer qual � a chave, ou seja, o valor que ser� substitu�do. O algoritmo para geraç�o do novo valor pode ser "SHA1", "SHA256", "SHA384", "SHA512", "MD5", "MURMUR3" ou "IPV4_NETWORK", sendo "SHA1" o padr�o. Veja um exemplo na Listagem 7.

Listagem 7. Filtro Anonymize

filter { anonymize { fields => ["address", "firstname", "lastname", "secretData"] key => "valor" algorithm => "SHA256" } }

CSV

Esse filtro toma um campo de evento que cont�m dados CSV, analisa-o e guarda-o como campos individuais (opcionalmente pode especificar os nomes). Este filtro tamb�m pode analisar os dados com qualquer separador, n�o apenas v�rgulas. A Listagem 8 apresenta um exemplo que cont�m nomes para as colunas e usa como separador pipe em lugar da v�rgula.

Listagem 8. Filtro CSV

filter { csv { columns => ['A','B','C','D','E'] separator => "|" } }

Checksum

Oferece um filtro til para a exclus�o de mensagens duplicadas ou simplesmente para proporcionar um identificador �nico. Deve ser usado com cuidado, pois ainda � experimental. A Listagem 9 apresenta um exemplo de como usar o filtro checksum.

Listagem 9. Filtro Checksum

filter { checksum { add_field => { "campo_%" => "Campo do host %" } } }

GeoIP

Esse filtro adiciona informaç�es sobre a localizaç�o geogr�fica de endereços IP, com base em dados do banco de dados MaxMind. O campo criado armazena as informaç�es no formato GeoJSON e, quando enviado para o Elasticsearch, mapeia para um campo geo_point ElasticSearch. A Listagem 10 apresenta o filtro GeoIP, onde o �nico campo obrigat�rio � o source, que define onde est� o IP que ser� transformado em latitude e longitude. Al�m disso, pode-se definir qual � o campo de sa�da usando o target, qual base de dados ser� usada (no caso GeoLiteCity.dat) e adicionar campos ao pipeline (no caso longitude e latitude).

Listagem 10. Filtro GeoIP

geoip { source => "clientip" target => "geoip" database => "/etc/logstash/GeoLiteCity.dat" add_field => [ "[geoip][coordinates]", "%{[geoip][latitude]}" ] add_field => [ "[geoip][coordinates]", "%{[geoip][longitude]}" ] }

Range

Permite verificar se os registros est�o dentro de valores esperados. S�o suportados n�meros e strings, sendo que os n�meros devem estar dentro do intervalo valor num�rico e a string respeitar um certo comprimento. Como ilustrado na Listagem 11, para usar o filtro range deve-se definir sobre qual campo se est� trabalhando, o tamanho m�nimo e m�ximo que deve ser considerado e o valor de sa�da.

Listagem 11. Filtro Range

range { ranges => [ "message", 0, 10, "tag:short", "message", 11, 100, "tag:medium", "message", 101, 1000, "tag:long", "message", 1001, 1e1000, "drop" ] }

XML

Recebe um campo que cont�m XML e o expande de acordo com sua estrutura. A Listagem 12 apresenta um exemplo desse filtro, onde define-se que os valores do campo message ser�o expandidos.

Listagem 12. Filtro XML

filter { xml { source => "message" } }

Urldecode

Permite descodificar os campos que contenham URLs. A Listagem 13 apresenta um exemplo desse campo, onde o mais interessante � que podemos definir o charset de decodificaç�o (no caso foi usado o ISO-8859-7), mas o padr�o � o UTF-8.

Listagem 13. Filtro Urldecode

filter { urldecode { charset => "ISO-8859-7" add_tag => [ "foo_%", "taggedy_tag"] } }

Mutate

Permite mutaç�es gerais sobre campos. Voc� pode renomear, remover, substituir e modificar os campos em seus eventos. Na Listagem 14 esse filtro ir� converter os valores do campo idade em inteiros, ir� unir os valores do array entrada (caso o campo n�o seja um array, o logstash ir� ignor�-lo) e transformar os valores do campo nome em letras min�sculas.

Listagem 14. Filtro Mutate

filter { mutate { convert => { "idade" => "integer" } join => { "entradas" => "," } lowercase => [ "fieldname" ] } }

Prune

Permite remover eventos com base em uma whitelist/blacklist de nomes de campo ou seus valores (nomes e valores tamb�m podem ser express�es regulares). Na Listagem 15 apresenta-se como utilizar o prune para garantir que s� eventos com os campos method, referrer, status ou que termine com field sejam enviados ao Elasticsearch.

Listagem 15. Filtro Prune

filter { prune { add_tag => [ "pruned" ] whitelist_names => [ "method", "(referrer|status)", "$_field" ] } }

Os filtros podem ser combinados com o Grok. Por exemplo, na Listagem 16 apresenta-se como combinar o Grok e um filtro de Date e Mutate. Como pode-se notar, um filtro s� pode ter v�rias partes, ou seja, formar� um pipeline (uma sequ�ncia) por onde a informaç�o vai fluir.

Listagem 16. Combinando Filtro com Grok com Data

filter { if [path] =~ "access" { mutate { replace => { type => "apache_access" } } grok { match => { "message" => "%" } } date { match => [ "timestamp" , "dd/MMM/yyyy:HH:mm:ss Z" ] } } else if [path] =~ "error" { mutate { replace => { type => "apache_error" } } } else { mutate { replace => { type => "random_logs" } } } }

Finalmente, devemos criar um output para que as informaç�es de log sejam inseridas no Elastisearch. A Listagem 17 apresenta essa atividade, sendo que devemos escolher: o host, a porta, o �ndice que j� deve estar criado previamente, e o protocolo de envio.

Sobre o protocolo de envio, al�m do HTTP, que usa uma conex�o RESTful para comunicar-se com o Elasticsearch, pode-se usar os tipos node e transport.

O protocolo node ir� se conectar ao cluster como um n� normal de um cluster Elasticsearch, permitindo, por exemplo, fazer descoberta multicast (ou seja, n�o seria necess�rio especificar o host e porta do Elasticsearch).

Para usar o protocolo node deve-se liberar a comunicaç�o bidirecional na porta 9300 da m�quina onde o Logstash est� conectado. O protocolo transport vai se conectar ao host tamb�m usando o protocolo de comunicaç�o usado entre os n�s do Elasticsearch, mas nesse caso, o Logstash n�o vai aparecer como mais um n� do cluster. Isso � interessante quando n�o se pode liberar o acesso bidirecional entre o Logstash e o Elasticsearch.

Listagem 17. Criar um output

output { elasticsearch { host => "localhost" port => 80 index => "devmedia" protocol => "http" } }

Para que seja poss�vel usar o Logstash, deve-se criar o �ndice devmedia. Para a criaç�o desse �ndice, pode-se usar o Sense (vide seç�o Links), que � um plugin para o Google Chrome que atua como um cliente enviando chamadas REST/HTTP. Conforme ilustrado na Figura 3, o comando PUT /devmedia/ ir� criar um �ndice chamado devmedia.

Figura 3. Sense no Chrome.

Para começar a enviar seus registros, voc� ter� que baixar Logstash e colocar os trechos de configuraç�o vistos no arquivo logstash.conf. Em seguida, � preciso iniciar o Logstash com o comando:

bin/logstash agent -f logstash.conf

Uma vez que os registros estejam registrados no �ndice, esses podem ser explorados usando Kibana ou as pr�prias buscas do Elasticsearch.

O Logstash foi constru�do com extensibilidade em mente, por isso fornece uma API para o desenvolvimento de plugins. Dessa forma, a comunidade pode publicar novos plugins a qualquer momento. Um dos principais plugins para Logstash � o Logstash Forwarder (vide seç�o Links), que facilita a entrada dos arquivos de log, pois permite que os mesmos sejam enviados atrav�s de um endereço de rede usando protocolos de transporte seguros.

A primeira provid�ncia � adicionar o Logstash Forwarder como uma entrada. A Listagem 18 mostra como fazer isso: deve-se criar um input do tipo lumberjack (esse era o nome antigo do Logstash Forwarder), a porta pela qual os logs chegar�o, os caminhos para os certificados SSL e o type que � apenas um nome.

Listagem 18. Configuraç�o do Logstash Forwarder

input { lumberjack { port => 12345 ssl_certificate => "path/to/ssl.crt" ssl_key => "path/to/ssl.key" type => "somelogs" } }

Para instalar o Logstash Forwarder deve-se compilar seus c�digos em Go (vide seç�o Links). Em seguida baixe o c�digo do logstash-forwarder usando o Git e complie seu c�digo da Listagem 19.

Listagem 19. Construir o Logstash Forwarder

git clone git://github.com/elasticsearch/logstash-forwarder.git cd logstash-forwarder go build -o logstash-forwarder

Os autores do projeto Logstash-Fowarder recomendam que n�o se use gccgo para compilar este projeto, caso contr�rio ser� produzido um bin�rio com depend�ncias para libgo o que inviabiliza a execuç�o independente do Logstash-Fowarder.

Os pacotes criados devem ser copiados em /opt/logstash-forwarder, e para execuç�o usa-se o seguinte comando:

logstash-forwarder -config logstash-forwarder.conf

O arquivo logstash-forwarder.conf deve ter a configuraç�o da Listagem 20, onde o campo network vai definir os par�metros dos servidores para onde os logs devem ser enviados (no exemplo, 10.0.0.5:5043 e 10.0.0.6:5043), e o campo files quais s�o os arquivos que ser�o enviados para esses servidores.

Listagem 20. Construir o Logstash Forwarder

{ "network": { "servers": [ "10.0.0.5:5043", �10.0.0.6:5043� ], "ssl certificate": "/etc/ssl/certs/logstash-forwarder.crt", "ssl key": "/etc/ssl/private/logstash-forwarder.key", "ssl ca": "/etc/ssl/certs/logstash-forwarder.crt" }, "files": [ { "paths": [ "/var/log/syslog" ], "fields": { "type": "iptables" } }, { "paths": [ "/var/log/apache2/*access*.log" ], "fields": { "type": "apache" } } ] }

O Logstash Forwarder permite a criaç�o de arquiteturas bastante complexas para o tratamento de logs. Por exemplo, a Figura 4 mostra como ele poderia ser usado em uma arquitetura que contaria tamb�m com duas inst�ncias do Logstash (uma para recebimento e outra para indexaç�o) e o Redis, al�m do Elasticsearch e do Kibana.

Figura 4. Arquitetura avançada usando o Logstash Forwarder

Links

Logstash
https://www.elastic.co/downloads/logstash

Debugger para Grok
http://grokdebug.herokuapp.com/

GeoIp para bancos MaxMind
http://www.maxmind.com/en/geolite

Sense
https://github.com/bleskes/sense

Forwarder
https://github.com/elastic/logstash-forwarder

Go
http://golang.org/doc/install