Alguém conhece algum HTML PArser, gratuito?

Delphi

17/10/2006

Olá amigos, alguém conhece alguma Unit, Componente que eu possa pegar as URLs de dentro de um Site? Tentei achar alguma coisa pro Indy mas não achei... só achei bibliotecas grandes, porém pagas...

Desde já agradeço


[]s


Titanius

Titanius

Curtidas 0

Respostas

Massuda

Massuda

17/10/2006

Sugestão... se você conhece RegEx, acho que essa seria uma solução mais simples. Parseadores de HTML geralmente são complexos, alguns consomem muita memória. Alguns links que podem ser úteis se você optar por isso:

http://www.regexbuddy.com/delphi.html (free)
http://www.nichesoftware.co.nz/regex.html (shareware)
http://www.renatomancuso.com/ (free)


GOSTEI 0
Titanius

Titanius

17/10/2006

Olá massuda, minha intenção é pesquisar todas as urls de um site... pra gravar num banco de dados... tipo um web crawler...

esse negocio de RegEx, será que funciona pra isso?


[]s


GOSTEI 0
Massuda

Massuda

17/10/2006

esse negocio de RegEx, será que funciona pra isso?
Se você conhece RegEx (regular expressions/expressões regulares), você pode tentar fazer busca pelo padrão...
<a[\s]+[^>]*?href[\s]?=[\s\´\´]+(.*?)[\´\´]+.*?>([^<]+|.*?)?<\/a>


Não é boa idéia usar isso sem ter noção de expressões regulares.


GOSTEI 0
Titanius

Titanius

17/10/2006

Entendi.. onde posso buscar sobre estas tais Expressoes Regulares?


[]s


GOSTEI 0
Massuda

Massuda

17/10/2006

Google?

Como expressões regulares são muito usadas em Perl e PHP, deve ser relativamente fácil achar material sobre isso. A idéia não é complicada, mas o esquema de definir padrões é.


GOSTEI 0
Titanius

Titanius

17/10/2006

Valeu... :D


GOSTEI 0
POSTAR