Obtendo os links de um documento html

 

Aprenda nesta dica como fazer para obter todos os links de um documento html.

    public static String[] getLinks(String uriStr) {
        List result = new ArrayList();            try {
            URL url = new URI(uriStr).toURL();
            URLConnection conn = url.openConnection();
            Reader rd = new InputStreamReader(conn.getInputStream());                EditorKit kit = new HTMLEditorKit();
            HTMLDocument doc = (HTMLDocument)kit.createDefaultDocument();
            kit.read(rd, doc, 0);                // Encontra todos os elementos que tenham A do documento HTML
            HTMLDocument.Iterator it = doc.getIterator(HTML.Tag.A);
            while (it.isValid()) {
                SimpleAttributeSet s = (SimpleAttributeSet)it.getAttributes();                    String link = (String)s.getAttribute(HTML.Attribute.HREF);
                if (link != null) {
                    // adiciona o link encontrado na lista de links
                    result.add(link);
                }
                it.next();
            }
        } catch (MalformedURLException e) {
        } catch (URISyntaxException e) {
        } catch (BadLocationException e) {
        } catch (IOException e) {
        }           // Retorna todos os links encontrados
        return (String[])result.toArray(new String[result.size()]);
    }