Jsoup парсинг
Jsoup парсинг
подскажите пожайлуста как мне спарсить ссылку href внутри тэга h2 ???
[syntax=html4strict]<h2>
<a href="http://html.html" title="Html">HTML</a>
</h2>[/syntax]
просто парсить a[href] не получается, и другие с такими тэгами есть
мне нужен a[href] внутри h2
подскажете? или варианты?
[syntax=html4strict]<h2>
<a href="http://html.html" title="Html">HTML</a>
</h2>[/syntax]
просто парсить a[href] не получается, и другие с такими тэгами есть
мне нужен a[href] внутри h2
подскажете? или варианты?
Re: Jsoup парсинг
[syntax=java5]
Elements resultLinks = doc.select("h2.r > a[href]");[/syntax]
P.S. http://jsoup.org/cookbook/extracting-da ... tor-syntax
Elements resultLinks = doc.select("h2.r > a[href]");[/syntax]
P.S. http://jsoup.org/cookbook/extracting-da ... tor-syntax
Re: Jsoup парсинг
----h2.r - не работает, h2 > a[href] сделал так, а он игнорирует href и выводит просто aaltwin писал(а):[syntax=java5]Elements resultLinks = doc.select("h2.r > a[href]");[/syntax]
Re: Jsoup парсинг
Если а он видит, что мешает к resultLinks повторно вызвать select?
Хотя вообще странно у меня даже это работает:
[syntax=java5]
String s = document.select("h2 a[href]");
[/syntax]
К томуже вы всегда можете использовать вложенные циклы, т.е. getElementsByTag('h2') (получить все h2 в документе), далее getElementsByTag('a') (получить все а) и потом уже у а вызвать attr("href")
Хотя вообще странно у меня даже это работает:
[syntax=java5]
String s = document.select("h2 a[href]");
[/syntax]
К томуже вы всегда можете использовать вложенные циклы, т.е. getElementsByTag('h2') (получить все h2 в документе), далее getElementsByTag('a') (получить все а) и потом уже у а вызвать attr("href")
Re: Jsoup парсинг
[syntax=java]Element link = doc.select("h2").first();
Elements links = link.getElementsByTag("a");
String linkHref = links.attr("href");
text.setText(linkHref);[/syntax]
вот так да? но извините это у меня ничего не выводит
Elements links = link.getElementsByTag("a");
String linkHref = links.attr("href");
text.setText(linkHref);[/syntax]
вот так да? но извините это у меня ничего не выводит
Re: Jsoup парсинг
ойй эээ
у меня даже обыкновенный
[syntax=java]String title = doc.title();
text.setText(title);[/syntax]
не выводит
что то тут не так
вроде коды верные
может это из-за сети или аппарата?
нет возможности тестить на эмуляторе, но надо бы
у меня даже обыкновенный
[syntax=java]String title = doc.title();
text.setText(title);[/syntax]
не выводит
что то тут не так
вроде коды верные
может это из-за сети или аппарата?
нет возможности тестить на эмуляторе, но надо бы
Re: Jsoup парсинг
Я не на столько глубоко знаком с супом, но у вас явно что -то не так. Где вы берет саму библиотеку? Может версия какая -то старая? Попроуйте создать чистый проект подключить суп и разобрать какой -нить документ. Большинство этого кода достаточно базовые вещи и описнная по сути в примерах документации, я сильно сомневаюсь, что примеры из документации могут не работать.beks000 писал(а):ойй эээ
у меня даже обыкновенный
[syntax=java]String title = doc.title();
text.setText(title);[/syntax]
не выводит
что то тут не так
вроде коды верные
может это из-за сети или аппарата?
нет возможности тестить на эмуляторе, но надо бы
Re: Jsoup парсинг
Ребят, мне тоже нужна помощь по jsoup
https://gist.github.com/kakawka/067595c290a72ad782ca
Пробовал много сайтов, все нормально парсятся и выводится title, а тот, который сейчас в коде никак не хочет работать. В чем может быть причина?
https://gist.github.com/kakawka/067595c290a72ad782ca
Пробовал много сайтов, все нормально парсятся и выводится title, а тот, который сейчас в коде никак не хочет работать. В чем может быть причина?
Re: Jsoup парсинг
вот, что выдает curl -i, т.е. source code страницы, которую вы пытаетесь получить :kakawka писал(а):Ребят, мне тоже нужна помощь по jsoup
https://gist.github.com/kakawka/067595c290a72ad782ca
Пробовал много сайтов, все нормально парсятся и выводится title, а тот, который сейчас в коде никак не хочет работать. В чем может быть причина?
[syntax=html5]HTTP/1.1 200 OK
Server: nginx
Date: Fri, 11 Jul 2014 18:39:42 GMT
Content-Type: text/html
Transfer-Encoding: chunked
Connection: keep-alive
Keep-Alive: timeout=120
Expires: Mon, 26 Jul 1980 00:00:00 GMT
Pragma: no-cache
Cache-Control: no-cache, no-store, must-revalidate
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; " />
<script>
document.cookie='_ddn_intercept_2_=22142ef6146ee4f3aa06c933f2aae4a9; max-age=604800; path=/';
var nc = function() {return document.cookie.indexOf('_ddn_intercept_2_=22142ef6146ee4f3aa06c933f2aae4a9')==-1;};
var w = function() {document.body.innerHTML = document.getElementsByTagName('noscript')[0].textContent;};
if (!window.opera) {
if (!nc()) {window.location.reload(true);}
var r = function() {if (nc()) w();};
} else {
var r = function () {
if (!nc()) {window.location.reload(true);}
else {w();}
}
}
</script>
</head>
<body onload="r()">
<noscript>You have to turn on javascript and cookies support in browser to visit this site.<br/>
Для посещения этого сайта необходима поддержка javacript и cookies Вашим браузером<br/>
<a href="http://ddos-guard.net">ddos-guard.net</a>
</noscript>
</body>
</html>%[/syntax]
т.е. динамический сайт и для генерации контента необходимо выполнить js. Так просто это не получиться, ищите в google как парсить динамические сайты.