Jsoup简易教程
本文是关于Jsoup的简单教程
目录:
Jsoup 简述
关于Jsoup:
jsoup
是一个用于处理HTML的Java库。它提供了一种非常方便的API,用于提取和操作数据,使用DOM、CSS和类jquery方法。
- 从URL、文件或字符串中提取和解析HTML
- 使用DOM遍历或CSS选择器查找和提取数据
- 操作HTML元素、属性和文本
- 清除用户提交的非安全代码内容,以防止XSS攻击
- 输出整洁的HTML
获取获取糗事百科最新的段子
Document doc = Jsoup.connect("https://www.qiushibaike.com/text/").get(); |
OpenSource
jsoup是一个开放源码项目,在MIT的协议许可下发布。源代码托管在GitHub上
选择器语法
使用选择器语法查找元素
jsoup支持类似于CSS(或JQuery)的选择器方式
选择器概览
tagname
: 通过标签名称查找元素,e.g.a、div、p、span
等标签…ns|tag
: 通过命名空间标签查找元素 e.g.fb|name
查找<fb:name>
元素#id
: 通过id查找元素, e.g.#logo
.class
:通过类名查找元素, e.g..masthead
[attribute]
: 属性选择器, e.g.[href]
查找属性名为href
的元素[^attr]
: 查找已该属性开头的元素, e.g.[^data-]
查找HTML5dataset
属性[attr=value]
: 元素有该属性和值, e.g.[width=500]
(或者带分号[data-name='launch sequence']
)[attr^=value], [attr$=value], [attr*=value]
: 以元素的属性 开头、结尾、或者属性包含某值e, e.g.[href*=/path/]
[attr~=regex]
: 属性中包含正则表达式; e.g.img[src~=(?i)\.(png|jpe?g)]
获取所有的img标签,并且图片地址包含(png,jpeg
)*
: all elements, e.g. *
选择器组合
el#id
: 某元素有该ID, e.g.div#logo
el.class
: 某元素有该类, e.g.div.masthead
el[attr]
: 某元素有该属性, e.g.a[href]
如何使用
//获取开发者头条当日文章 |
4.开始搞事吧