HtmlCleaner是一个免费开源的适用范围广的Java语言Html文档解析器,它能重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的HTML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则,户可以提供自定义tag和规则组来进行过滤和匹配。汉字识字量测试1.0 免费绿色版
1.HtmlCleaner的文档对象模型拥有了一些函数,处理节点和属性,所以在序列化之前搜索或者编辑是非常容易的。
2.提供基本HtmlCleanerDOM的XPath支持
3.使用XML配置文件让创建定制tag变得更加容易
4.修复多个bug以及API改进
写一个测试用的html文件:html-clean-demo.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >
< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >
< head >
< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />
< meta http-equiv = "Content-Language" content = "zh-CN" />
< title > html clean demo </ title >
</ head >
< body >
< div class = "d_1" >
< ul >
< li > bar </ li >
< li > foo </ li >
< li > gzz </ li >
</ ul >
</ div >
< div >
< ul >
< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >
< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >
< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >
< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >
</ ul >
</ div >
</ body >
</ html >
Html代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>
模拟需求:取出title,name="my_href"的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );
//按tag取.
Object[] ns = node.getElementsByName("title" , true ); //标题
if (ns.length > 0 ) {
System.out.println("title=" +((TagNode)ns[ 0 ]).getText());
}
System.out.println("ul/li:" );
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li" );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text=" +n.getText());
}
System.out.println("a:" );
//按属性值取
ns = node.getElementsByAttValue("name" , "my_href" , true , true );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());
}
}
}
Java代码
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner对不规范的html兼容性比较好。
它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。
b体育不能提现 能上下分的捕鱼 鑫九游会 金宝博体育 体育娱乐时尚类展开内容
快速投屏2.2.1 中文最新版
塔防三国志2uc服下载-塔防三国志2九游版9.0.00 礼包版
死剑士传奇影剑英雄下载-Dark Sword(死剑士传奇影剑英雄手游)1.1 安卓版
ai老照片修复软件下载-ai老照片修复修改版1.30800.1 免费版
太古神王传下载-太古神王传手游10.2.0.2官方安卓版
抖转app下载-抖转软件1.0.0 手机版
天使不会说谎手游下载-天使不会说谎游戏6.1.2.00.01.0000 安卓版
数擎大华监控录像恢复软件(AutoDAV)8.0 绿色免费版
音频转换软件绿色版-免费音频转换工具(东山音频转换通)V2007.04.16 正式版
搜狗游戏大厅下载安装-搜狗游戏大厅4.3.0.3515 官方最新版
烈火战车(冰雪1折购)bt版下载-烈火战车1折无限购新版1.0.0 单职业冰雪版
阿雷达app下载-阿雷达派单软件1.0.52 安卓版
宝宝早教学水果app下载-宝宝早教学水果3.5 手机版
疯狂水果收集游戏下载-疯狂水果收集官方版1.0 安卓版
查查公积金官方版下载-查查公积金app1.0苹果版
梦回战场官方正版下载-梦回战场手机版下载1.90.7 最新版本
地王王者之战2.3.27下载-地王王者之战2.3.27正式版附攻略
闪电招标网app下载-闪电招标网客户端1.0官方手机版
山市原文及翻译-山市ppt课件蒲松龄免费版【人教版七年级语文上册】
Territorialio中文版下载-Territorial.io中文版22 手机版
微洽app下载-微洽app5.5.6安卓最新版
祁阳通祁阳本地生活-祁阳通2.0.0 安卓官方版
机器人的复仇2020-机器人的复仇0.9.1 安卓版
punistrike下载安装最新版-PuniStrike游戏1.1 安卓版
疯狂果冻糖果(Crazy Jelly Candy)1.0.1 安卓版
星空视频壁纸引擎下载-星空壁纸引擎app1.1.1 安卓最新版
9.9/1,564.1M
星空壁纸引擎app是基于星空壁纸打造的一款精简版视频壁纸设置软件,只有28K,非常的小巧,单独使用,基本上不占用手机内存,直接将视频设置成手机桌面。星空壁纸引擎...
9.5/130.0M
天九智慧园软件是一款专为园区办公管理设计的智能的简化管理软件,在上面可以查看入园申请,制卡申请,车辆登记,用水申请,燃气申请,用电申请等等。软件介绍贯彻于互联网...
8.2/988.2M
应用介绍自动点击大师(抢票神器)是一款记录手势和点击操作轨迹的软件,这是无需root权限的自动点击器,它可以替代双手抢单、抢红包、抢购物券,是辅助你在手机屏幕界...
8.1/1,292.5M
以恶搞为主要风格,疯狂工厂游戏中玩家可以不断解锁各种娱乐区、发电区和餐饮区中的奇葩房间,招募各种有趣的员工,经营好公司和工厂,让自己越来越有钱,简单的操作,还有...
The Binding of Isaac: Rebirth-以撒的结合重生多项中文CE修改脚本1.0 免费版
9.3/1,671.7M
以撒的结合重生这款游戏自从推出以来,就受到玩家们广泛好评。那么作为单机游戏,ce脚本修改则是很多玩家朋友们所津津乐道的。那么以撒的结合重生多项中文CE修改脚本怎...
7.5/1,373.8M
宇宙熊AIAPP是一款集成多元智能工具的多功能助手类应用,以先进的人工智能技术为支撑,整合翻译、录音转写、文档处理、创意创作等丰富功能,主打“高效便捷+功能全面...
高佣联盟ios版下载-高佣联盟苹果版3.3.10 官方手机版
8.5/1,959.3M
高佣联盟app是一款电商推广平台,里面入驻了丰富的拼多多平台商家,以优惠的价格购物,还可以分享商品赚钱,每个人都可以自己做大。高佣联盟邀请码高佣联盟:18578...
7.9/897.9M
卡哇和霍加(Kawa&Khaje)是一款阿拉伯风格的街机休闲游戏,主要讲述的是卡哇和霍加两人闯关获得奖励然后取得对方开心,画面和设计非常的巧妙,很有创意...
10.0/69.2M
全民当枪神是一款好玩上头的火柴人射击游戏,多个任务关卡,玩法简单有趣,在不同的游戏背景下战斗。玩家可以体验不同的枪支武器射击,还有更多丰富有趣的游戏道具和武器等...
9.8/761.5M
装修以及设计在很多的朋友都是非常的需要的,那么现在小编就来给你介绍下面的这款不错的装修设计软件--美家帮app,有需要的朋友就赶快来下载!美家帮app介绍美家帮...
8.6/1,948.1M
王者乾坤是一款明朝题材的当官游戏,相信很多小伙伴都喜欢玩当官手游。这款游戏不同于以往的当官玩法,加入了一些有趣的玩法元素,有强大的妻妾系统和红颜玩法,给你绝佳的...
8.8/1,942.1M
此款工具是游戏无主之地2的修改器工具,对应游戏版本v1.0.55,提供了十二项属性修改功能,下载后直接解压即可使用。无主之地2好玩吗无主之地2是一款自由度很高的...
8.8/1,077.8M
醉梦助手是一个依托WEB制作的UI的客户端软件,所有软件操作均在WEB上完成。软件功能:1.提卡网址发货(提卡时使用WEB版1服的提卡方式)2.旺旺发货(本地可...
9.7/527.1M
客官来碗汤是一款很有意思的地府模拟建设经营手游。游戏有着丰富的玩法内容,将游戏的背景设定在中国古代神话中的地府,玩家将扮演地府管理者开启自己的经营冒险之旅!客官...
9.4/362.5M
畅快工具大全是一款功能非常多的工具软件,该软件能为大家提供各种有用的功能,帮助大家不管在任何场景,都能解决不同的问题,无论是学习、生活,还是工作,免费为大家提供...
unicode编码转换器-Unicode转换工具1.0 绿色免费版
7.8/1,740.5M
很多前端工程师经常会遇到unicode文件文件,想要将它转换出来会有点麻烦,东坡小编带来的Unicode转换工具,它可以快速将u开头的Unicode文本转换成t...
江湖侠客令360版下载-江湖侠客令360版3.1.2 安卓版
8.5/1,314.5M
江湖侠客令360版是一款带你享受各种指尖诱惑感能够跟随着自己的节奏进行掌控的古装武侠风格的对战类RPG手游,游戏中更是可以带领着一群江湖群侠在华山进行比武大会!...
恩施生活网ios版下载-恩施生活网ios版3.1.1 官方苹果版
7.7/1,977.2M
恩施生活网ios版是一款专注恩施地方新闻的软件,您可以一键了解恩施市本地资讯与生活服务聚合!欢迎有需要的朋友前来下载!恩施生活网ios版特色最新最快本地新闻:本...
7.9/1,351.7M
相信很多朋友都希望自己可以玩手机游戏,一边可以和游戏里面的人一起聊天的感觉吧,但是一直没有实现!今天有了PK手游语音终于可以在手机上边玩游戏边聊天了!软件介绍&...
9.9/249.7M
三国题材的跑酷游戏,跑跑堂有各种爆笑的元素,很多的经典动漫人物,控制你的角色跑酷,在跑酷中进行战斗,拥有超爽的打击感。游戏介绍作为一款正经的中二动漫手游,我们肯...
7.5/230.3M
深蓝听力合成系统是一款非常强大的文字转语音软件。懒人必备。自由选择声音。有需要的可以来东坡下载使用!深蓝听力合成系统说明深蓝听力合成系统是一款可以是通过TTS的...
9.4/238.2M
龙吟暮白首中有着多种不同的战斗玩法大量的仙侠元素可以带给玩家更多的战斗体验,玩家可以在这里享受到独一无二的刺激冒险,与你的伙伴们挑战那些高难度的地图,从这些地图...
8.0/83.9M
是一款全新火爆的吃鸡大作战类型游戏,游戏画面非常的精美、玩法十分的魔性,关卡十分的丰富,玩家在这里将要利用枪支干掉敌人成功吃鸡!游戏特色丰富的游戏关卡和人物。卡...
事故云处理河北高速官网下载-事故云处理河北高速app1.0.1 官网最新版
8.4/1,171.1M
事故云处理河北高速app是一款由河北高速交警总队研发的民用版app,依托着强大的互联网技术,推动事故处理模式,用手机就可以完成事故的处理工作了欢迎下载!功能介绍...
8.4/1,126.0M
台风与可丽饼是一款日式的休闲手游,漫画的风格,玩法丰富,简单的操作方式,需要在台风天运送可丽饼到客人家中,有3种游戏模式,每种模式的故事内容都不同。玩法▼目标是...