IT人生录

从常见文档中提取纯文本内容

要想使用Lucene检索office文档（word、excel、ppt等）、PDF、HTML文档，通常的处理策略是先从这些文档中提取出纯文本，然后再进行相关索引处理等。一、从office中提取纯文本从office文件中提取纯文本，可以使用POI（http://poi.apache.org/），最新版本为3.8。从office文件中提取纯文本方法很简单。只需要两行代码即可。 POITextExtractor extractor = ExtractorFactory.createExtractor(is); String c...

2012年11月02日 Java 暂无评论阅读 10,531 views 次阅读全文

使用JSOUP处理HTML文档

一、 JSOUP简介在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser（http://htmlparser.sourceforge.net/）这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。 jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来...

2012年05月03日 Java 评论 2 条阅读 22,913 views 次阅读全文