Solr4.0的tomcat部署及Solrj的简单使用

Solr4.0的tomcat部署及Solrj的简单使用
建了一个搜索引擎技术交流的群,欢迎加入,QQ群号:189334966 Solr简介 Solr是一个非常流行的,高性能的开源企业级搜索引擎平台,属于Apache Lucene项目。主要功能包括强大的全文检索、结果高亮、切面检索、动态聚类、数据库整合、富文本(例如Word,PDF)的处理,以及地理信息搜索。Solr是高度可扩展的,提供分布式检索和索引复制,并为世界上众多的大型网站提供搜索和导航功能。 Solr使用Java编写,可运...

Liferay 6.1开发学习(十四):在自己的Portlet中使用Liferay的全文检索

Liferay 6.1开发学习(十四):在自己的Portlet中使用Liferay的全文检索
在Liferay中的全文检索是使用的Lucene,方便我们的对内容进行全文检索。liferay中对文章、文档、博客、wiki、留言等实现了全文检索,如何在我们自己的Portlet中使用Liferay的全文检索呢? 实例场景如下: 我们自己实现了一个CMS,没有使用Liferay中的Journal类,比如存放新闻的类叫做CmsArticle。我们现在需要对这个新闻进行全文检索,可以检索新闻正文、标题、摘要、作者等,同时可以进行范围搜索,如只搜...

从常见文档中提取纯文本内容

从常见文档中提取纯文本内容
要想使用Lucene检索office文档(word、excel、ppt等)、PDF、HTML文档,通常的处理策略是先从这些文档中提取出纯文本,然后再进行相关索引处理等。 一、从office中提取纯文本 从office文件中提取纯文本,可以使用POI(http://poi.apache.org/),最新版本为3.8。从office文件中提取纯文本方法很简单。只需要两行代码即可。 POITextExtractor extractor = ExtractorFactory.createExtractor(is); String c...
Copyright © IT人生录 保留所有权利.   主题设计 知更鸟 滇ICP备16001547号

用户登录

分享到: