DocSearcher 是一款专门搜索文档文件的工具,由于采用开源的 Lucene,POI Apache APIs 以及 PDF Box API,因此能够搜索 HTML,MS Word,MS Excel,RTF,PDF,OpenOffice(及 Star Office) 文档以及文本文档内容的能力。 其他文件格式目前则不支持,也许随着内置搜索引擎的改进,更多的格式将会包含其中。
使用说明
可以以关键词(keywords)或短语(phrases)来构建你的搜索,点击 “search” 即可获得搜索结果。
搜索结果将会显示在一个表格中,单击结果中的文件可以在标准网页浏览器中打开。
想要返回搜索结果,只需要单击搜索结果图标 ()。
DocSearcher 内置 4 种搜索方式,包括:关键词(Keyword),短语(Phrase),逻辑( Boolean),以及通配符(Wild Card)。以下为各个搜索方式的举例:
搜索示例 | 搜索类型 | 搜索说明 |
---|---|---|
电子证券 交易处理 | 关键词(keywords)搜索 | 搜索含有 “电子证券” 或 “交易处理” 的文档。 |
电子证券 交易处理 | 短语(phrase)搜索 | 搜索含有 “电子证券 交易处理”短语的文档,及 “电子证券” 与 “交易处理”作为整体是连续在一起出现的,当然中间有空格。 |
"电子证券" - "交易处理" | 逻辑(boolean)搜索 | 包含 “电子证券” 但不包含 “交易处理” 的文档。 |
电子* | 通配符(wild card)搜索 | 所有以电子开头的词,例如电子文档,电子交易等。 (注:似乎对中文支持不是很理想) |
使用步骤
1. 首先确认你的系统已经安装了 JRE。
2. 运行 DocSearch.jar 后即可启动,界面如下。
3. 在搜索 之前,首先要建立索引。打开菜单 “Index -> Create new index”。
如图所示,首先在最上面文本框中输入该索引的名称(此处不建议使用中文,经软言软语测试,此处若使用中文第一次使用无问题,当重启程序后变成无法识别的问号了),然后在下面选择你要索引的目录,该目录即包含你要搜索的文档文件。然后在下面 “Search Depth” 中选择你要索引的目录深度,0 表示不索引子目录。“Searched by default” 默认为选择,表示搜索时使用该索引。
另外,你还可以配置 “Advanced Options” 选项卡来获得索引 Web Server,CD ROM 的能力,此处不做深入讨论。“Update” 选项卡处可以选择何时更新该索引。“Archiving” 选项卡则可以将你的索引压缩存档,留作备份或者导出。
配置完后,单击 “Add New Index” 开始创建索引。索引结束后,弹出如下窗口显示统计信息。
4. 在主界面的 General options 选项卡中,可以选择搜索的类型(Type of search):关键字(Keywords)或短语(Phrase),搜索范围(Search in)可以为:正文与标题(body and title),标题(title),摘要(summary),正文(body)以及关键词(keywords)。在此处做搜索实验 。
索引目录内容为如下所示:
“ 论文” 文件夹中包含一个二级子文件夹以及一个名为 “第三方支付平台探讨.doc” 的 MS Word 文件。
(1). 在正文与标题中搜索关键字 “电子证券 交易处理”,结果如下:
(2). 在正文中搜索短语 “电子证券 交易处理”,结果如下所示:
从上图可以看到无法以短语形式搜索出 “电子证券 交易处理”。正文内容节选如下:
以上仅为不完全的测试,作为使用方法的入门参考。不过,经过几次使用发现,在部分情况下无法正确搜索出内容,暂未没发现具体原因,可能是对中文支持还不完美。不管怎样,大部分情况下使用效果还不错,如果有兴趣可以尝试一下。相信以后的升级会解决这些问题,带来更好的搜索效果。