Lucene的学习第一篇 — 引出Lucene

Joe.Ye • 2023-05-03 • Lucene

需求场景提出

1：在指定（10个）不同名字，不同内容的word文档中，进行任意指定搜索。比如：搜索哪个文档中有：“高富帅”、“吃鸡”、”read”…等词汇
2：站内搜索：搜索任意关键词，出来相关内容。论坛，贴吧，淘宝
3：百度类似的搜索
4：智联招聘的搜索

分析

常规的搜索，我们是对数据库的内容进行sql查找，匹配从而实现搜索。但是对于以上的问题，数据库如何建表？字段怎么建？内容怎么存？发现没法建这个表。

1、于是思考出这个问题：

数据库之所以好搜，能搜，那是因为表中的数据，有行有列。具有一致性的结构。固定的格式，限定的长度。这类数据，也就是结构化的数据。

而我们的要搜的内容没有结构性。也不知道长度。非结构化的数据，搜索也是任意指定，数据库不能实现。

2、继续思考：那么非结构化数据怎么办？

程序无非就是代替的人做的事。我们先考虑我们怎么搜索：（以下取场景1进行分析）

（1）对于文档中内容搜索，要找到“吃鸡”，我们一个一个打开文档看，从头到尾进行浏览，发现了“吃鸡”，这个文档就有。没发现，这个文档就没有。

当然我们会使用Ctrl+F 进行查找（Ctrl+F也就是从头到尾进行查找）。这种搜索的方法：叫做顺序扫描。

所以我们写个程序，实现以下功能：

遍历每个要搜索的文件
打开word文档，实现 Ctrl+F 指定的内容。有然后拿到该文档的名字，然后标记位置
如果文件非常多，使用多线程

那么会面临以下几个问题：

只能精确查找，不能最大限度匹配
此处多线程效率不会提升（甚至会严重降低，思考为什么）

（2）顺序扫描，我们没有能力写出代码，那么我们换一种角度思考：

我们在词典中查找“吃”，之所以很快，是因为我们通过拼音，或者部首，直接找到了“吃”，找到了“吃”所在的页数，然后找到了“吃”的位置。

所以只要，我们将内容全部拆成一些词汇，然后建立信息，跟一个词典一样，那么好办了，一切问题都解决了。

面临个问题，一：如何实现拆？二：工作量如此巨大，效率如何？

拆词：使用第三方工具

拆词之后，一次建立，重复使用（类似字典），一旦建成，功利千秋（后期新增数据，动态更新就好了）

全文检索

将数据通过拆解，分析，从新组织的，变得有结构化，并将重新结构化的结果保存下来。重新结构化的结果就是索引。我们只需要对索引进行搜索。索引的集合组成一个索引库。

所以全文检索的技术要点：

创建索引
搜索索引

版权声明：
作者：Joe.Ye
链接：https://www.appblog.cn/index.php/2023/05/03/lucene-learning-part-1-introduction-to-lucene/
来源：APP全栈技术分享
文章版权归作者所有，未经允许请勿转载。

THE END

Lucene

二维码

打赏

海报

Lucene的学习第一篇 — 引出Lucene

需求场景提出 1：在指定（10个）不同名字，不同内容的word文档中，进行任意指定搜索。比如：搜索哪个文档中有：“高富帅”、“吃鸡”、”read”…等词汇 2：站内搜索……

9个基于Java的搜索引擎框架

<<上一篇

Lucene的学习第二篇 — Lucene的流程与构建文档对象

下一篇>>

文章目录

关闭

搜索内容

Lucene的学习第一篇 — 引出Lucene

需求场景提出

分析

全文检索

取消回复

共有 0 条评论

热门文章

最新评论