一、Elasticsearch
1.1简介
开源的 Elasticsearch 是目前全文搜索引擎的首选。
它可以快速地储存、搜索和分析海量数据。
Elastic 的底层是开源库 Lucene。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用。
1.2安装
本文使用docker安装elasticsearch:
1 | $ docker pull elasticsearch:6.6.0 |
运行elasticsearch:
1 | $ docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:6.6.0 |
浏览器输入127.0.0.1:9200 如得到和下面类似的响应,则说明安装成功。
1 | { |
为方便以后的操作,安装Kibana,Kibana是Elasticsearch的开源数据可视化插件。它在Elasticsearch集群上索引的内容之上提供可视化功能。用户可以在大量数据之上创建条形图,折线图和散点图,或饼图和贴图。
同样通过docker拉取镜像:
1 | $ docker pull kibana:6.6.0 |
启动:
1 | $ docker run -d --name kibana -p 5601:5601 kibana:6.6.0 |
需要注意的是,运行不同主版本号的 Kibana 和 Elasticsearch 是不支持的(例如 Kibana 5.x 和 Elasticsearch 2.x),若主版本号相同,运行 Kibana 子版本号比 Elasticsearch 子版本号新的版本也是不支持的(例如 Kibana 5.1 和 Elasticsearch 5.0)。
编写docker-compose.yml方便管理elasticsearch和kibana容器:
1 | version: '3' |
之后可通过docker-compose up
命令来启动两个容器。
二、中文分词
直接使用对应的中文分词插件elasticsearch-analysis-ik来进行中文分词 ,这里通过编写Dockerfile文件,来自定义一个具有中文分词插件的elasticsearch容器。
在docker-compose.yml文件的同级目录新建名为es的文件夹,在es文件夹中编写Dockerfile。
目录结构如下:
1 | . |
Dockerfile文件内容如下:
1 | FROM elasticsearch:6.6.0 |
修改docker-compose.yml 构建我们在Dockerfile中的镜像
1 | version: '3' |
修改完成之后记得执行docker-compose build
命令更新镜像。
三、同义词词典
参考es的相关文档:Synonym Token Filter
Two synonym formats are supported: Solr, WordNet.
也就是es的同义词词典格式目前支持两种格式,本文仅使用Solr这种模式的同义词。
词典部分本文采用哈工大同义词词林,这里可以下载该词典。在实际业务中应根据实际需求对词典进行优化。
下载后需要根据Solr模式的同义词格式进行格式化一下,放至es文件夹下。
格式化后同义词词典synonym.txt的部分内容如下:
1 | 人,士,人物,人士,人氏,人选 |
此时目录结构如下:
1 | . |
由于需要添加同义词词典,我们需要更新Dockerfile
1 | FROM elasticsearch:6.6.0 |
目的是在elasticsearch/config目录下,建立analysis目录, 并在analysis目录下放入本地synonym.txt文件。
修改完成之后docker-compose build
命令更新镜像。
四、测试
新建名为first
的索引,自定义一个叫做ik_synonym
的analyzer
1 | PUT /first |
设置好后,可以用以下命令检测同义词是否配置成功
1 | GET /first/_analyze |
结果如下
1 | { |
至此,elasticsearch环境基本搭建完成。本人水平有限,若有疏漏之处希望各位能够指正,共同学习,谢谢。