基于docker的elasticsearch中文分词及同义词配置

一、Elasticsearch

1.1简介

开源的 Elasticsearch 是目前全文搜索引擎的首选。

它可以快速地储存、搜索和分析海量数据。

img

Elastic 的底层是开源库 Lucene。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用。

1.2安装

本文使用docker安装elasticsearch:

1
$ docker pull elasticsearch:6.6.0

运行elasticsearch:

1
$ docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:6.6.0

浏览器输入127.0.0.1:9200 如得到和下面类似的响应,则说明安装成功。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
{
"name" : "1qMIj3m",
"cluster_name" : "docker-cluster",
"cluster_uuid" : "AT68_T_DTp-1qgIJlctQqA",
"version" : {
"number" : "6.6.0",
"build_flavor" : "default",
"build_type" : "zip",
"build_hash" : "f27399d",
"build_date" : "2019-01-24T11:27:09.439740Z",
"build_snapshot" : false,
"lucene_version" : "7.6.0",
"minimum_wire_compatibility_version" : "5.6.0",
"minimum_index_compatibility_version" : "5.0.0"
},
"tagline" : "You Know, for Search"
}

为方便以后的操作,安装Kibana,Kibana是Elasticsearch的开源数据可视化插件。它在Elasticsearch集群上索引的内容之上提供可视化功能。用户可以在大量数据之上创建条形图,折线图和散点图,或饼图和贴图。

同样通过docker拉取镜像:

1
$ docker pull kibana:6.6.0

启动:

1
$ docker run -d --name kibana -p 5601:5601 kibana:6.6.0

需要注意的是,运行不同主版本号的 Kibana 和 Elasticsearch 是不支持的(例如 Kibana 5.x 和 Elasticsearch 2.x),若主版本号相同,运行 Kibana 子版本号比 Elasticsearch 子版本号新的版本也是不支持的(例如 Kibana 5.1 和 Elasticsearch 5.0)。

编写docker-compose.yml方便管理elasticsearch和kibana容器:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
version: '3'
services:
elasticsearch:
build: elasticsearch:6.6.0
container_name: elasticsearch
environment:
- discovery.type=single-node
ports:
- 9200:9200
- 9300:9300

kibana:
image: kibana:6.6.0
container_name: kibana
ports:
- 5601:5601

之后可通过docker-compose up命令来启动两个容器。

二、中文分词

直接使用对应的中文分词插件elasticsearch-analysis-ik来进行中文分词 ,这里通过编写Dockerfile文件,来自定义一个具有中文分词插件的elasticsearch容器。

在docker-compose.yml文件的同级目录新建名为es的文件夹,在es文件夹中编写Dockerfile。

目录结构如下:

1
2
3
4
.
├── docker-compose.yml
└── es
└── Dockerfile

Dockerfile文件内容如下:

1
2
FROM elasticsearch:6.6.0
RUN yes | ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip

修改docker-compose.yml 构建我们在Dockerfile中的镜像

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
version: '3'
services:
elasticsearch:
build: ./es
container_name: elasticsearch
environment:
- discovery.type=single-node
ports:
- 9200:9200
- 9300:9300

kibana:
image: kibana:6.6.0
container_name: kibana
ports:
- 5601:5601

修改完成之后记得执行docker-compose build命令更新镜像。

三、同义词词典

参考es的相关文档:Synonym Token Filter

Two synonym formats are supported: Solr, WordNet.

也就是es的同义词词典格式目前支持两种格式,本文仅使用Solr这种模式的同义词。

词典部分本文采用哈工大同义词词林,这里可以下载该词典。在实际业务中应根据实际需求对词典进行优化。

下载后需要根据Solr模式的同义词格式进行格式化一下,放至es文件夹下。

格式化后同义词词典synonym.txt的部分内容如下:

1
2
3
4
5
6
7
人,士,人物,人士,人氏,人选

人类,生人,全人类

劳力,劳动力,工作者

匹夫,个人

此时目录结构如下:

1
2
3
4
5
.
├── docker-compose.yml
└── es
├── Dockerfile
└── synonym.txt

由于需要添加同义词词典,我们需要更新Dockerfile

1
2
3
4
FROM elasticsearch:6.6.0
RUN yes | ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip
RUN mkdir -p ./config/analysis && chown -R elasticsearch:root ./config/analysis
COPY --chown=elasticsearch:root synonym.txt /usr/share/elasticsearch/config/analysis/

目的是在elasticsearch/config目录下,建立analysis目录, 并在analysis目录下放入本地synonym.txt文件。
修改完成之后docker-compose build命令更新镜像。

四、测试

新建名为first的索引,自定义一个叫做ik_synonymanalyzer

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
PUT /first
{
"settings": {
"analysis": {
"filter": {
"my_stop": {
"type": "stop",
"stopwords": [" "]
},
"my_synonym": {
"type": "synonym",
"synonyms_path": "analysis/synonym.txt"
}
},
"analyzer": {
"ik_synonym": {
"type": "custom",
"tokenizer": "ik_max_word",
"filter": ["my_stop","my_synonym"]
}
}
}
}
}

设置好后,可以用以下命令检测同义词是否配置成功

1
2
3
4
5
GET /first/_analyze 
{
"analyzer": "ik_synonym",
"text": "番茄"
}

结果如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
{
"tokens" : [
{
"token" : "番茄",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "西红柿",
"start_offset" : 0,
"end_offset" : 2,
"type" : "SYNONYM",
"position" : 0
}
]
}

至此,elasticsearch环境基本搭建完成。本人水平有限,若有疏漏之处希望各位能够指正,共同学习,谢谢。