基于docker的elasticsearch中文分词及同义词配置

一、Elasticsearch

1.1简介

开源的 Elasticsearch 是目前全文搜索引擎的首选。

它可以快速地储存、搜索和分析海量数据。

Elastic 的底层是开源库 Lucene。Elastic 是 Lucene 的封装，提供了 REST API 的操作接口，开箱即用。

1.2安装

本文使用docker安装elasticsearch：

1	$ docker pull elasticsearch:6.6.0

运行elasticsearch：

1	$ docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:6.6.0

浏览器输入127.0.0.1:9200 如得到和下面类似的响应，则说明安装成功。

{
  "name" : "1qMIj3m",
  "cluster_name" : "docker-cluster",
  "cluster_uuid" : "AT68_T_DTp-1qgIJlctQqA",
  "version" : {
    "number" : "6.6.0",
    "build_flavor" : "default",
    "build_type" : "zip",
    "build_hash" : "f27399d",
    "build_date" : "2019-01-24T11:27:09.439740Z",
    "build_snapshot" : false,
    "lucene_version" : "7.6.0",
    "minimum_wire_compatibility_version" : "5.6.0",
    "minimum_index_compatibility_version" : "5.0.0"
  },
  "tagline" : "You Know, for Search"
}

为方便以后的操作，安装Kibana，Kibana是Elasticsearch的开源数据可视化插件。它在Elasticsearch集群上索引的内容之上提供可视化功能。用户可以在大量数据之上创建条形图，折线图和散点图，或饼图和贴图。

同样通过docker拉取镜像：

1	$ docker pull kibana:6.6.0

启动：

1	$ docker run -d --name kibana -p 5601:5601 kibana:6.6.0

需要注意的是，运行不同主版本号的 Kibana 和 Elasticsearch 是不支持的（例如 Kibana 5.x 和 Elasticsearch 2.x），若主版本号相同，运行 Kibana 子版本号比 Elasticsearch 子版本号新的版本也是不支持的（例如 Kibana 5.1 和 Elasticsearch 5.0）。

编写docker-compose.yml方便管理elasticsearch和kibana容器：

version: '3'
services:
    elasticsearch:
        build: elasticsearch:6.6.0
        container_name: elasticsearch
        environment: 
            - discovery.type=single-node
        ports:
            - 9200:9200
            - 9300:9300

    kibana:
        image: kibana:6.6.0
        container_name: kibana
        ports:
            - 5601:5601

之后可通过docker-compose up命令来启动两个容器。

二、中文分词

直接使用对应的中文分词插件elasticsearch-analysis-ik来进行中文分词，这里通过编写Dockerfile文件，来自定义一个具有中文分词插件的elasticsearch容器。

在docker-compose.yml文件的同级目录新建名为es的文件夹，在es文件夹中编写Dockerfile。

目录结构如下：

.
├── docker-compose.yml
└── es
    └── Dockerfile

Dockerfile文件内容如下：

1 2	FROM elasticsearch:6.6.0 RUN yes \| ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip

修改docker-compose.yml 构建我们在Dockerfile中的镜像

version: '3'
services:
    elasticsearch:
        build: ./es
        container_name: elasticsearch
        environment: 
            - discovery.type=single-node
        ports:
            - 9200:9200
            - 9300:9300

    kibana:
        image: kibana:6.6.0
        container_name: kibana
        ports:
            - 5601:5601

修改完成之后记得执行docker-compose build命令更新镜像。

三、同义词词典

参考es的相关文档:Synonym Token Filter

Two synonym formats are supported: Solr, WordNet.

也就是es的同义词词典格式目前支持两种格式，本文仅使用Solr这种模式的同义词。

词典部分本文采用哈工大同义词词林，这里可以下载该词典。在实际业务中应根据实际需求对词典进行优化。

下载后需要根据Solr模式的同义词格式进行格式化一下，放至es文件夹下。

格式化后同义词词典synonym.txt的部分内容如下：

人,士,人物,人士,人氏,人选

人类,生人,全人类

劳力,劳动力,工作者

匹夫,个人

此时目录结构如下：

.
├── docker-compose.yml
└── es
    ├── Dockerfile
    └── synonym.txt

由于需要添加同义词词典，我们需要更新Dockerfile

FROM elasticsearch:6.6.0
RUN yes | ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip
RUN mkdir -p ./config/analysis && chown -R elasticsearch:root ./config/analysis
COPY --chown=elasticsearch:root synonym.txt /usr/share/elasticsearch/config/analysis/

目的是在elasticsearch/config目录下,建立analysis目录, 并在analysis目录下放入本地synonym.txt文件。
修改完成之后docker-compose build命令更新镜像。

四、测试

新建名为first的索引，自定义一个叫做ik_synonym的analyzer

PUT /first
{
  "settings": {
    "analysis": {
      "filter": {
        "my_stop": {
          "type": "stop",
          "stopwords": [" "]
        },
        "my_synonym": {
          "type": "synonym",
          "synonyms_path": "analysis/synonym.txt"
        }
      },
      "analyzer": {
        "ik_synonym": {
          "type": "custom",
          "tokenizer": "ik_max_word",
          "filter": ["my_stop","my_synonym"]
        }
      }
    }
  }
}

设置好后，可以用以下命令检测同义词是否配置成功

GET /first/_analyze 
{
  "analyzer": "ik_synonym",
  "text": "番茄"
}

结果如下

{
  "tokens" : [
    {
      "token" : "番茄",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "西红柿",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "SYNONYM",
      "position" : 0
    }
  ]
}

至此，elasticsearch环境基本搭建完成。本人水平有限，若有疏漏之处希望各位能够指正，共同学习，谢谢。