如何开发自己的搜索帝国之Elasticsearch

搜索引擎是什么?

　　搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

Elasticsearch是什么?

　　Elasticsearch一个高可扩展的开源的全文本搜索和分析工具。它允许你以近实时的方式快速存储、搜索、分析大容量的数据。Elasticsearch不仅提供全文检索功能，还能提供高效的分布式数据存储、索引、搜索，能完成对大数据的自动分片、自动负载索引，并提供Restful Web的风格接口。

　　Elasticsearch是面向文档型的NoSQL数据库，可以在其中进行索引、搜索、排序和过滤这些文档。它是实时分析的分布式搜索引擎，可以扩展到上百台服务器，处理PB级的结构化或非结构化数据。

　　也支持中文分词插件，Hadoop等插件。可以通过Http访问，使用Json来操作数据。其索引能分拆为多个分片，每个分片可有多个副本，集群的负载都是自动完成的。

ES基础架构

ElasticSearch vs Solr 总结

（1）二者安装都很简单。　（2）Solr 利用 Zookeeper 进行分布式管理，而 Elasticsearch 自身带有分布式协调管理功能。　　（3）Solr 支持更多格式的数据，比如JSON、XML、CSV，而 Elasticsearch 仅支持json文件格式。　　（4）Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，高级功能多有第三方插件提供　　（5）Solr 在传统的搜索应用中表现好于 Elasticsearch，但在处理实时搜索应用时效率明显低于 Elasticsearch。　　（6）Solr 是传统搜索应用的有力解决方案，但 Elasticsearch 更适用于新兴的实时搜索应用。

　　三台机器做集群：192.168.80.30、192.168.80.32、192.168.80.33

环境

　　CentOS7.0

Java1.8

下载

　　下载地址：https://www.elastic.co/products/elasticsearch

　　下载后上传到CentOS中的/usr/local/ 文件夹中，并解压到当前文件中重命名为elasticsearch530 /usr/local/elasticsearch530

tar -zxvf elasticsearch-5.3.0.tar.gz

创建 elsearch运行账户和组

groupadd elsearch #添加elsearch组
useradd -g elsearch elsearch -s /bin/false

　　更改elasticsearch文件夹及内部文件的所属用户及组为elsearch:elsearch

chown -R elsearch:elsearch elasticsearch530

配置参数

（1）初步修改

　　打开/usr/local/elasticsearch530/config目录下的elasticsearch.yml 文件 ,修改以下属性值并取消该行的注释：

cluster.name: es-application #这是集群名字，我们 起名为 es-application。es启动后会将具有相同集群名字的节点放到一个集群下。
node.name: "es-node1" #节点名字。
covery.zen.minimum_master_nodes: 1 #指定集群中的节点中有几个有master资格的节点。对于大集群可以写3个以上。
discovery.zen.ping.timeout: 40s #默认是3s，这是设置集群中自动发现其它节点时ping连接超时时间，为避免因为网络差而导致启动报错，我设成了40s。
discovery.zen.ping.multicast.enabled: false #设置是否打开多播发现节点，默认是true。
network.host: 0.0.0.0
http.port: 9200
node.master: true #节点从可作为选举为主节点
node.data: true #也用来存储数据,可作为负载器
discovery.zen.ping.unicast.hosts: ["192.168.80.32","192.168.80.33","192.168.80.30"]  #discovery.zen.ping.unicast.hosts:["节点1的 ip","节点2 的ip","节点3的ip"] 指明集群中其它可能为master的节点ip,以防es启动后发现不了集群中的其他节点。第一对引号里是node1，默认端口是9300。第二个是 node2 ，在另外一台机器上。

（2）进一步修改

　　将elasticsearch530文件夹copy到另外一台IP为192.168.80.33、192.168.80.30的机器上。

　　修改各主机上的改配置文件elasticsearch.yml 文件修改如下：

node.name: "es-node2"和 node.name: "es-node3"

注意：

1.对于单机多节点的es集群，一定要注意修改 transport.tcp.port 和http.port 的默认值保证节点间不冲突。

2. 出现找不到同一集群中的其他节点的情况，检查下 discovery.zen.ping.unicast.hosts 是否已设置。

启动

　　复制elasticsearch文件夹时，如果原来的es文件夹下存在node数据，那么es集群也不能正常启动，所以若之前在elasticsearch530文件夹下有data文件夹，则清空node2和node3节点服务下的data文件夹，否则会报节点加入不了集群的错。

　　切换到elsearch用户再启动，3台服务器都要进行启动

su elsearch
cd /usr/local/elasticsearch530 目录
bin/elasticsearch -d  #后台运行

此时启动服务会发现报错：max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

[root@H32 ~]# cat /etc/sysctl.conf | grep -v "vm.max_map_count" > /tmp/system_sysctl.conf
[root@H32 ~]# echo "vm.max_map_count=262144" >> /tmp/system_sysctl.conf
[root@H32 ~]# mv /tmp/system_sysctl.conf /etc/sysctl.conf
mv：是否覆盖"/etc/sysctl.conf"？ y
[root@H32 ~]# cat /etc/sysctl.conf
# System default settings live in /usr/lib/sysctl.d/00-system.conf.
# To override those settings, enter new settings here, or in an /etc/sysctl.d/<name>.conf file
#
# For more information, see sysctl.conf(5) and sysctl.d(5).
vm.max_map_count=262144
[root@H32 ~]# sysctl -p
vm.max_map_count = 262144

　　修改后再次启动，可通过下命令查看启动后是否有进程

ps -ef |grep elasticsearch

　　ES的安装就此完成，接下来安装Head插件来监控Elasticsearch

Elasticsearch Head插件

　　Elasticsearch Head Plugin: 对ES进行各种操作，如查询、删除、浏览索引等，可对集群健康状况，各个节点状态，索引状态查看。

　　5.X版本的ES跟之前的版本最大的不同之处就是多了很多环境的校验，比如jdk,max-files等等。

设置内核参数

vi /etc/sysctl.conf # 增加下面的内容

fs.file-max=65536
vm.max_map_count=262144

设置资源参数

vi /etc/security/limits.conf # 修改

elsearch soft nofile 65536
elsearch hard nofile 65536
 
sysctl -p

修改/config/elasticsearch.yml

# 增加新的参数，这样head插件可以访问es
http.cors.enabled: true
http.cors.allow-origin: "*"

　　注意，设置参数的时候:后面要有空格！

　　在5.X版本中不支持直接安装head插件，需要启动一个服务

git clone git://github.com/mobz/elasticsearch-head.git

　　下载 elasticsearch-head 或者 git clone 到 /usr/local/elasticsearch-head

 cd elasticsearch-head

 npm install

由于head插件本质上还是一个nodejs的工程，因此需要安装node，使用npm来安装依赖的包。（npm可以理解为maven）

去官网下载nodejs，https://nodejs.org/en/download/

下载下来的jar包是xz格式的，一般的linux可能不识别，还需要安装xz.

yum -y install xz

然后解压nodejs的安装包:

xz -d node*.tar.xz tar -xvf node*.tar

解压完node的安装文件后，需要配置下环境变量,编辑/etc/profile，添加

# set node environment
export NODE_HOME=/usr/local/node790
export PATH=$PATH:$NODE_HOME/bin

别忘记立即执行以下

source /etc/profile

这个时候可以测试一下node是否生效：

[root@H32 node790]# echo $NODE_HOME 
/usr/local/node790
[root@H32 node790]# node -v 
[root@H32 node790]# npm -v

安装grunt

　　grunt是一个很方便的构建工具，可以进行打包压缩、测试、执行等等的工作，5.X里的head插件就是通过grunt启动的。因此需要安装一下grunt：

　　linux：npm install grunt-cli

　　windows：npm install grunt-cli -g

　　在elasticsearch-head目录下node_modules/grunt下如果没有grunt二进制程序，需要执行

cd elasticsearch-head
npm install grunt-cli
npm install grunt --save-dev

　　安装完成后检查一下：

[root@H32 elasticsearch-head]# grunt -version
grunt-cli v1.2.0
grunt v1.0.1

启动服务

/usr/local/elasticsearch-head/node_modules/grunt/bin/gruntserver

修改head源码

由于head的代码还是2.6版本的，直接执行有很多限制，比如无法跨机器访问。因此需要用户修改两个地方：

修改服务器监听地址

目录：elasticsearch-head/Gruntfile.js

connect: { server: { options: { port: 9100, hostname: '*', base: '.', keepalive: true } } }

增加hostname属性，设置为*

修改连接地址：

目录：elasticsearch-head/_site/app.js

修改head的连接地址:

this.base_uri = this.config.base_uri || this.prefs.get("app-base_uri") || "http://localhost:9200";

把localhost修改成你es的服务器地址，如:

this.base_uri = this.config.base_uri || this.prefs.get("app-base_uri") || "http://192.168.80.32:9200";

运行head

首先启动每个服务器上的 ES。

再启动grunt

cd /usr/local/elasticsearch-head
grunt server -d

访问:target:9100

这个时候，访问 http://192.168.80.32:9100 就可以访问head插件了。

现在可以在此页面操作ES数据了，但这只是一个开始。