一文入门Es、Logstash、Kibana

一文入门Es、Logstash、Kibana

一文入门Es、Logstash、Kibana

前言

Elasticsearch是什么?既然它是英文的,我们不妨借助有道从Elasticsearch这几个字母出发来看看其字面上所表达的意思吧。其分为elastic和search两个独立的单词,既然如此,我们无脑有道一波,得到的解释如下:
从有道的解释来看,我们可以简单的对其理解为:Elasticsearch是及其具有弹性的、灵活的、像松紧带一样的且可供搜寻检索的一款工具。o(*≧▽≦)ツ┏━┓

百度百科对其解释如下:

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。ElasticSearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。官方客户端在Java、.NET(C#)、PHP、Python、Apache、Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr,也是基于Lucene。

从如上信息我们可以得知,Elasticsearch是一款实时、分布式存储的搜索引擎,在实际开发过程中,我们常常会把数据放在Elasticsearch搜索引擎中,然后从引擎中去实际需要的数据。而且在实际搜索过程中,我们也会有许多的Api支持来对数据进行检索,比如排序、条件查询等,其中在Elasticsearch中最为强大之处就是他的模糊检索功能。讲到这,可能有些Mysql经验但没接触过Elasticsearch的朋友可能会有个疑问,Mysql大法不是无敌么,其中的like语句不能模糊查询么?where and不能条件检索么?orderby不能对数据进行排序么?我随随便便就信手拈来一个Sql语句不就能实现业务的需求么:

select department_name, count(*) 员工个数
from departments d, employees e
where d.department_id = e.department_id
group by d.department_id
having count(*)>5
order by count(*) desc;

是这样没错,以上SQL代码的确能够实现实际需求,但是当我们的业务逐渐变得复杂、庞大,我们的用户量越来越多,我们就不得不站在用户的角度来想想了。试想一下,假设哪些淘宝er每天打开淘宝搜索自己想要的数据时都要等个几十秒,那会是怎样的一种画面。又比如,在打开我们常见文件来检索我们需要数据的时候,比如txt、word、excel,我们一般都能迅速打开,那是因为这些文件占用实际空间都太小,这些文件大多就几kb,假设我们打开一个以G为单位的日志文件,此时的系统还能像以往那样正常么?换言之,Elasticsearch采用的是索引搜索,能够具有强大的搜索能力,能够达到实时搜索,稳定,可靠,快速,安装的效用。

另外,Elasticsearch在处理日志的过程中,其常常与数据收集和日志解析引擎Logstash以及名为Kibana的分析和可视化平台配合使用,也就是常说的ELK系统。文本将主要介绍以下几个方面的内容

  • 基于Docker容器来搭建ELK系统
  • Elasticsearch集群的搭建
  • 在Elasticsearch中引入IK分词器插件
  • 重点讲解基于SpringData Es来对Elasticsearch进行操作
  • 最后基于本小程序中数据库中的数据来熟练操作Elasticsearch

ELK系统的搭建

Elasticsearch是实时全文搜索和分析引擎,提供搜集、分析、存储数据三大功能;是一套开放REST和JAVA API等结构提供高效搜索功能,可扩展的分布式系统。它构建于Apache Lucene搜索引擎库之上。

Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志,包括系统日志、错误日志和自定义应用程序日志。它可以从许多来源接收日志,这些来源包括 syslog、消息传递(例如 RabbitMQ)和JMX,它能够以多种方式输出数据,包括电子邮件、websockets和Elasticsearch。
1
Kibana是一个基于Web的图形界面,用于搜索、分析和可视化存储在 Elasticsearch指标中的日志数据。它利用Elasticsearch的REST接口来检索数据,不仅允许用户创建他们自己的数据的定制仪表板视图,还允许他们以特殊的方式查询和过滤数据

注:图片来源网络

总结就是Elasticsearch用于搜索,Kibana用于可视化,Logstash用于搜集。下面我们来基于Docker来搭建一下ELK系统,关于Docker的安装及基本使用,前面的文章已经有过记录了,此处不再过多的介绍。另外,值得注意的是这三者之间的版本关系,(如果使用其他版本的工具,则按照如下方式搭建可能会产生其他问题):

  • Elasticsearch:5.6.8
  • Kibana:5.6.8
  • Logstash:lastest

Elasticsearch的安装

  • Docker拉取Elasticsearch镜像
docker pull elasticsearch:5.6.8
  • 在本地创建elasticsearch容器所映射的配置文件以及data目录
# 在centos本地创建配置文件,并配置
mkdir -p /resources/elasticsearch/config        # 创建config目录
mkdir -p /resources/elasticsearch/data             # 创建data目录
# 将http.host配置为0.0.0.0的授权对象,将配置写入config目录下的elasticsearch.yml配置文件中
echo "http.host: 0.0.0.0" >> /resources/elasticsearch/config/elasticsearch.yml
  • 创建一个elasticsearch容器,并开机自运行
# 创建容器并开机运行(single-node表示单节点模式,后面会介绍集群方式下elasticsearch的搭建)
# 注意:在docker中表示换行
docker run --name elasticsearch -p 9200:9200 
-e "discovery.type=single-node" 
-e ES_JAVA_OPTS="-Xms256m -Xmx256m" 
-v /resources/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml 
-v /resources/elasticsearch/data:/usr/share/elasticsearch/data -d elasticsearch:5.6.8
# 参数介绍:
# --name:为容器起一个别名
# -p:将容器的运行端口映射到本地端口
# -e "discovery.type=single-node":表示单节点模式下创建,后文将介绍集群模式的搭建
# -v:表示将容器中的配置文件和data文件映射到上文本地所创建的文件,方便后面的配置

# 将elasticsearch容器设置为开机自启动
docker update new-elasticsearch --restart=always

这样一来,我们便安装好elasticsearch了,我们可以使用curl命令来测试一下:

# 使用curl来访问elasticsearch的运行端口
curl localhost:9200
# 运行输出结果如下则成功安装
{
  "name" : "XwmNOpR",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "yB3VNHxmQzevk1vXUQTkcg",
  "version" : {
    "number" : "5.6.8",
    "build_hash" : "688ecce",
    "build_date" : "2018-02-16T16:46:30.010Z",
    "build_snapshot" : false,
    "lucene_version" : "6.6.1"
  },
  "tagline" : "You Know, for Search"
}

当然了,我们也可以使用浏览器来对其进行访问,访问方式为http://[ip]:9200,端口为虚拟机ip,同样可以得到对应的结果,另外如果使用的是阿里云或腾讯云服务器,则需要在控制台中配置相应的安全组,否则无法访问

安装kibana

  • Docker拉取Kibana镜像
# Docker拉取Kibana镜像
docker pull kibana:5.6.8
  • 创建容器并设置开机自启动
# 创建容器kibana容器,对应的参数如上,另外需要指定elasticsearch的地址
docker run --name kibana -e ELASTICSEARCH_URL=http://[ip]:9200 -p 5601:5601 
-d kibana:5.6.8
# 配置开机自启动
docker update new-kibana --restart=always

安装完成之后,我们便可curl一下kibana的地址,或在浏览器访问http://[ip]:5601即可:

[root@iZm5eei156c9h3hrdjpe77Z ~]# curl localhost:5601
<script>var hashRoute = '/app/kibana';
var defaultRoute = '/app/kibana';

var hash = window.location.hash;
if (hash.length) {
  window.location = hashRoute + hash;
} else {
  window.location = defaultRoute;
}</script>[root@iZm5eei156c9h3hrdjpe77Z ~]# 

安装logstash

  • 拉取Logstash镜像
# 拉取镜像
docker pull logstash
  • 创建一个配置文件,并进行input和output的配置
# 在/resources/logstash中创建logstash.conf文件,并使用vim来对其进行编辑
mkdir /resources/logstash
# 使用vim编辑
vim logstash.conf
# 配置文件内容如下,更换为自己Elasticsearch的ip即可
input {
    tcp {
        port => 4560
        codec => json_lines
    }
}
output{
  elasticsearch { 
  hosts => ["[ip]:9200"] 
  index => "applog"
  }
  stdout { codec => rubydebug }
}
  • 创建容器并开机自启动
# 创建容器,这里需要指明Elasticsearch来进行链接
docker run -d -p 4560:4560 
-v /resources/logstash/logstash.conf:/etc/logstash.conf 
--link elasticsearch:elasticsearch 
--name logstash logstash 
logstash -f /etc/logstash.conf

# 开机自启动
docker update new-logstash --restart=always
  • 以上便是Logstash的安装过程,我们可以进入Logstash容器内来简单的使用以下

进入Logstash容器,并cd到bin目录

docker exec -it logstash /bin/bash
cd /usr/share/logstash/bin

执行logstash命令

# 注意:需要这里需要指定--path.data参数,否则在运行的过程会出错
logstash -e 'input { stdin { } } output { stdout {} }' --path.data=/root/

运行之后,我们在控制台输入hello world,即会出现以下结果

基于Logstash对Elasticsearch索引库中数据的导入和导出

应用需求:在192.168.220.201主机中的es中并没有info索引库,而192.168.220.202中的es有info索引库,此时我们可以尝试借助logstash来先将skuinfo索引库从192.168.220.202导出成一个json文件,然后将该文件借助logstash导入到192.168.220.201的es索引库中。

使用logstash将es数据从索引库中导出

创建一个临时的文件夹,用于保存导出的数据以及配置文件

mkdir /resources/mydata/logstash_temp

使用vim来创建一个export.conf配置文件,并对其进行配置

vim export.conf

export.conf文件内容如下

#  将192.168.220.202 Elasticsearch中info索引库导出为一个info.json文件
input{
     elasticsearch {
        hosts => ["192.168.220.202:9200"]   # 指定Elasticsearch的地址,该地址中含有目标数据
                index => "info"             # 指定需要导出的索引库
                size => 200                 # 指定每次导出数据每批次的大小,注意不能设置太大,否则会出错
            scroll => "5m"
                docinfo => false
    }
}
output{
   file {
     path => "skuinfo.json"                 # 指定保存的数据路径和json文件的名称
   }
 }

使用docker cp命令将该导出的配置文件复制的logstash容器的bin目录中

# 将export.conf文件cp到logstash容器中
docker cp ./export.conf logstash:/usr/share/logstash/bin

进入logstash容器,并执行配置文件

# 进入logstash,然后执行配置文件
docker exec -it logstash /bin/bash
cd /usr/share/logstash/bin
./logstash -f ./export.conf --path.data=/root/ # 务必要指定path.data属性,不然会报错

执行完成之后便会在当前目录下产生一个info.json文件,将该数据文件导出到centos中

# 执行完成之后就会在当前目录下产生一个info.json文件,将该文件导出到centos中
docker cp logstash:/usr/share/logstash/bin/info.json /resources/mydata/

即可完成将索引库中的数据导出成一个json文件,该文件存在于/resources/mydata/info.json

logstash对Elasticsearch索引库中数据的导入

  • 完成json数据的导入及conf文件的配置
# 1. 将192.168.220.202中的info.json文件使用xftp工具导入到windows本地
# 2. 将该文件通过xftp工具导入到192.168.220.201 /resources/mydata/logstash_temp中
cd /mydata/mysources/logstash_temp
# 使用vim对import.conf进行配置
vim import.conf
  • import.conf的配置文件如下
# 读取json文件
input {
  file {
    # 设置json文件路径,多个文件路径可设置成数组[],模糊匹配用*
    path => "/root/skuinfo.json"
    start_position => "beginning"
    # 设置编码
    codec => json {charset => "UTF-8"}
    # 当存在多个文件的时候可使用type指定输入输出路径
    type => "json_index"
  }
}

# 过滤格式化数据
filter {
    mutate{
        #删除无效的字段
        remove_field => ["@version","message","host","path"]
    }
    # 新增timestamp字段,将@timestamp时间增加8小时
    ruby { code => "event.set('timestamp', event.get('@timestamp').time.localtime + 8*60*60)" }

}

# 数据输出到ES
output {
    #日志输出格式,json_lines;rubydebug等
    stdout {
        codec => rubydebug
    }
    #输出到es
    if[type] == "json_index"{
        #无法解析的json不记录到elasticsearch中
        if "_jsonparsefailure" not in [tags] {
            elasticsearch {
                #es地址ip端口
                hosts => "192.168.220.201:9200"
                # 配置数据转入到es中的
                index => "info"
                #类型
                document_type => "skuinfo"
            }
        }
    }
}
  • 完成import.conf文件的配置之后,我们即可来真正实现数据导入
# 将import.conf文件和info.json文件导入到logstash容器中
docker cp ./import.conf logstash:/usr/share/logstash/bin    # 导入conf配置文件
docker cp ./skuinfo.json logstash:/root/                    # 导入json数据文件,导入的路径注意与conf配置文件中的配置路径保持一致
# 进入到logstash容器中,并执行logstash命令完成数据的导入
docker exec -it logstash /bin/bash
cd /usr/share/logstash/bin
./logstash -f ./import.conf --path.data=/root/

等待执行完成之后访问192.168.220.201:5601即可访问到info索引库中的数据

安装ik中文分词器

ik中文分词器插件的安装

坑一:我们安装ik分词器的时候,一般是在github中来下载zip文件,然后传送到centos中,最后再上传到elasticserch容器中,但是github中标明的版本与实际版本根本不相同。另一方面,在我们下载不同版本的elasticsearch时,有的版本容器运行会出错,有些正常。所以我们以后我们搭建elk的时候就同一安装5.6.8版本(一定要注意)

坑二:我们一般在github上下载zip文件(无论什么文件)的时候会非常非常的慢(不是一般的慢),所以我们以后在使用github来下载的时候可以借助gitee(码云)来下载,在码云中创建一个仓库的时候,选择导入已有的仓库,然后将原github的git连接复制粘贴上去,最后create。一旦创建,我们就可以借助码云中来间接下载github仓库的任何文件,且下载的速度会大大加快

ik分词器链接:https://gitee.com/tianxingjian123/elasticsearch-analysis-ik

# ik分词器链接:https://gitee.com/tianxingjian123/elasticsearch-analysis-ik
# 下载5.6.8的ik分词器之后,我们需要使用maven将其打包
cd C:UsersMDesktopcode-demoelasticsearch-analysis-ik
mvn package -Pdist,native -DskipTests -Dtar
# 使用maven打包完成之后,即可生成一个target文件夹,里面有./releases/elasticsearch-analysis-ik-5.6.8.zip
# 在虚拟机中创建一个ik文件夹
mkdir ik
# 之后使用xftp将该zip文件上传到ik文件夹中,然后使用unzip命令解压该zip文件,解压之后删除zip文件
unzip elasticsearch-analysis-ik-5.6.8.zip
rm -rf elasticsearch-analysis-ik-5.6.8.zip
# 之后使用docker将该ik文件夹传到elasticsearch容器的plugins中
docker cp ./ik elasticsearch:/usr/share/elasticsearch/plugins
# 进入elasticsearch容器
docker exec -it new-elasticsearch /bin/bash
# 之后如下命令可查看是否成功上传ik文件夹
root@78f36ce60b3f:/usr/share/elasticsearch# cd plugins/
root@78f36ce60b3f:/usr/share/elasticsearch/plugins# ls
ik
root@78f36ce60b3f:/usr/share/elasticsearch/plugins# cd ik
root@78f36ce60b3f:/usr/share/elasticsearch/plugins/ik# ls
commons-codec-1.9.jar        httpclient-4.5.2.jar
commons-logging-1.2.jar        httpcore-4.4.4.jar
config             plugin-descriptor.properties
elasticsearch-analysis-ik-5.6.8.jar
root@78f36ce60b3f:/usr/share/elasticsearch/plugins/ik# 
# 之后进入到bin目录下,并查看已经安装的ik分词器插件
root@78f36ce60b3f:cd /usr/share/elasticsearch/bin
root@78f36ce60b3f:/usr/share/elasticsearch/bin# elasticsearch-plugin list
ik

以上操作完成之后,就算是完成了在Elasticsearch中引入ik中文分词器插件了,注意:以上步骤务必需要完全一致,否则会造成各种问题。

分词结果测试

# 打开chrom浏览器,访问:http://192.168.220.201:5601/,若出现kibana界面,说明kibana安装正常
# 进入kibana的Dev Tools界面,然后使用如下测试ik中文分词器插件是否正常安装
GET bank/_analyze
{
  "text": "现在是大年三十凌晨一点三十分,有点冷,我写完这篇文章就睡觉!",
  "analyzer": "ik_smart"
}

运行之后,测试ik中文分词结果如下,可见已经完成了对中文句子的分词

Elasticsearch集群的搭建

创建集群所需要的配置文件及数据文件,以便容器的映射

mkdir /mydata
cd /mydata
mkdir elasticsearch1
cd elasticsearch1
mkdir data # 注意要确保data目录下为空,否则在实际运行过程中会出错
mkdir config
cd conf
vim elasticsearch.yml
# elasticsearch.yml文件配置信息如下

elasticsearch.yml文件的配置信息:

# 开启跨域,为了让es-head可以访问,此处需要额外安装header插件
http.cors.enabled: true
http.cors.allow-origin: "*"

# 集群的名称(一样)
cluster.name: elasticsearch
# 节点的名称(不一样,根据别名来配置)
node.name: es1
# 指定该节点是否有资格被选举成为master节点,默认是true,es是默认集群中的第一台机器为master,如果这台机挂了就会重新选举master
node.master: true
# 允许该节点存储数据(默认开启)
node.data: true
# 允许任何ip访问
network.host: 0.0.0.0
# 通过这个ip列表进行节点发现,我这里配置的是各个容器的ip
discovery.zen.ping.unicast.hosts: ["192.168.220.200:9300","192.168.220.200:9301","192.168.220.200:9302"]
#如果没有这种设置,遭受网络故障的集群就有可能将集群分成两个独立的集群 – 导致脑裂 - 这将导致数据丢失
discovery.zen.minimum_master_nodes: 2

第一个elasticsearch配置文件创建好后,同理创建其他两个节点

# 配置es2
cd /mydata
cp -r ./elasticsearch1 ./elasticsearch2
# 将其中的conf/elasticsearch.yml中配置修改一处信息
node.name=es2

# 配置es3
cd /mydata
cp -r ./elasticsearch1 ./elasticsearch3
# 将其中的conf/elasticsearch.yml中配置修改一处信息
node.name=es3

创建elasticsearch容器并启动

# 创建es1容器并启动
docker run --name es1 -p 9200:9200 -p 9300:9300 
-e ES_JAVA_OPTS="-Xms256m -Xmx256m" 
-v /mydata/elasticsearch1/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml 
-v /mydata/elasticsearch1/data:/usr/share/elasticsearch/data -d elasticsearch:5.6.8

# 引入ik分词器
docker cp ./ik es1:/usr/share/elasticsearch/plugins

# 创建es2容器并启动
docker run --name es2 -p 9201:9200 -p 9301:9300 
-e ES_JAVA_OPTS="-Xms256m -Xmx256m" 
-v /mydata/elasticsearch2/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml 
-v /mydata/elasticsearch2/data:/usr/share/elasticsearch/data -d elasticsearch:5.6.8

# 创建es3容器并启动
docker run --name es3 -p 9202:9200 -p 9302:9300 
-e ES_JAVA_OPTS="-Xms256m -Xmx256m" 
-v /mydata/elasticsearch3/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml 
-v /mydata/elasticsearch3/data:/usr/share/elasticsearch/data -d elasticsearch:5.6.8

至此,完成以上操作即可实现了Elasticsearch集群的搭建

  • 分别访问http://192.168.220.200:9200、http://192.168.220.200:9201、http://192.168.220.200:9202,即可发现已经搭建完成,并显示了各个es节点的对应信息。
  • 访问http://192.168.220.200:9200/_cat/nodes可查看集群节点。
  • 访问http://192.168.220.200:9200//_cat/health查看健康状况(green,yellow、red)

所遇问题

  • 实例化容器之后,可能会受到进程数的限制,我们需要提高虚拟机的进程数
vim /etc/sysctl.conf
# 添加如下一条配置
vm.max_map_count=655360
# 退出后重启配置
sysctl -p
  • 当实例化以上三个es容器之后,可能会存在一定的内存问题,这个时候,我们需要提高虚拟机的内存
# 实例化以上三个es容器之后,查看当前可用内存
free -m
# 运行以上命令之后,可能会发现当前可用配置只有50多,而且当我们访问http://192.168.220.200:9200的时候也会发现请求失败这个时候我们打开对应虚拟机的设置,将内存设置3GB即可,不一会儿重新进入虚拟机,使用free -m命令即可发现此时内存还剩1000多可用

# 完成上述配置之后,我们重启三个es容器
docker restart es1 es2 es3 || docker start es1 es2 es3

# 等待容器重启之后,使用chrom浏览器访问es
http://192.168.220.200:9200
http://192.168.220.200:9201
http://192.168.220.200:9202
# 可发现已经搭建完成,且显示了各个es节点的对应信息

# 在kibana的dev tools下查看集群节点
GET /_cat/nodes
# 查看健康状况(green,yellow、red)
GET /_cat/health