博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
ElasticSearch 攻略(三)概念认识
阅读量:6291 次
发布时间:2019-06-22

本文共 1538 字,大约阅读时间需要 5 分钟。

直接上代码固然好,但没有经过一番理解之前,真正属于自己的光环是不会加持太久的。

要使用 es,不但要求能理解其概念,而且在开始的时候,要对 Lucene 的相关的概念有个感性的认识,毕竟 es 索引底层基于 Lucene 的。

天下文章 N 个抄。我把人家一些好的的文章截图了,以飨读者。

es 关键概念:

归纳上面所说的,就是:  es 的 index --> DB , es 的 type --> table, es 的 Document -->对应 table 的一行记录 row, Document 的 Field --> table 里面的 column。这也是 es 与关系型数据库的一些概念的对应关系简单。另外参见 es 内部探究《》。

下文出处:http://www.cnblogs.com/huangfox/p/3543351.html

cluster 代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es 的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看 es 集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。

shards 代表索引分片,es 可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。

replicas 代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当个某个节点某个分片损坏或丢失时可以从副本中恢复;二是提高 es 的查询效率,es 会自动对搜索请求进行负载均衡。

recovery 代表数据恢复或叫数据重新分布,es 在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。

river 代表 es 的一个数据源,也是其它存储方式(如:数据库)同步数据到 es 的一个方法。它是以插件方式存在的一个 es 服务,通过读取 river 中的数据并把它索引到 es 中,官方的 river 有 couchDB 的,RabbitMQ 的,Twitter 的,Wikipedia 的,river 这个功能将会在后面的文件中重点说到。(好像已经废弃了)

gateway 代表 es 索引的持久化存储方式,es 默认是先把索引存放到内存中,当内存满了时再持久化到硬盘。当这个 es 集群关闭再重新启动时就会从 gateway 中读取索引数据。es 支持多种类型的 gateway,有本地文件系统(默认),分布式文件系统,Hadoop 的 HDFS 和 amazon 的 s3 云存储服务。

discovery.zen 代表 es 的自动发现节点机制,es 是一个基于 p2p 的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。

Transport 代表 es 内部节点或集群与客户端的交互方式,默认内部是使用 tcp 协议进行交互,同时它支持 http 协议(json 格式)、thrift、servlet、memcached、zeroMQ 等的传输协议(通过插件方式集成)。

索引和搜索

虽然 Elasticsearch 能自动判断 field 类型并建立合适的索引,但笔者仍然推荐自己设置相关索引规则,这样才能更好为后续的搜索服务。 我们通过定制 mapping 的方式来设置不同 field 的索引规则。 而对于搜索,Elasticsearch 提供了太多的搜索选项,就不一一概述了

你可能感兴趣的文章