花火小说有愿风裁尽尘中沙与君咫尺共天涯君心吗?

点击联系发帖人 时间：2019-03-27 10:55

咫尺君

根据应用情况来说是否满足手動指定document id的前提：
一般来说，是从某些其他的系统中导入一些数据到es时，会采取这种方式就是使用系统中已有数据的唯一标识，作为es中document嘚id举个例子，比如说我们现在在开发一个电商网站，做搜索功能或者是OA系统，做员工检索功能这个时候，数据首先会在网站系统戓者IT系统内部的数据库中会先有一份，此时就肯定会有一个数据库的primary key（自增长UUID，或者是业务编号）如果将数据导入到es中，此时就比較适合采用数据在数据库中已有的primary key

如果说，我们是在做一个系统这个系统主要的数据存储就是es一种，也就是说数据产生出来以后，鈳能就没有id直接就放es一个存储，那么这个时候可能就不太适合说手动指定document id的形式了，因为你也不知道id应该是什么此时可以采取让es自動生成id的方式。

自动生成的id长度为20个字符，URL安全base64编码，GUID分布式系统并行生成时不可能会发生冲突

}

使用良好的json数组格式允许任意換行，可读性非常好但是es拿到那种标准格式的json串以后，要按照下述流程去进行处理

将json数组解析为JSONArray对象这个时候，整个数据就会在内存中出现一份一模一样的拷贝，一份数据是json文本一份数据是JSONArray对象
解析json数组里的每个json，对每个请求中的document进行路由
为路由到同一个shard上的多个請求创建一个请求数组
将序列化后的请求数组发送到对应的节点上去

弊端：bulk size最佳大小：几千条、10MB左右，若100个请求每个请求10MB发送到同一節点，就有1000MB约1Gcopy一份外加转成JsonArray对象会多出一些数据结构会多占内存，那么占有内存就是2GB以上

占用更多的内存会积压其他请求内存的使用量，可能导致其他请求性能急速下降另外，占用内存更多会导致java虚拟机的垃圾回收次数更多，每次回收垃圾对象更多耗费时间更多。

不用将其转换为json对象不会出现内存中的相同数据的拷贝，直接按照换行符切割json
直接将对应的json发送到node上去

最大的优势在于不需要将json数組解析为一个JSONArray对象，形成一份大数据的拷贝浪费内存空间，尽可能地保证性能

}

生活不求人