• 相关性排序
  • 排序方式
  • 字段值排序
  • 默认排序
  • 多级排序
  • 字符串参数排序
  • 为多值字段排序

    相关性排序

    默认情况下,结果集会按照相关性进行排序 — 相关性越高,排名越靠前。
    这一章我们会讲述相关性是什么以及它是如何计算的。
    在此之前,我们先看一下sort参数的使用方法。

    排序方式

    为了使结果可以按照相关性进行排序,我们需要一个相关性的值。在ElasticSearch的查询结果中,
    相关性分值会用_score字段来给出一个浮点型的数值,所以默认情况下,结果集以_score进行倒序排列。

    有时,即便如此,你还是没有一个有意义的相关性分值。比如,以下语句返回所有tweets中 user_id 是否
    包含值 1

    1. GET /_search
    2. {
    3. "query" : {
    4. "filtered" : {
    5. "filter" : {
    6. "term" : {
    7. "user_id" : 1
    8. }
    9. }
    10. }
    11. }
    12. }

    过滤语句与 _score 没有关系,但是有隐含的查询条件 match_all 为所有的文档的 _score 设值为 1
    也就相当于所有的文档相关性是相同的。

    字段值排序

    下面例子中,对结果集按照时间排序,这也是最常见的情形,将最新的文档排列靠前。
    我们使用 sort 参数进行排序:

    1. GET /_search
    2. {
    3. "query" : {
    4. "filtered" : {
    5. "filter" : { "term" : { "user_id" : 1 }}
    6. }
    7. },
    8. "sort": { "date": { "order": "desc" }}
    9. }

    你会发现这里有两个不同点:

    1. "hits" : {
    2. "total" : 6,
    3. "max_score" : null, <1>
    4. "hits" : [ {
    5. "_index" : "us",
    6. "_type" : "tweet",
    7. "_id" : "14",
    8. "_score" : null, <1>
    9. "_source" : {
    10. "date": "2014-09-24",
    11. ...
    12. },
    13. "sort" : [ 1411516800000 ] <2>
    14. },
    15. ...
    16. }

    <1> _score 字段没有经过计算,因为它没有用作排序。

    <2> date 字段被转为毫秒当作排序依据。

    首先,在每个结果中增加了一个 sort 字段,它所包含的值是用来排序的。
    在这个例子当中 date 字段在内部被转为毫秒,即长整型数字1411516800000等同于日期字符串 2014-09-24 00:00:00 UTC

    其次就是 _scoremax_score 字段都为 null。计算 _score 是比较消耗性能的,
    而且通常主要用作排序 — 我们不是用相关性进行排序的时候,就不需要统计其相关性。
    如果你想强制计算其相关性,可以设置track_scorestrue

    默认排序


    作为缩写,你可以只指定要排序的字段名称:

    1. "sort": "number_of_children"

    字段值默认以顺序排列,而 _score 默认以倒序排列。


    多级排序

    如果我们想要合并一个查询语句,并且展示所有匹配的结果集使用第一排序是date,第二排序是 _score

    1. GET /_search
    2. {
    3. "query" : {
    4. "filtered" : {
    5. "query": { "match": { "tweet": "manage text search" }},
    6. "filter" : { "term" : { "user_id" : 2 }}
    7. }
    8. },
    9. "sort": [
    10. { "date": { "order": "desc" }},
    11. { "_score": { "order": "desc" }}
    12. ]
    13. }

    排序是很重要的。结果集会先用第一排序字段来排序,当用用作第一字段排序的值相同的时候,
    然后再用第二字段对第一排序值相同的文档进行排序,以此类推。

    多级排序不需要包含 _score — 你可以使用几个不同的字段,如位置距离或者自定义数值。

    字符串参数排序


    字符查询也支持自定义排序,在查询字符串使用sort参数就可以:

    1. GET /_search?sort=date:desc&sort=_score&q=search

    为多值字段排序

    在为一个字段的多个值进行排序的时候, 其实这些值本来是没有固定的排序的— 一个拥有多值的字段就是一个集合,
    你准备以哪一个作为排序依据呢?

    对于数字和日期,你可以从多个值中取出一个来进行排序,你可以使用min, max, avgsum这些模式。
    比说你可以在 dates 字段中用最早的日期来进行排序:

    1. "sort": {
    2. "dates": {
    3. "order": "asc",
    4. "mode": "min"
    5. }
    6. }