ES學(xué)習(xí)筆記1

學(xué)習(xí)文檔地址:https://www.elastic.co/guide/cn/elasticsearch/guide/current/intro.html

基礎(chǔ)入門/你知道的,為了搜索.../索引員工文檔

一個 Elasticsearch 集群可以包含多個索引 ,每個索引可以包含多個類型 。這些不同的類型存儲著多個文檔 ,每個文檔又有多個屬性 。

索引在不同語境下的含義:
索引(名詞):
一個索引類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫中的一個數(shù)據(jù)庫 ,是一個存儲關(guān)系型文檔的地方。 索引 (index) 的復(fù)數(shù)詞為 indices 或 indexes 。
索引(動詞):
索引一個文檔就是存儲一個文檔到一個索引(名詞)中以便被檢索和查詢。這非常類似于 SQL 語句中的 INSERT 關(guān)鍵詞,除了文檔已存在時,新文檔會替換舊文檔情況之外。
倒排索引:
關(guān)系型數(shù)據(jù)庫通過增加一個索引比如一個 B樹(B-tree)索引到指定的列上,以便提升數(shù)據(jù)檢索速度。Elasticsearch 和 Lucene 使用了一個叫做倒排索引的結(jié)構(gòu)來達(dá)到相同的目的。

基礎(chǔ)入門/你知道的,為了搜索.../輕量搜索

我們使用下列請求來搜索索引庫為megacorp類型為employee所有文檔,一個搜索默認(rèn)返回十條結(jié)果:
GET /megacorp/employee/_search

基礎(chǔ)入門/你知道的,為了搜索.../使用查詢表達(dá)式搜索

使用 JSON 構(gòu)造了一個請求,查詢所有名為Smith的搜索:

GET /megacorp/employee/_search
{
    "query" : {
        "match" : {
            "last_name" : "Smith"
        }
    }
}

基礎(chǔ)入門/你知道的,為了搜索.../全文搜索

Elasticsearch 默認(rèn)按照相關(guān)性得分排序,即每個文檔跟查詢的匹配程度。如果搜索的屬性中包含了要搜索的內(nèi)容(注意這里不是全部匹配)
,會在結(jié)果中展示。

基礎(chǔ)入門/你知道的,為了搜索.../短語搜索

找出一個屬性想要精確匹配一系列單詞或者短語 。(注意是一個屬性中,而且短語的單詞都是挨著的)。

基礎(chǔ)入門/你知道的,為了搜索.../分布式特性

Elasticsearch 盡可能地屏蔽了分布式系統(tǒng)的復(fù)雜性。這里列舉了一些在后臺自動執(zhí)行的操作:
分配文檔到不同的容器或分片中,文檔可以儲存在一個或多個節(jié)點中。
按集群節(jié)點來均衡分配這些分片,從而對索引和搜索過程進(jìn)行負(fù)載均衡。
復(fù)制每個分片以支持?jǐn)?shù)據(jù)冗余,從而防止硬件故障導(dǎo)致的數(shù)據(jù)丟失。
將集群中任一節(jié)點的請求路由到存有相關(guān)數(shù)據(jù)的節(jié)點。
集群擴(kuò)容時無縫整合新節(jié)點,重新分配分片以便從離群節(jié)點恢復(fù)。

基礎(chǔ)入門/集群內(nèi)的原理/空集群

一個運行中的 Elasticsearch 實例稱為一個節(jié)點而集群是由一個或者多個擁有相同 cluster.name 配置的節(jié)點組成, 它們共同承擔(dān)數(shù)據(jù)和負(fù)載的壓力。當(dāng)有節(jié)點加入集群中或者從集群中移除節(jié)點時,集群將會重新平均分布所有的數(shù)據(jù)。

當(dāng)一個節(jié)點被選舉成為 主 節(jié)點時, 它將負(fù)責(zé)管理集群范圍內(nèi)的所有變更,例如增加、刪除索引,或者增加、刪除節(jié)點等。

基礎(chǔ)入門/集群內(nèi)的原理/集群健康

green
所有的主分片和副本分片都正常運行。
yellow
所有的主分片都正常運行,但不是所有的副本分片都正常運行。
red
有主分片沒能正常運行。

基礎(chǔ)入門/集群內(nèi)的原理/添加索引

一個 分片 是一個底層的 工作單元 ,它僅保存了全部數(shù)據(jù)中的一部分。 而現(xiàn)在我們只需知道一個分片是一個 Lucene 的實例(??節(jié)點不是一個ES實例嗎??),以及它本身就是一個完整的搜索引擎。 我們的文檔被存儲和索引到分片內(nèi)。

Elasticsearch 是利用分片將數(shù)據(jù)分發(fā)到集群內(nèi)各處的。分片是數(shù)據(jù)的容器,文檔保存在分片內(nèi),分片又被分配到集群內(nèi)的各個節(jié)點里。

一個分片可以是 分片或者 副本 分片。 索引內(nèi)任意一個文檔都?xì)w屬于一個主分片,所以主分片的數(shù)目決定著索引能夠保存的最大數(shù)據(jù)量。一個副本分片只是一個主分片的拷貝。副本分片作為硬件故障時保護(hù)數(shù)據(jù)不丟失的冗余備份,并為搜索和返回文檔等讀操作提供服務(wù)。在索引建立的時候就已經(jīng)確定了主分片數(shù),但是副本分片數(shù)可以隨時修改。

基礎(chǔ)入門/集群內(nèi)的原理/水平擴(kuò)容

主分片的數(shù)目在索引創(chuàng)建時就已經(jīng)確定了下來,定義了這個索引能夠 存儲的最大數(shù)據(jù)量。 但是,讀操作——搜索和返回數(shù)據(jù)——可以同時被主分片或副本分片所處理,所以當(dāng)你擁有越多的副本分片時,也將擁有越高的吞吐量。

基礎(chǔ)入門/數(shù)據(jù)輸入和輸出

JSON是一種以人可讀的文本表示對象的方法。當(dāng)一個對象被序列化成為 JSON,它被稱為一個 JSON 文檔
在 Elasticsearch 中, 每個字段的所有數(shù)據(jù) 都是 默認(rèn)被索引的 。 即每個字段都有為了快速檢索設(shè)置的專用倒排索引。

基礎(chǔ)入門/數(shù)據(jù)輸入和輸出/文檔元數(shù)據(jù)

一個文檔不僅僅包含它的數(shù)據(jù) ,也包含 元數(shù)據(jù) —— 有關(guān) 文檔的信息。 三個必須的元數(shù)據(jù)元素如下:
_index
文檔在哪存放
_type
文檔表示的對象類別
_id
文檔唯一標(biāo)識

基礎(chǔ)入門/數(shù)據(jù)輸入和輸出/索引文檔

一個文檔的 _index 、 _type 和 _id 唯一標(biāo)識一個文檔,_id 可以自定義:

PUT /{index}/{type}/{id}
{
  "field": "value",
  ...
}

在 Elasticsearch 中每個文檔都有一個版本號。當(dāng)每次對文檔進(jìn)行修改時(包括刪除), _version 的值會遞增。
如果你的數(shù)據(jù)沒有自然的 ID, Elasticsearch 可以幫我們自動生成 ID 。 請求的結(jié)構(gòu)調(diào)整為: 不再使用 PUT 謂詞, 而是使用 POST 謂詞。

POST /{index}/{type}
{
  "field": "value",
  ...
}

基礎(chǔ)入門/數(shù)據(jù)輸入和輸出/取回一個文檔

GET /website/blog/123?pretty
返回文檔的一部分:
GET /website/blog/123?_source=title,text
只想得到 _source 字段,不需要任何元數(shù)據(jù):
GET /website/blog/123/_source

基礎(chǔ)入門/數(shù)據(jù)輸入和輸出/更新整個文檔

在 Elasticsearch 中文檔是不可改變的。相反,如果想要更新現(xiàn)有的文檔,需要重建索引或者進(jìn)行替換

PUT /website/blog/123
{
  "title": "My first blog entry",
...
}

基礎(chǔ)入門/數(shù)據(jù)輸入和輸出/創(chuàng)建新文檔

已有自己的_id,只有在相同的 _index 、 _type 和 _id 不存在時才接受我們的索引請求,兩種方式:

PUT /website/blog/123?op_type=create
{ ... }
PUT /website/blog/123/_create
{ ... }

基礎(chǔ)入門/數(shù)據(jù)輸入和輸出/刪除文檔

DELETE /website/blog/123

基礎(chǔ)入門/數(shù)據(jù)輸入和輸出/處理沖突

悲觀并發(fā)控制
這種方法被關(guān)系型數(shù)據(jù)庫廣泛使用,它假定有變更沖突可能發(fā)生,因此阻塞訪問資源以防止沖突。 一個典型的例子是讀取一行數(shù)據(jù)之前先將其鎖住,確保只有放置鎖的線程能夠?qū)@行數(shù)據(jù)進(jìn)行修改。
樂觀并發(fā)控制
Elasticsearch 中使用的這種方法假定沖突是不可能發(fā)生的,并且不會阻塞正在嘗試的操作。 然而,如果源數(shù)據(jù)在讀寫當(dāng)中被修改,更新將會失敗。應(yīng)用程序接下來將決定該如何解決沖突。 例如,可以重試更新、使用新的數(shù)據(jù)、或者將相關(guān)情況報告給用戶。

基礎(chǔ)入門/數(shù)據(jù)輸入和輸出/文檔的部分更新

我們也介紹過文檔是不可變的:他們不能被修改,只能被替換。 update API 必須遵循同樣的規(guī)則。 從外部來看,我們在一個文檔的某個位置進(jìn)行部分更新。然而在內(nèi)部, update API 簡單使用與之前描述相同的 檢索-修改-重建索引 的處理過程。

基礎(chǔ)入門/分布式文檔存儲/路由一個文檔到分片中

shard = hash(routing) % number_of_primary_shards
routing 是一個可變值,默認(rèn)是文檔的 _id ,也可以設(shè)置成一個自定義的值。 routing 通過 hash 函數(shù)生成一個數(shù)字,然后這個數(shù)字再除以 number_of_primary_shards (主分片的數(shù)量)后得到 余數(shù) 。這個分布在 0 到 number_of_primary_shards-1 之間的余數(shù),就是我們所尋求的文檔所在分片的位置。

基礎(chǔ)入門/分布式文檔存儲/主分片和父分片如何交互

我們可以發(fā)送請求到集群中的任一節(jié)點。 每個節(jié)點都有能力處理任意請求。 每個節(jié)點都知道集群中任一文檔位置,所以可以直接將請求轉(zhuǎn)發(fā)到需要的節(jié)點上。

基礎(chǔ)入門/搜索

Elasticsearch 不只會存儲(stores)文檔,為了能被搜索到也會為文檔。
搜索重要概念:
添加索引(indexes)
映射(Mapping)
描述數(shù)據(jù)在每個字段內(nèi)如何存儲
分析(Analysis)
全文是如何處理使之可以被搜索的
領(lǐng)域特定查詢語言(Query DSL)
Elasticsearch 中強大靈活的查詢語言

基礎(chǔ)入門/搜索/空搜索

返回集群中所有索引的文檔:
GET /_search
hits
hits它包含total字段來表示匹配到的文檔總數(shù),并且一個 hits數(shù)組包含所查詢結(jié)果的前十個文檔。
在 hits 數(shù)組中每個結(jié)果包含文檔的** _index 、 _type 、 _id ,加上 _source 字段。
每個結(jié)果還有一個
_score ,它衡量了文檔與查詢的匹配程度**。默認(rèn)情況下,首先返回最相關(guān)的文檔結(jié)果,就是說,返回的文檔是按照 _score 降序排列的。
max_score 值是與查詢所匹配文檔的 _score 的最大值。
_shards 部分告訴我們在查詢中參與分片的總數(shù),以及這些分片成功了多少個失敗了多少個。

基礎(chǔ)入門/搜索/多索引,多類型

/gb,us/user,tweet/_search
在 gb 和 us 索引中搜索 user 和 tweet 類型

基礎(chǔ)入門/搜索/輕量搜索

查詢在 tweet 類型中 tweet 字段包含 elasticsearch 單詞的所有文檔:
GET /_all/tweet/_search?q=tweet:elasticsearch
返回包含 mary 的所有文檔:
GET /_search?q=mary
當(dāng)索引一個文檔的時候,Elasticsearch 取出所有字段的值拼接成一個大的字符串,作為 _all 字段進(jìn)行索引

基礎(chǔ)入門/映射和分析/分析與分析器

分析器 實際上是將三個功能封裝到了一個包里:
字符過濾器
首先,字符串按順序通過每個 字符過濾器 。他們的任務(wù)是在分詞前整理字符串。一個字符過濾器可以用來去掉HTML,或者將 & 轉(zhuǎn)化成 and
分詞器
其次,字符串被 分詞器 分為單個的詞條。一個簡單的分詞器遇到空格和標(biāo)點的時候,可能會將文本拆分成詞條。
Token 過濾器
最后,詞條按順序通過每個 token 過濾器。這個過程可能會改變詞條(例如,小寫化 Quick ),刪除詞條(例如, 像 aandthe 等無用詞),或者增加詞條(例如,像 jumpleap 這種同義詞)。

基礎(chǔ)入門/映射和分析/映射

為了能夠?qū)r間域視為時間,數(shù)字域視為數(shù)字,字符串域視為全文或精確值字符串, Elasticsearch 需要知道每個域中數(shù)據(jù)的類型。這個信息包含在映射中。

簡單域類型
字符串: string
整數(shù) : byte, short, integer, long
浮點數(shù): float, double
布爾型: boolean
日期: date

默認(rèn), string 類型域會被認(rèn)為包含全文。就是說,它們的值在索引前,會通過一個分析器,針對于這個域的查詢在搜索前也會經(jīng)過一個分析器。
string 域映射的兩個最重要屬性是 index 和 analyzer
index 屬性控制怎樣索引字符串。它可以是下面三個值:
analyzed
首先分析字符串,然后索引它。換句話說,以全文索引這個域。
not_analyzed
索引這個域,所以它能夠被搜索,但索引的是精確值。不會對它進(jìn)行分析。
no
不索引這個域。這個域不會被搜索到。
對于 analyzed 字符串域,用 analyzer 屬性指定在搜索和索引時使用的分析器。默認(rèn), Elasticsearch 使用 standard 分析器, 但你可以指定一個內(nèi)置的分析器替代它,例如 whitespace 、 simple 和 english。

基礎(chǔ)入門/映射和分析/復(fù)雜核心域類型

復(fù)雜核心域類型:JSON 還有 null 值,數(shù)組,和對象
Lucene 不理解內(nèi)部對象。 Lucene 文檔是由一組鍵值對列表組成的。為了能讓 Elasticsearch 有效地索引內(nèi)部類,它把我們的文檔轉(zhuǎn)化成這樣:

{
    "tweet":            [elasticsearch, flexible, very],
    "user.id":          [@johnsmith],
    "user.gender":      [male],
    "user.age":         [26],
    "user.name.full":   [john, smith],
    "user.name.first":  [john],
    "user.name.last":   [smith]
}

基礎(chǔ)入門/請求體查詢/空查詢

空查詢將返回所有索引庫(indices)中的所有文檔:
GET /_search
{}

基礎(chǔ)入門/請求體查詢/查詢表達(dá)式

一個簡單的查詢:查詢 tweet 字段中包含 elasticsearch 的文檔
GET /_search
{
"query": {
"match": {?
"tweet": "elasticsearch"
}
}
}

復(fù)雜一點的查詢:復(fù)合(Compound) 語句 主要用于 合并其它查詢語句:
{
"bool": {
"must": { "match": { "tweet": "elasticsearch" }},
"must_not": { "match": { "name": "mary" }},
"should": { "match": { "tweet": "full text" }},
"filter": { "range": { "age" : { "gt" : 30 }} }
}
}

基礎(chǔ)入門/請求體查詢/查詢與過濾

過濾(filter)
查詢被設(shè)置成一個“不評分”或者“過濾”查詢。回答也是非常的簡單,yes 或者 no ,二者必居其一。
查詢(query)
查詢就變成了一個“評分”的查詢。和不評分的查詢類似,也要去判斷這個文檔是否匹配,同時它還需要判斷這個文檔匹配的有 多好(匹配程度如何)。

基礎(chǔ)入門/請求體查詢/最重要的查詢

match_all查詢:簡單的匹配所有文檔。在沒有指定查詢方式時,它是默認(rèn)的查詢。
match查詢
如果你在一個全文字段上使用 match 查詢,在執(zhí)行查詢前,它將用正確的分析器去分析查詢字符串。
如果在一個精確值的字段上使用它,例如數(shù)字、日期、布爾或者一個 not_analyzed 字符串字段,那么它將會精確匹配給定的值。
對于精確值的查詢,你可能需要使用 filter 語句來取代 query,因為 filter 將會被緩存。
multi_match查詢:可以在多個字段上執(zhí)行相同的 match 查詢。

{
    "multi_match": {
        "query":    "full text search",
        "fields":   [ "title", "body" ]
    }
}

range查詢:找出那些落在指定區(qū)間內(nèi)的數(shù)字或者時間。
term查詢:被用于精確值匹配,這些精確值可能是數(shù)字、時間、布爾或者那些 not_analyzed 的字符串。

{ "term": { "age":    26           }}
{ "term": { "date":   "2014-09-01" }}

terms查詢:和 term 查詢一樣,但它允許你指定多值進(jìn)行匹配。如果這個字段包含了指定值中的任何一個值,那么這個文檔滿足條件。
exists查詢和 missing查詢:被用于查找那些指定字段中有值 (exists) 或無值 (missing) 的文檔。

基礎(chǔ)入門/請求體查詢/組合多查詢

你可以用 bool 查詢來實現(xiàn)你的需求。這種查詢將多查詢組合在一起,成為用戶自己想要的布爾查詢。它接收以下參數(shù):
must
文檔 必須 匹配這些條件才能被包含進(jìn)來。
must_not
文檔 必須不 匹配這些條件才能被包含進(jìn)來。
should
如果滿足這些語句中的任意語句,將增加 _score ,否則,無任何影響。它們主要用于修正每個文檔的相關(guān)性得分。
filter
必須 匹配,但它以不評分、過濾模式來進(jìn)行。這些語句對評分沒有貢獻(xiàn),只是根據(jù)過濾標(biāo)準(zhǔn)來排除或包含文檔。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,237評論 6 537
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,957評論 3 423
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,248評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,356評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 72,081評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,485評論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,534評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,720評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,263評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,025評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,204評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,787評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,461評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,874評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,105評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,945評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 48,205評論 2 375

推薦閱讀更多精彩內(nèi)容