04_Lucene域

域的詳細介紹

是否分詞:

??分詞的作用是為了索引
??需要分詞: 文件名稱, 文件內容
??不需要分詞: 不需要索引的域不需要分詞,還有就是分詞后無意義的域不需要分詞
????比如: id, 身份證號

是否索引:

??索引的的目的是為了搜索.
??需要搜索的域就一定要創建索引,只有創建了索引才能被搜索出來
??不需要搜索的域可以不創建索引
??需要索引: 文件名稱, 文件內容, id, 身份證號等
??不需要索引: 比如圖片地址不需要創建索引, e:\xxx.jpg
????因為根據圖片地址搜索無意義

是否存儲:

??存儲的目的是為了顯示.
??是否存儲看個人需要,存儲就是將內容放入Document文檔對象中保存出來,會額外占用磁盤空間, 如果搜索的時候需要馬上顯示出來可以放入document中也就是要存儲,這樣查詢顯示速度快, 如果不是馬上立刻需要顯示出來,則不需要存儲,因為額外占用磁盤空間不劃算.

域的各種類型

Field類 數據類型 Analyzed是否分析 Indexed是否索引 Stored是否存儲 說明
StringField(FieldName, FieldValue,Store.YES)) 字符串 N Y Y或N 這個Field用來構建一個字符串Field,但是不會進行分析,會將整個串存儲在索引中,比如(訂單號,姓名等)是否存儲在文檔中用Store.YES或Store.NO決定
LongField(FieldName, FieldValue,Store.YES) Long型 Y Y Y或N 這個Field用來構建一Long數字型Field,進行分析和索引,比如(價格)是否存儲在文檔中用Store.YES或Store.NO決定
StoredField(FieldName, FieldValue) 重載方法,支持多種類型 N N Y 這個Field用來構建不同類型Field 不分析,不索引,但要Field存儲在文檔中
TextField(FieldName, FieldValue, Store.NO)或TextField(FieldName, reader) 字符串或流 Y Y Y或N 如果是一個Reader, lucene猜測內容比較多,會采用Unstored的策略.

注意:lucene底層的算法,錢數是要分詞的,因為要根據價錢進行對比
例如: 大于12.5元的小于100元的商品搜索出來

  • 將前面建立索引的代碼重新修改
package cn.huahcao.lucene;

import org.apache.commons.io.FileUtils;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.LongField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;

import java.io.File;
import java.util.ArrayList;
import java.util.List;

public class IndexManagerTest {
    @Test
    public void testCreateIndex() throws Exception{
        //采集文件系統中的文檔數據,放入lucene中
        //文檔列表,保存Document
        List<Document> docList = new ArrayList<Document>();

        //指定文件所在的目錄
        File dir = new File("G:\\Java\\JavaEE\\09_SSM\\lucene_day01\\參考資料\\searchsource");

        //循環取出文件
        for (File file:dir.listFiles()){
            //文件名稱
            String fileName = file.getName();
            //文件內容
            String fileContext = FileUtils.readFileToString(file);
            //文件大小
            Long fileSize = FileUtils.sizeOf(file);
            //文檔對象。文件系統中的一個文件就是一個Document對象
            Document doc = new Document();
            /**
             * 第一個參數:域名
             * 第二個參數:域值
             * 第三個參數:是否存儲,是為Yes,不存儲為No
             */
//            TextField nameFiled = new TextField("fileName",fileName, Field.Store.YES);
//            TextField contextFiled = new TextField("fileContent",fileContent, Field.Store.YES);
//            TextField sizeFiled = new TextField("fileSize",fileSize.toString(), Field.Store.YES);

            //是否分詞:要,因為它要索引,并且它不是一個整體,分詞有意義
            //是否索引:要,因為要通過它來進行搜索
            //是否存儲:要,因為要直接在頁面上顯示
            TextField nameFiled = new TextField("fileName", fileName, Field.Store.YES);

            //是否分詞: 要,因為要根據內容進行搜索,并且它分詞有意義
            //是否索引: 要,因為要根據它進行搜索
            //是否存儲: 可以要也可以不要,不存儲搜索完內容就提取不出來
            TextField contextFiled = new TextField("fileContext", fileContext, Field.Store.NO);

            //是否分詞: 要, 因為數字要對比,搜索文檔的時候可以搜大小, lunene內部對數字進行了分詞算法
            //是否索引: 要, 因為要根據大小進行搜索
            //是否存儲: 要, 因為要顯示文檔大小
            LongField sizeFiled = new LongField("fileSize", fileSize, Field.Store.YES);

            //將所有的域存入文檔中
            doc.add(nameFiled);
            doc.add(contextFiled);
            doc.add(sizeFiled);

            //將文檔存入文檔集合中
            docList.add(doc);
        }

        //創建分詞器,StandardAnalyzer標準分詞器,標準分詞器對英文分詞效果很好,對中文是單字分詞
        StandardAnalyzer analyzer = new StandardAnalyzer();
        //指定索引和文檔存儲的目錄
        FSDirectory directory = FSDirectory.open(new File("G:\\Java\\JavaEE\\09_SSM\\lucene_day01\\tmp"));
        //創建寫對象的初始化對象
        IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_10_3,analyzer);
        //創建索引和文檔寫對象
        IndexWriter indexWriter = new IndexWriter(directory , config);

        //將文檔加入到索引和文檔的寫對象中
        for (Document doc:docList){
            indexWriter.addDocument(doc);
        }
        //提交
        indexWriter.commit();
        //關閉流
        indexWriter.close();
    }

}

運行上面代碼重新建立索引

  • 使用luke查看如下:


  • 查看Document


    因為我們沒有存儲文件內容,所以fileContext是空的

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,572評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,071評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,409評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,569評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,360評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,895評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,979評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,123評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,643評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,559評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,742評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,250評論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,981評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,363評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,622評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,354評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,707評論 2 370

推薦閱讀更多精彩內容

  • Solr&ElasticSearch原理及應用 一、綜述 搜索 http://baike.baidu.com/it...
    樓外樓V閱讀 7,321評論 1 17
  • Spring Cloud為開發人員提供了快速構建分布式系統中一些常見模式的工具(例如配置管理,服務發現,斷路器,智...
    卡卡羅2017閱讀 134,776評論 18 139
  • MySQL技術內幕:InnoDB存儲引擎(第2版) 姜承堯 第1章 MySQL體系結構和存儲引擎 >> 在上述例子...
    沉默劍士閱讀 7,447評論 0 16
  • 愛情分泌的荷爾蒙通常有效期是兩年。在戀愛初期還會分泌出羥色胺,它會讓戀愛的兩人失去理智,看不清對方的缺點。所以戀愛...
    九歌_閱讀 5,195評論 95 151
  • 見過可以自己換燈泡、獨自上醫院的女孩;也見過連吃個桃子也非得讓人去皮才愿意張嘴的女孩;靜觀我們這群坐在亭子里瞎掰的...
    蘇小錢閱讀 202評論 0 0