{首页主词},&

Lucene應用的一點體會

2010-01-13 23:07:22 作者: 來源:

Lucene應用(我用的是Lucene2.1.0,有些觀點有可能也不太正確)

1.多線程索引，共享同一個IndexWriter對象

這種方式效率很慢，主要原因是因為：

java 代碼

public void addDocument(Document doc, Analyzer analyzer) throws IOException {
SegmentInfo newSegmentInfo = buildSingleDocSegment(doc, analyzer);
synchronized (this) {
ramSegmentInfos.addElement(newSegmentInfo);//這句很占用效率
maybeFlushRamSegments();
}
}

ramSegmentInfos 是一個SegmentInfos 對象，這個對象extends Vector,Vector的addElement是同步的。這個可能是導致效率慢的主要原因吧.

2 多線程索引，先寫到RAMDirectory，再一次性寫到FSDirectory

功能：首先向RAMDirectory里寫，當達到1000個Document後，再向FSDirectory里寫。

當多線程執行時，會大量報java.lang.NullPointerException

自己寫的多線程索引的類為（IndexWriterServer，該對象只在Server啟動時初始化一次）：

代碼

public class IndexWriterServer{
private static IndexWriter indexWriter = null;
//private String indexDir ;//索引目錄；
private static CJKAnalyzer analyzer = null;
private static RAMDirectory ramDir = new RAMDirectory();
private static IndexWriter ramWriter = null;
private static int diskFactor = 0;//內存中現在有多少Document
private static long ramToDistTime = 0;//內存向硬盤寫需要多少時間
private int initValue = 1000;//內存中達到多少Document，才向硬盤寫
private static IndexItem []indexItems = null;
public IndexWriterServer(String indexDir){
initIndexWriter(indexDir);
}
public void initIndexWriter(String indexDir){
boolean create = false;//是否創建新的
analyzer = new CJKAnalyzer();
Directory directory = this.getDirectory(indexDir);
//判斷是否為索引目錄
if(!IndexReader.indexExists(indexDir)){
create = true;
}
indexWriter = getIndexWriter(directory,create);
try{
ramWriter = new IndexWriter(ramDir, analyzer, true);
}catch(Exception e){
logger.info(e);
}
indexItems = new IndexItem[initValue+2];
}
/**
* 生成單個Item索引
*/
public boolean generatorItemIndex(IndexItem item, Current __current) throws DatabaseError, RuntimeError{
boolean isSuccess = true;//是否索引成功
try{
Document doc = getItemDocument(item);
ramWriter.addDocument(doc);//關鍵代碼，錯誤就是從這里報出來的
indexItems[diskFactor] = item;//為數據挖掘使用
diskFactor ++;
if((diskFactor % initValue) == 0){
ramToDisk(ramDir,ramWriter,indexWriter);
//ramWriter = new IndexWriter(ramDir, analyzer, true);
diskFactor = 0;
//數據挖掘
isSuccess = MiningData();
}
doc = null;
logger.info("generator index item link:" + item.itemLink +" success");
}catch(Exception e){
logger.info(e);
e.printStackTrace();
logger.info("generator index item link:" + item.itemLink +" faiture");
isSuccess = false;
}finally{
item = null;
}
return isSuccess;
}
public void ramToDisk(RAMDirectory ramDir, IndexWriter ramWriter,IndexWriter writer){
try{
ramWriter.close();//關鍵代碼，把fileMap賦值為null了
ramWriter = new IndexWriter(ramDir, analyzer, true);//重新構建一個ramWriter對象。因為它的fileMap為null了,但是好像并沒有太大作用
Directory ramDirArray[] = new Directory[1];
ramDirArray[0] = ramDir;
mergeDirs(writer, ramDirArray);
}catch(Exception e){
logger.info(e);
}
}
/**
* 將內存里的索引信息寫到硬盤里
* @param writer
* @param ramDirArray
*/
public void mergeDirs(IndexWriter writer,Directory[] ramDirArray){
try {
writer.addIndexes(ramDirArray);
//optimize();
} catch (IOException e) {
logger.info(e);
}
}
}

主要原因大概是因為：在調用ramWriter.close();時，Lucene2.1里RAMDirectory 的close()方法

代碼

public final void close() {
fileMap = null;
}

把fileMap 給置null了，當多線程執行ramWriter.addDocument(doc);時，最終執行RAMDirectory 的方法：

代碼

public IndexOutput createOutput(String name) {
RAMFile file = new RAMFile(this);
synchronized (this) {
RAMFile existing = (RAMFile)fileMap.get(name);//fileMap為null，所以報：NullPointerException，
if (existing!=null) {
sizeInBytes -= existing.sizeInBytes;
existing.directory = null;
}
fileMap.put(name, file);
}
return new RAMOutputStream(file);
}

提示：在網上搜索了一下，好像這個是lucene的一個bug（http://www.opensubscriber.com/message/java-user@lucene.apache.org/6227647.html），但是好像并沒有給出解決方案。

3.多線程索引，每個線程一個IndexWriter對象，每個IndexWriter 綁定一個FSDirectory對象。每個FSDirectory綁定一個本地的磁盤目錄（唯一的）。單獨開辟一個線程出來監控這些索引線程（監控線程），也就是說負責索引的線程索引完了以后，給這個監控線程的queue里發送一個對象：queue.add(directory);,這個監控現成的queue對象是個全局的。當這個queue的size() > 20 時，監控線程把這20個索引目錄合并(merge):indexWriter.addIndexes(dirs);//合并索引,合并到真正的索引目錄里。,合并完了以后，然后刪除掉這些已經合并了的目錄。

但是這樣也有幾個bug:

a. 合并線程的速度小于索引線程的速度。導致目錄越來越多

b.經常會報一個類似這樣的錯誤：

2007-06-08 10:49:18 INFO [Thread-2] (IndexWriter.java:1070) - java.io.FileNotFoundException: /home/spider/luceneserver/merge/item_d28686afe01f365c5669e1f19a2492c8/_1.cfs (No such file or directory)

4.單線程索引，調幾個參數後，效率也非�？�(索引一條信息大概在6-30 ms之間)。感覺一般的需求單線程就夠用了。這些參數如下:

   private int mergeFactor = 100;//磁盤里達到多少後會自動合并
    private int maxMergeDocs = 1000;//內存中達到多少會向磁盤寫入
    private int minMergeDocs = 1000;//lucene2.0已經取消了
    private int maxFieldLength = 2000;//索引的最大文章長度
    private int maxBufferedDocs = 10000;//這個參數不能要，要不然不會自動合并了

得出的結論是:Lucene的多線程索引會有些問題，如果沒有特殊需求，單線程的效率幾乎就能滿足需求.

如果單線程的速度滿足不了你的需求，你可以多開幾個應用。每個應用都綁定一個FSDirectory,然后通過search時通過RMI去這些索引目錄進行搜索。

RMI Server端,關鍵性代碼:

java 代碼

private void initRMI(){
//第一安全配置
if (System.getSecurityManager() == null) {
System.setSecurityManager( new RMISecurityManager() );
}
//注冊
startRMIRegistry(serverUrl);
SearcherWork searcherWork = new SearcherWork("//" + serverUrl + "/" + bindName, directory);
searcherWork.run();
}
public class SearcherWork {
// Logger
private static Logger logger = Logger.getLogger(SearcherWork.class);
private String serverUrl =null;
private Directory directory =null;
public SearcherWork(){
}
public SearcherWork(String serverUrl, Directory directory){
this.serverUrl = serverUrl;
this.directory = directory;
}
public void run(){
try{
Searchable searcher = new IndexSearcher(directory);
SearchService service = new SearchService(searcher);
Naming.rebind(serverUrl, service);
logger.info("RMI Server bind " + serverUrl + " success");
}catch(Exception e){
logger.info(e);
System.out.println(e);
}
}
}
public class SearchService extends RemoteSearchable implements Searchable {
public SearchService (Searchable local) throws RemoteException {
super(local);
}
}

客戶端關鍵性代碼:

java 代碼

RemoteLuceneConnector rlc= new RemoteLuceneConnector();
RemoteSearchable[] rs= rlc.getRemoteSearchers();
MultiSearcher multi = new MultiSearcher(rs);
Hits hits = multi.search(new TermQuery(new Term("content","中國")));

安徽新華電腦學校專業職業規劃師為你提供更多幫助【在線咨詢】

上一篇：帶局部統計識別高頻詞匯及人名識別的Lucene中文分詞 下一篇：基于lucene的對數據庫＆文件夾檢索（ss2,appfuse,jdon,nutch雜燴）

相關熱詞搜索：應用