CALIS IR
English   中文  

| Receive email updates | My CALIS IR | Edit Profile |

CALIS机构知识库 > → 计算机与软件学院 > → 学位论文 >


Please use this identifier to cite or link to this item: http://ir.calis.edu.cn/hdl/244041/1396

Title: 面向主题的查询分类与用户查询意图分析
Authors: 陈冬剑
Keywords: 倒排索引位运算
面向主题的查询分类
索引关联规则扩展
查询意图分析
马尔可夫链模型
Issue Date: 2011-05-20
Abstract: 由于Web自身的异构特性及Web海量的数据,基于关键字的搜索引擎很难返回用户满意的查询结果。为获得更准确的查询结果,一些研究人员提出查询分类的思想,即将用户提交的简短的查询通过一定的方法映射到预先指定的目标类别中。近年来,查询分类成为研究的热点,并应用于优化搜索结果、垂直搜索引擎选择、广告推荐等。本文对查询分类进行了系统的论述,在此基础上,重点对面向主题的查询分类、用户查询意图分析进行了深入研究与改进。第一,本文提出了基于深度优先和倒排索引位运算的频繁项目集挖掘算法(DF-FIMBII)。关联规则挖掘研究中主要要解决的两个问题:(1)减少候选集数量以及生成时间;(2)减少计算支持度的时间和空间开销。因为在查询分类的研究中要用到关联规则挖掘的算法,所以本文针对这两个问题,结合深度优先和倒排索引位算挖掘频繁项目集。实验表明,在小数据集以及中等规模数据集上,DF-FIMBII比其他算法在挖掘频繁项目集上有很大的优势。第二,本文对面向主题的查询分类进行了研究,针对现有的利用外部Web资源进行查询特征丰富的方法容易产生高时延问题,本文提出一种基于索引关联规则扩展的查询分类方法(IARE-QC),该方法采用基于索引的查询分类模型,将在线阶段的查询分类问题转化为等价的离线阶段的索引词分类问题,以改善查询分类的响应时间。为获得准确的索引词特征丰富,IARE-QC进一步利用所提出基于索引关联规则扩展的相似度投票算法(IARE-SV)确定索引词类别。在模拟搜索引擎环境上的实验结果表明,IARE-SV比常用的简单投票算法(SV)能获得很好的查询分类效果。第三,本文对用户查询意图分析进行了相关探讨。首次利用中文领域最大的知识库百度百科,建立意图模型。通过马尔可夫链挖掘百度百科里面词条与词条之间的关系,用大量的词条构建某特定意图的表现形式。与其他研究不同,本文的意图分析方法没有收集大量的样本去训练一个意图分类器,这种样能够最大限度地减少对训练样本标注的人工参与。在本章的意图模型中,每一个词条都直接用以识别输入查询的意图,并且实验结果证明本章的方法比传统的分类方法有更好的性能。
URI: http://ir.calis.edu.cn/hdl/244041/1396
Appears in Collections:学位论文

Files in This Item:

File Description SizeFormat
面向主题的查询分类与用户查询意图分析.pdf127.42 kBAdobe PDFView/Open
Recommend this item
View Statistics

Items in CALIS IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Copyright © 2001-2012  CALIS (Developed Based on CALIS IR Software) - Feedback Number of User on Line: 232     Total of Site Visit: 6595996