互联网提供了海量信息资源,新的信息获取技术搜索引擎技术可以帮助我们快速准确甚至个性化地从海量信息中挑选出需要的信息。本书主要介绍搜索引擎和信息获取技术,包括:信息获取的基本原理与技术;实现用户个性化搜索的相关技术,面向普通用户需求从不同角度讨论搜索引擎的使用(作者在相关领域所做的主要工作与取得的成果)。\r\n\r\n 本书适合高等院校计算机科学与技术专业及相关专业的高年级学生和研究生阅读参考,也适合其工作范围涉及该领域的工程技术人员参阅。 \r\n
\r\n
第1章 概述 \r\n\r\n 1.1 引言 \r\n\r\n 1.2 信息获取与数据获取 \r\n\r\n 1.3 信息获取技术的发展 \r\n\r\n 1.4 信息获取基本概念 \r\n\r\n 1.5 信息获取系统的过去. 现在和将来 \r\n\r\n 1.6 信息获取的过程 \r\n\r\n 1.7 本书的结构 \r\n\r\n 1.8 本章小结 \r\n\r\n \r\n\r\n 第2章 信息获取模型 \r\n\r\n 2.1 引言 \r\n\r\n 2.2 布尔模型 \r\n\r\n 2.3 向量模型 \r\n\r\n 2.4 概率论模型 \r\n\r\n 2.5 神经网络模型 \r\n\r\n 2.6 基于命题逻辑的模型及其应用 \r\n\r\n 2.7 本章小结 \r\n\r\n \r\n\r\n 第3章 标记语言与文本操作 \r\n\r\n 3.1 引言 \r\n\r\n 3.2 标记语言 \r\n\r\n 3.3 文本预处理 \r\n\r\n 3.4 文档聚类 \r\n\r\n 3.5 文本压缩 \r\n\r\n 3.6 本章小结 \r\n\r\n \r\n\r\n 第4章 索引和搜索 \r\n\r\n 4.1 引言 \r\n\r\n 4.2 倒排文件 \r\n\r\n 4.3 后缀树与后缀数组 \r\n\r\n 4.4 布尔查询 \r\n\r\n 4.5 顺序查询 \r\n\r\n 4.6 结构化查询 \r\n\r\n 4.7 对压缩文本的搜索 \r\n\r\n 4.8 模式匹配 \r\n\r\n 4.9 本章小结 \r\n\r\n \r\n\r\n 第5章 信息获取系统评价 \r\n\r\n 5.1 引言 \r\n\r\n 5.2 相关性 \r\n\r\n 5.3 召回率和精度 \r\n\r\n 5.4 复合试题 \r\n\r\n 5.5 本章小结 \r\n\r\n \r\n\r\n 第6章 查询处理 \r\n\r\n 6.1 引言 \r\n\r\n 6.2 基于用户反馈信息的查询扩展 \r\n\r\n 6.3 自动局部分析 \r\n\r\n 6.4 自动全局分析 \r\n\r\n 6.5 本章小结 \r\n\r\n \r\n\r\n 第7章 目录式检索服务与聚类分析 \r\n\r\n 7.1 引言 \r\n\r\n 7.2 目录检索服务的构成 \r\n\r\n 7.3 聚类过程 \r\n\r\n 7.4 基于聚类的信息获取 \r\n\r\n 7.5 本章小结 \r\n\r\n \r\n\r\n 第8章 基于因特网的搜索引擎 \r\n\r\n 8.1 引言 \r\n\r\n 8.2 基于因特网的搜索引擎的构成 \r\n\r\n 8.3 搜索引擎的主要指标及其分析 \r\n\r\n 8.4 搜索引擎的数据结构 \r\n\r\n 8.5 网页的获取 \r\n\r\n 8.6 建立索引的方法和过程 \r\n\r\n 8.7 搜索过程 \r\n\r\n 8.8 搜索结果排序方法 \r\n\r\n 8.9 搜索引擎的发展趋势 \r\n\r\n 8.10 本章小结 \r\n\r\n \r\n\r\n 第9章 元搜索引擎 \r\n\r\n 9.1 引言 \r\n\r\n 9.2 基本构成 \r\n\r\n 9.3 元搜索引擎分类 \r\n\r\n 9.4 与独立搜索引擎的比较 \r\n\r\n 9.5 主要指标及其分析 \r\n\r\n 9.6 元搜索引擎面临的问题. 对策和发展趋势 \r\n\r\n 9.7 元搜索引擎调度策略研究 \r\n\r\n 9.8 文档选择 \r\n\r\n 9.9 结果归并 \r\n\r\n 9.10 元搜索引擎可扩展性 \r\n\r\n 9.11 本章小结 \r\n\r\n \r\n\r\n 第10章 基于客户端的个性化应用研究 \r\n\r\n 10.1 利用代理个性化搜索结果 \r\n\r\n 10.2 数据挖掘技术在Web预取中的应用研究 \r\n\r\n 10.3 本章小结 \r\n\r\n \r\n\r\n 第11章 基于服务器端的个性化应用研究 \r\n\r\n 11.1 引言 \r\n\r\n 11.2 带反馈自适应搜索引擎系统 \r\n\r\n 11.3 数据采集与反馈信息的生成 \r\n\r\n 11.4 反馈响应过程 \r\n\r\n 11.5 自适应搜索引擎系统原型设计与实验 \r\n\r\n 11.6 本章小结 \r\n\r\n \r\n\r\n 第12章 搜索引擎策略——站点角度 \r\n\r\n 12.1 引言 \r\n\r\n 12.2 提高网站在搜索引擎中的排名位置的方法 \r\n\r\n 12.3 如何提交自己的网站 \r\n\r\n 12.4 阻止网络检索器索引网页 \r\n\r\n 12.5 本章小结 \r\n\r\n \r\n\r\n 第13章 搜索引擎策略——用户角度 \r\n\r\n 13.1 引言 \r\n\r\n 13.2 数学命令在搜索中应用 \r\n\r\n 13.3 增强的搜索命令 \r\n\r\n 13.4 搜索引擎的辅助功能 \r\n\r\n 13.5 搜索引擎功能特点分析图表 \r\n\r\n 13.6 本章小结 \r\n\r\n \r\n\r\n 附录1 搜索引擎导航 \r\n\r\n 附录2 术语 \r\n\r\n \r\n\r\n 参考文献 \r\n
\r\n
徐宝文 东南大学计算机科学与工程系教授, 博士生导师, 中国计算机学会理事, 中国软件行业协会理事, 江苏省计算机学会副理事长暨教育专业委员会主任, 江苏省软件行业协会副会长, 教育部高等学校计算机科学与技术教学指导分委会委员, 已出版著作和译著10亲部, 在国内外发表论文200亲篇, 其中被SCI. EI. ISTP收录50余篇次.
进入21世纪, 互联网技术的发展及其所催生的“新经济”在世界经济格局中所占的分量呈现大幅上升的趋势. 互联网的发展和应用趋势也为越来越多的人所关注. 近几年来搜索引擎与信息获取技术随着万维网(WWW)这种方便易用的媒体的普及而得到了迅速的发展. 由于互联网技术开放性的特点, 使得网上的信息越来越丰富, 这一方面为用户获取信息提供了很大的便利, 另一方面由于信息量的飞速增长, 使得用户查找所需信息时犹如大海捞针. 新的信息获取技术——搜索引擎技术应运而生, 并得到了飞速发展. 搜索引擎已经成为在互联网上
仅次于电子邮件的第二大网络应用.
信息获取技术从出现到现在已经有20多年的历史. 在WWW出现之前, 信息获取技术的发展比较缓慢, 主要应用在图书馆. 科技信息研究等专业部门, 涉及的用户相对较少. 在WWW出现之后, 基于WWW的信息获取技术——搜索引擎技术出现并得到迅速发展. 由于互联网的开放性, 使得搜索引擎可以面向普通用户, 用户的需求推动其进一步发展. 我国在信息获取领域起步较晚, 在中文信息获取需求的驱动下, 出现一些中文搜索引擎网站. 但是从国内搜索引擎的应用效果和对搜索引擎技术的掌握上与发达国家比较, 则仍然存在较大的差距, 特别是在智能搜索引擎的开发. 建设和应用水平方面差距更大. 这种差距主要表现在两个方面:第一是搜索引擎的性能和搜索结果的质量与国外的搜索引擎相比存在很大的差距. 这就是为什么国人在选择搜索引擎的时候普遍选择国外著名搜索引擎的缘故. 第二是对搜索引擎与信息获取技术的掌握和应用上有待于提高和加强, 应用人才急需培养, 经验有待积累和总结. 前者的改善应依靠于国内网络性能的整体改善和先进信息获取技术的应用, 而后者的改善则更多地依赖于人们对搜索引擎和信息获取技术的掌握.
我的博士生张卫丰同志从本科学习阶段开始就跟随我进行搜索引擎的研究, 后又跟我攻读硕士学位(因成绩优异被批准改为硕博连读), 经过近五年的刻苦努力, 在国内外发表了大量学术论文, 取得了一系列研究成果. 本书即是我们在对搜索引擎的有关问题进行深入研究的基础上, 充分吸收现有研究成果, 一起编写而成的.
本书涵盖了搜索引擎与信息获取技术的主要内容, 力争系统全面地介绍信息获取的关键技术, 并通过实例来说明, 使得复杂的概念容易理解. 本书主要包含三部分:第一部分(第1章到第9章)介绍信息获取的基本原理与技术, 第二部分(第lo章到第ll章)主要介绍我们在搜索引擎与信息获取领域所做的工作和取得的最新科研成果, 它主要是实现用户个性化搜索的相关技术, 第三部分(第12章到第13章)面向普通用户的应用需求, 分别从
Web站点维护者的角度和普通用户使用搜索引擎的角度讨论了如何提高自己的网页在搜索引擎的排名和如何提高查询的搜索精度.
我们希望本书的出版能够对搜索引擎的设计者. Web站点的管理员以及广大用户有所裨益, 也希望它能成为有关领域学生的学习参考书.
十分感谢清华大学出版社的同志为本书的出版所做的工作.
作 者
2002年2月于南京
无封面