HOME > 国外SEO
搜索引擎在网络信息挖掘中的应用
小搜索范围。其四,若最初的查找并不成功,可以用同义词进行查找。此外,平时应多注意积累优秀的专业网站和数据库网址。
据***IC于2000年7月27日发布的统计资料,搜索引擎的使用已经占到网络应用的55.91%,成为中国当前第二大互联网应用,仅次于收发E-Mail,搜索引擎的重要性已成为网站建设的重要功能,成为网络信息挖掘的主要途径。
4、搜索引擎的未来发展趋势
随着WWW信息的指数增加,目前的搜索引擎存在搜索速度慢、死链接太多、重复信息或不相关信息较多,难以满足人们的各种信息需求,搜索引擎将向智能化、精确化、交叉语言检索、多媒体检索、专业化等适应不同用户需求的方向发展。①智能化的搜索引擎:它是搜索引擎的发展方向。它利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息搜集过滤,自动地将用户感兴趣的、对用户有用的信息提交给用户。②重视查询结果的精度,提高检索的有效性:解决查询结果过多的现象目前有以下几种方法:a.构建基于内容的搜索引擎。基于内容的搜索的比较成熟的解决方案是依靠语义网络、汉语分词、句法分析、处理同义词等信息处理技术最大程度地了解用户的信息需求。b.将用户提问转化为系统已知的问题,然后对已知问题进行解答,以求降低对自然语言理解技术的依赖性。c.用正文分类技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。d.进行站点类聚或内容类聚,减少信息的总量。e.让用户对返回结果进行选择,进行二次查询是一种非常有效的手段。③实现交叉语言的检索:对多种语言的数据库进行交叉语言信息检索,返回能够回答用户问题的所有语言的文档。该技术目前还处于初步研究阶段,是搜索引擎的发展方向。④多媒体搜索引擎:由于未来的互联网是多媒体数据网络,开发出可查询图像、声音、图片和电影的搜索引擎是一个新的方向。⑤专业化搜索引擎:是为了专门收录某一行业、某一主题或某一地区的信息而建立,具有针对性强、实用性强的特点。如商务查询、企业查询、人名查询、专业信息查询等等。
三、搜索引擎在网络信息挖掘中的应用
1、搜索引擎在网络信息挖掘中的应用实例
下面以国外著名的搜索引擎Google(http://www.google.com)为例,剖析网络信息检索在网络信息挖掘中的应用。首先我们先看一下Google的体系结构(见图1)。
Google的搜索机制是:几个分布的Crawler(自动搜索软件)同时工作——在网上“爬行”,URL服务器负责向Crawler提供URL的列表。Crawler所找到的网页被送到存储服务器中。存储服务器于是把这些网页压缩后存入一个知识库(repository)中。每个网页都有一个关联ID——doc ID,当一个新的URL从一个网页中解析出来时,就被分配一个doc ID。索引库和排序器负责建立索引,索引库从知识库中读取记录,将文档解压并进行解析。每个文档就转换成一组词的出现状况,称为hits。hits记录了词、词在文档中的位置、字体大小、大小写等。索引库把这些hit又分成一组“barrels”,产生经过部分排序后的索引。索引库同时分析网页中所有的链接,并将重要信息存在Anchors文档中,该这个文档包含了足够信息,可以用来判断一个链接被链入或链出的结点信息。
URL分解器(URL Resolver)阅读Anchors文档,并把相对的URL转换成绝对的URLs,并生成doc ID,它进一步为Anchor文本编制索引,并与Anchor所指向的doc ID建立关联。同时,它还产生由doc ID对(pairs of doc ID)所形成的数据库。这个链接数据库(Links)用于计算所有文档的页面等级(Pagerank)。
排序器会读取barrels,并根据词的ID号(word ID)列表来生成倒排挡。一个名为DumpLexicon的程序则把上面的列表和由索引库产生的一个新的词表结合起来产生另一个新的词表供搜索器(Searcher)使用。这个搜索器就是利用一个Web服务器,并使用由DumpLexicon所生成的词表,并利用上述倒排挡以及页面等级来回答用户的提问。
从Google的体系结构、搜索原理中可以看到,其关键是:利用URL分解器获得Links信息,并且运用一定的算法得出页面等级的信息,这正是网络结构挖掘技术。
2、网络信息挖掘的应用前景
网络信息挖掘已广泛地应用于金融业、零售业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,对它的应用和研究正在成为一个热点。网络信息挖掘的应用前景主要表现在三个方面:①电子商务。运用网络挖掘技术能够从服务器和浏览器端的日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而作出预测性分析。例如通过评价用户对某一信息资源浏览所花的时间,可以判断出用户对资源兴趣如何;对日志文件所收集到的域名数据,如国家或类型(.com,.edu,.gov)的分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。②网站设计。通过对网站内容的挖掘,可以有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。③搜索引擎。用搜索引擎进行网络信息挖掘的最大特色体现在它所采用的对网页Links信息的挖掘技术上。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果(查全率,precision;查准率,recall);运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
上面仅仅列举了网络信息挖掘技术在这三个方面的应用。这项技术的应用正变得越来越广泛;用户对高品质、个性化的信息的需求必将推动学术界与实业界的研究开发工作。
据***IC于2000年7月27日发布的统计资料,搜索引擎的使用已经占到网络应用的55.91%,成为中国当前第二大互联网应用,仅次于收发E-Mail,搜索引擎的重要性已成为网站建设的重要功能,成为网络信息挖掘的主要途径。
4、搜索引擎的未来发展趋势
随着WWW信息的指数增加,目前的搜索引擎存在搜索速度慢、死链接太多、重复信息或不相关信息较多,难以满足人们的各种信息需求,搜索引擎将向智能化、精确化、交叉语言检索、多媒体检索、专业化等适应不同用户需求的方向发展。①智能化的搜索引擎:它是搜索引擎的发展方向。它利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息搜集过滤,自动地将用户感兴趣的、对用户有用的信息提交给用户。②重视查询结果的精度,提高检索的有效性:解决查询结果过多的现象目前有以下几种方法:a.构建基于内容的搜索引擎。基于内容的搜索的比较成熟的解决方案是依靠语义网络、汉语分词、句法分析、处理同义词等信息处理技术最大程度地了解用户的信息需求。b.将用户提问转化为系统已知的问题,然后对已知问题进行解答,以求降低对自然语言理解技术的依赖性。c.用正文分类技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。d.进行站点类聚或内容类聚,减少信息的总量。e.让用户对返回结果进行选择,进行二次查询是一种非常有效的手段。③实现交叉语言的检索:对多种语言的数据库进行交叉语言信息检索,返回能够回答用户问题的所有语言的文档。该技术目前还处于初步研究阶段,是搜索引擎的发展方向。④多媒体搜索引擎:由于未来的互联网是多媒体数据网络,开发出可查询图像、声音、图片和电影的搜索引擎是一个新的方向。⑤专业化搜索引擎:是为了专门收录某一行业、某一主题或某一地区的信息而建立,具有针对性强、实用性强的特点。如商务查询、企业查询、人名查询、专业信息查询等等。
三、搜索引擎在网络信息挖掘中的应用
1、搜索引擎在网络信息挖掘中的应用实例
下面以国外著名的搜索引擎Google(http://www.google.com)为例,剖析网络信息检索在网络信息挖掘中的应用。首先我们先看一下Google的体系结构(见图1)。
Google的搜索机制是:几个分布的Crawler(自动搜索软件)同时工作——在网上“爬行”,URL服务器负责向Crawler提供URL的列表。Crawler所找到的网页被送到存储服务器中。存储服务器于是把这些网页压缩后存入一个知识库(repository)中。每个网页都有一个关联ID——doc ID,当一个新的URL从一个网页中解析出来时,就被分配一个doc ID。索引库和排序器负责建立索引,索引库从知识库中读取记录,将文档解压并进行解析。每个文档就转换成一组词的出现状况,称为hits。hits记录了词、词在文档中的位置、字体大小、大小写等。索引库把这些hit又分成一组“barrels”,产生经过部分排序后的索引。索引库同时分析网页中所有的链接,并将重要信息存在Anchors文档中,该这个文档包含了足够信息,可以用来判断一个链接被链入或链出的结点信息。
URL分解器(URL Resolver)阅读Anchors文档,并把相对的URL转换成绝对的URLs,并生成doc ID,它进一步为Anchor文本编制索引,并与Anchor所指向的doc ID建立关联。同时,它还产生由doc ID对(pairs of doc ID)所形成的数据库。这个链接数据库(Links)用于计算所有文档的页面等级(Pagerank)。
排序器会读取barrels,并根据词的ID号(word ID)列表来生成倒排挡。一个名为DumpLexicon的程序则把上面的列表和由索引库产生的一个新的词表结合起来产生另一个新的词表供搜索器(Searcher)使用。这个搜索器就是利用一个Web服务器,并使用由DumpLexicon所生成的词表,并利用上述倒排挡以及页面等级来回答用户的提问。
从Google的体系结构、搜索原理中可以看到,其关键是:利用URL分解器获得Links信息,并且运用一定的算法得出页面等级的信息,这正是网络结构挖掘技术。
2、网络信息挖掘的应用前景
网络信息挖掘已广泛地应用于金融业、零售业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,对它的应用和研究正在成为一个热点。网络信息挖掘的应用前景主要表现在三个方面:①电子商务。运用网络挖掘技术能够从服务器和浏览器端的日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而作出预测性分析。例如通过评价用户对某一信息资源浏览所花的时间,可以判断出用户对资源兴趣如何;对日志文件所收集到的域名数据,如国家或类型(.com,.edu,.gov)的分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。②网站设计。通过对网站内容的挖掘,可以有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。③搜索引擎。用搜索引擎进行网络信息挖掘的最大特色体现在它所采用的对网页Links信息的挖掘技术上。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果(查全率,precision;查准率,recall);运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
上面仅仅列举了网络信息挖掘技术在这三个方面的应用。这项技术的应用正变得越来越广泛;用户对高品质、个性化的信息的需求必将推动学术界与实业界的研究开发工作。
