SEO翻译成中文就是“搜索引擎优化”,搜索引擎是除电子邮件以外被用得最多的网络行为方式。本站点提供搜索引擎优化相

HOME > 国外SEO

搜索引擎在网络信息挖掘中的应用


的数据,并发现某一时间段内数据的相关处理模型。它是一种在关联模型中增加了时间属性的特定的关联模型。④聚簇模型。主要用于当要分析的数据缺乏描述信息或无法组织成任何分类模式时,按照某种相近程度度量方法将用户数据分成互不相同的一些分组。进而,通过采用聚簇模型,根据部分数据发现规律,找出对全体数据的描述。

    2)、数据挖掘采用的典型方法及工具

    针对上述应用类型,数据挖掘领域提出了多种实现方式与算法。这里仅讨论几种常见的典型的实现方法。①神经网络。它建立在可以自学习的数学模型的基础之上,可以对大量复杂的数据进行分析,并完成极为复杂的模式抽取及趋势分析。神经网络对分类模型比较适合,但得出结论的因素并不十分明显,其输出结果也没有任何解释,影响结果的可信度及可接受程度;其次,它需要较长的学习时间,因此当数据量很大时,性能可能会出现问题。②决策树。是通过一系列规则对数据进行分类。采用决策树,可以将数据规则可视化,其输出结果也容易理解。决策树方法精确度比较高,构造过程简单,因此比较常用。其缺点是很难基于多个变量组合发现规则;不同决策树分支之间的分裂也不平滑。③联机分析处理(OLAP)。主要通过***的方式对用户当前及历史数据进行分析、查询和报表,辅助领导决策。④数据可视化。数据仓库中包含大量的数据,充实着各种数据模型,将如此大量的数据可视化需要复杂的数据可视化工具。

    目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。然而,数据挖掘技术与可视化技术、地理信息系统、统计分析系统相结合,可以丰富数据挖掘技术及工具的功能与性能。

    4、网络信息挖掘及其分类

    网络信息挖掘是一个极其复杂的过程,它不同于传统的数据仓库技术和简单的知识发现(KDD),它面对的海量信息不是全简单的结构化数据,而常常为半结构化的数据,如文本、图形、图像数据,甚至是异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。

    网络信息挖掘大致分为四个步骤:①资源发现,即检索所需的网络文档;②信息选择和预处理,即从检索到的网络资源中自动挑选和预先处理得到专门的信息;③概括化,即从单个的Web站点以及多个站点之间发现普遍的模式;④分析,对挖掘出的模式进行确认或解释。

    根据挖掘的对象不同,网络信息挖掘可以分为网络内容挖掘、网络结构挖掘和网络用法挖掘。①网络内容挖掘。即从网络的内容/数据/文档中发现有用信息的过程。网络信息资源类型众多,从网络信息源的角度看,大量的网络信息资源可以直接从网上抓取、建立索引、实现检索服务,但是还有一些网络信息是“隐藏”的,如由用户的提问而动态生成的结果,或是存在DBMS中的数据,或是那些私人数据,它们无法被索引,从而无法提供对它们有效的检索方式;从资源形式看,网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,因此网络内容挖掘是一种多媒体数据挖掘形式。②网络结构挖掘。即挖掘Web潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点。③网络用法挖掘。通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。网络内容挖掘、网络结构挖掘的对象是网上的原始数据,而网络用法挖掘则面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。

    二、搜索引擎的主要技术及其应用和发展趋势

    狭义上讲,网络信息检索就是网络信息(内容)挖掘的一种。因此,要探讨网络信息挖掘,也有必要探讨一下有关搜索引擎的问题。

    1、什么是搜索引擎

    搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词、全文检索、主题词检索、分类检索及其它特殊信息的检索(企业、人名、电话黄页等)。

    2、搜索引擎的主要技术

    搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。①搜索器:其功能是在互联网中漫游,发现和搜集信息。它要尽可能多、尽可能快地搜集新信息和定期更新旧信息,以避免死连接和无效连接,为此搜索器的实现常采用分布式、并行计算技术,以提高信息发现和更新的速度。②索引器:其功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。③检索器:其功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。④用户接口:其作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框,复杂接口可以让用户对查询进行限制。

    3、搜索引擎的应用

    目前几个比较大的中文搜索引擎是:雅虎中国;搜狐;新浪;网易;北大天网搜索(http://e.pku.edu.cn)等。

    在Internet的信息海洋里寻找信息,首先,应该使用一个以上搜索引擎,除非你第一次就发现完美的搜索结果。其二,通过大量实践,仔细体会每个搜索引擎的特色和功能。其三,统计表明,很多用户只输入一个词进行查询,查询结果往往有很多冗余。建议同时使用多个词以缩

相关文章