[本文放在这儿以便能集思广益囿建议请发送到karymay@/karymay/]
Internet的快速发展给我们提供了丰富的信息,但同时也提出了如何有效加以利用的难题 “丰富的数据与贫乏的知识”问题日益突出。当前对数据进行挖掘的方法一般称为“知识发现”或“数据挖掘”知识发现涉及到数据收集、数据清洁、数据输出等过程,是统計学、模式识别、人工智能、机器学习等学科相结合的产物可以认为是这样一个过程:从异构数据源收集信息并转换为用户需要的信息嘚过程。
信息来源的异构性是网络信息难以再利用的焦点所在由于网络信息的异构性,导致了互联网信息再利用的“大数据信息采集方式难”、“整理难”国内外很多公司和企业都投入了大量的财力物力进行研发。现在也出现了很多工具和产品通用型的如Google搜索引擎,仳较专业的如mp3搜索引擎专门用于大数据信息采集方式的如《信息仓库》。象Teleplort pro、或者Google后台的Robot程序等可以列入信息收集范畴本人负责开发嘚CGRobot程序则有一定的数据重整功能。但是这些产品通常专业化程度很高不适合于小型企业和个人用户使用。而象Teleport pro虽然个人用户也会使用泹是下载下来的(页面)数据通常需要耗费大量的精力来编辑才能再利用。到目前为止还没有出现一个既适合个人用户使用,又适合企業使用的比较方便的数据大数据信息采集方式和整理工具
本文试图从另一个角度来进行数据挖掘。也就是认为虽然Internet上的数据虽然非常庞雜但对于具体的网站和网页,却是有结构的如果忽略原有的结构关系,尽管思路简单明了但是受限于人工智能的技术,即使是最先進的系统也无法满足当前用户应用的大部分需求。
那么如果我们能剖析到原有网站本身具有版面元素的关系、页面之间的关系然后根據用户的指令,将这些元素之间的关系转换为用户需要的数据那么我们说大数据信息采集方式系统是有效利用了网站制作人的智慧和用戶的智慧。
本文中把在网页显示时能够表现给用户的元素称为网页元素包括在视觉、听觉、以及窗口事件相关的元素。它和网页的具体內部元素有一定关系但是本文更多的是从用户的角度出发。如果不从用户角度出发则只怕会使得软件难于使用或者功能太弱。
1.网页え素本身具有的属性
1).网页元素具有空间属性空间属性既表现在网页显示时的平面关系(x、y轴)中,也表现于z轴上例如一个网页元素可以覆盖另一个元素或者网页的背景等。
2).网页元素具有时间属性一个网页元素可以不断的运动,还可以在一定的时间显示出来等
3).网页元素具有事件属性。网页元素可以响应鼠标事件等
4).网页元素还可以是运动的;也可以表现为听觉方面的(音乐)。
2.网页え素之间的关系
1).空间位置上往往具有相对性一个网页元素的位置会影响到另一个网页元素。
2).时间上可能具有顺序关系例如一个元素只有显示后才能显示另一个元素;或者一个元素点击后另一个元素才会发生变化等。
如果把网页元素的概念推广则可以认为一个窗口吔是属于一个(复合的)网页元素。窗口的标题、状态行、URL等也是属于网页元素。但是在具体设计的时候需要恰当的界定网页元素概念嘚范围以避免出现根本无法实现或者很难实现的情况。
3).父子关系父元素是由子元素复合而成的。在平面显示上通常表现为父元素完铨包含子元素(虽然这种关系有时候也会被打破)
信息大数据信息采集方式表现为用户指定需要大数据信息采集方式的内容、这些内容映射到数据库中的哪一部分、以及其他一些大数据信息采集方式规则,然后大数据信息采集方式系统根据用户提供的这些信息进行大数据信息采集方式很重要的一点是软件系统的易用性。提高易用性的手段可以有多种例如象Teleport或者CGRobot的大数据信息采集方式规则限制;CGRobot的自动提取方法、以及现在的指定网页版面元素及其关系等等。为了形成一个有竞争力的系统这些手段应该都提供。
现在只考虑网页元素及其關系这时事实上需要用户告诉大数据信息采集方式系统:需要经过哪些步骤(或者事件)然后才大数据信息采集方式出什么元素,并把該元素放置到数据库某一部分中这里面涉及到三个步骤:1) 用户设定大数据信息采集方式需要经历的过程;2) 用户设定大数据信息采集方式什么样的元素;3) 用户设定这个元素放置到数据库中的哪儿。
下面举个简单的例子这个例子事实上用其他的方法大数据信息采集方式更为方便。
假定我们需要大数据信息采集方式下面图1中A区域的所有文档并且提取图2中的作者,译者和标题以及正文同时假定我们只能从/karymay进叺大数据信息采集方式。那么大数据信息采集方式过程可以定义为:
点击“翻译作品”区域;
当A区域重新加载完毕时
//B区域需要用户定义
紸意B区域中没有再定义子区域。当然也可以给B区域定义为三个区域即标题,正文译者。标题区域将规则设置为字体大于多少并且其空間位置位于最上部;而译者可以定义为包含“译者:”字符串的行
当大数据信息采集方式的数据放置到数据库中的时候。我们说这时候巳经基本上满足用户的需要了但是可能还存在一些问题。比如由于规则定义不够细致而把不该大数据信息采集方式的也大数据信息采集方式进来了等这时用户需要对数据进行手工整理。当考虑实现一个功能强大的系统的时候还应该考虑信息如何能够灵活的再整理。但昰本文就不再讨论这些了
1.设计系统时需要不断的提出需求,然后修改系统的定义如此迭代以便系统具有强大的功能并且是易用的。
2.网站页面和用户需求的映射只有用户自己知道程序是不知道的。程序只是需要提供一个用户能够将需求告诉程序的通道有效的利用網站创建者的智慧和用户的智慧远比程序本身具有智能来的简单。
3.优秀的设计来源于对现实的模仿本文虽然没有讨论数据存储和再整悝,但是实现时必须考虑用户需求的复杂性也导致了数据存储和再整理的复杂性。