针对非结构化数据的业务识别是一个复杂的科学难题,基于文档网络驱动的数据分类,有以下特点:
针对文档异构、缺乏结构化、文档属性易变的特性。文档网络架构将用户对文档的每一个操作抽象为一个认知元。这些认知元会基于规则汇集至服务器的“文档镜像”或者“文档家族”等高级关系,进行积累、延续认知。从而实现了分散在不同 PC 设备的多维认知汇集至预定义位置服务器,实现了同一文档不同时间发生的认知的汇集,例如文档被使用、文档被传输等不同类别的认知元的有序汇集。
文档网络是一个认知积累系统,其中包含了文档的流动特征以及文档流动特征间的关系。例如随着文档操作的增多,积累的认知关系信息类别也会越来越多。这种量变引起质变的过程,会生成越来越准确的级别类别。
基于文档网络架构的文档分类,它是一个正反馈系统,这是一种自我完善的机制。简而言之,企业整体文档的识别准确率,会根据企业员工对文档的操作,不断的进行改变,进行提升,这个过程是一直在持续进行的。
文档的级别类别可能来自于未来某一时刻
文档的识别分类是一个动态的过程,随着文档的流动和用户对文档的操作,文档的认知元类别会不断增加,从而提高文档的识别准确度。例如:
举个例子,一份全新的文档在最开始可能分类不太精确,因为它还没有太多关联信息。但随着人们编辑这份文档和与它相关的其他文档,我们会收集到更多的信息,比如文档被阅读了,文档被协作了等,这些信息会使我们对这份文档的分类越来越准确。所以,即使文档一开始分类不准确,也没关系,因为随着时间和用户行为的积累,它的分类会变得越来越精确。这个系统的特点是,例如,当我们编辑一份主要文档时,这份文档的“文档家族”里的其他文档也会受到影响,因为它们之间有关联。即使某个文档自身没有变化或没有人直接与其交互,静静的存储在磁盘,但它的分类也能因为其他新的操作、以前相关的文档的信息积累而变得更加精确。所以从这种意义上来说,这个文档的级别类别来自于未来的某一时刻。
文档自己识别不准,也没关系,只要关联的文档识别准确就行
准确度高的文档分类,可以通过文档网络,传递至与其相关的其他文档,来提升整个企业文档的分类质量。当一个被高度信任的分类方法应用于一组文档后,它会提高与该组文档连接的其他文档集合的分类准确性。这就像是一个正反馈途径,当一个文档识别的越准确,与它相关的其他文档的分类也会变得越准确。
连接到协作系统(如办公自动化系统、网盘、SharePoint、ERP等)后,上传和共同编辑的文档会得到更准确的分类,同时也会提高那些与之密切相关的文档的分类精度。这意味着一个误差较小的文档识别结果可以提高整个网络中相关文档的识别准确度。
在认知的持续积累过程中,文档网络架构的一些重要组件发生了复杂的关联作用。
例如没有多样的认知元,有时候文档与“文档家族”的虚拟连接关系就不会一直持续保持,例如有时候“文档手铐”就会与文档分离,反过来有时候因为源文档有与“文档家族”的虚拟连接关系,所以才会确保编辑等操作后的目的文档能持续维持与“文档家族”的虚拟连接关系。
例如没有“文档手铐”存储文档与“文档家族”的虚拟连接关系,产生的认知就不会持续汇集至该去的“文档家族”。