基于文档网络架构驱动的数据分类

数据分类分级痛点

非结构化数据分类技术、分类错误率高

基于内容特征的数据分类技术主要有：关键字、正则表达式、数据字典。这类技术主要适用于结构化数据，非结构化数据分级分类误报率太高。基于应用、基于位置进行分类，其适用场景少。手工标记存在不标、漏标、乱标的问题，这严重影响工作效率，也不符合文档处理习惯。

人工智能分类适用场景少，成本高昂

仅适用于部分文本类型，且这些格式若要达到准确的分类成本过于高昂。需要使用者付出高昂的成本。以政府为例，若要熟练使用 AI，需要政府工作人员消耗大量时间接受训练，并且业务外包也不可行，因为国家法律不允许政府等涉密机构将大量敏感文档交由机构外的人员训练 AI。

基于应用、位置分类，其适用场景少

1、基于格式分类：适用 CAD 等文档格式特征与类别特征对应明显的格式； 2、基于位置分类：企业几乎不会一个服务器存储一类文档。上下文分类，可以利用具有行业、业务、安全等多方面经验的人员进行纯人工梳理，但传统的人工方式效率低、周期长，且无任何规范依据。

基于文档网络架构驱动的数据分类

针对非结构化数据的业务识别是一个复杂的科学难题，基于文档网络驱动的数据分类，有以下特点：

认知元生成系统

针对文档异构、缺乏结构化、文档属性易变的特性。文档网络架构将用户对文档的每一个操作抽象为一个认知元。这些认知元会基于规则汇集至服务器的“文档镜像”或者“文档家族”等高级关系，进行积累、延续认知。从而实现了分散在不同 PC 设备的多维认知汇集至预定义位置服务器，实现了同一文档不同时间发生的认知的汇集，例如文档被使用、文档被传输等不同类别的认知元的有序汇集。

多类别认知元的选择性组合

文档网络是一个认知积累系统，其中包含了文档的流动特征以及文档流动特征间的关系。例如随着文档操作的增多，积累的认知关系信息类别也会越来越多。这种量变引起质变的过程，会生成越来越准确的级别类别。

文档级别类别改变的关联影响系统

基于文档网络架构的文档分类，它是一个正反馈系统，这是一种自我完善的机制。简而言之，企业整体文档的识别准确率，会根据企业员工对文档的操作，不断的进行改变，进行提升，这个过程是一直在持续进行的。

文档的级别类别可能来自于未来某一时刻

文档的识别分类是一个动态的过程，随着文档的流动和用户对文档的操作，文档的认知元类别会不断增加，从而提高文档的识别准确度。例如:

举个例子，一份全新的文档在最开始可能分类不太精确，因为它还没有太多关联信息。但随着人们编辑这份文档和与它相关的其他文档，我们会收集到更多的信息，比如文档被阅读了，文档被协作了等，这些信息会使我们对这份文档的分类越来越准确。所以，即使文档一开始分类不准确，也没关系，因为随着时间和用户行为的积累，它的分类会变得越来越精确。这个系统的特点是，例如，当我们编辑一份主要文档时，这份文档的“文档家族”里的其他文档也会受到影响，因为它们之间有关联。即使某个文档自身没有变化或没有人直接与其交互，静静的存储在磁盘，但它的分类也能因为其他新的操作、以前相关的文档的信息积累而变得更加精确。所以从这种意义上来说，这个文档的级别类别来自于未来的某一时刻。

文档自己识别不准，也没关系，只要关联的文档识别准确就行

准确度高的文档分类，可以通过文档网络，传递至与其相关的其他文档，来提升整个企业文档的分类质量。当一个被高度信任的分类方法应用于一组文档后，它会提高与该组文档连接的其他文档集合的分类准确性。这就像是一个正反馈途径，当一个文档识别的越准确，与它相关的其他文档的分类也会变得越准确。

连接到协作系统（如办公自动化系统、网盘、SharePoint、ERP等）后，上传和共同编辑的文档会得到更准确的分类，同时也会提高那些与之密切相关的文档的分类精度。这意味着一个误差较小的文档识别结果可以提高整个网络中相关文档的识别准确度。

认知元的持续延续积累

在认知的持续积累过程中，文档网络架构的一些重要组件发生了复杂的关联作用。

例如没有多样的认知元，有时候文档与“文档家族”的虚拟连接关系就不会一直持续保持，例如有时候“文档手铐”就会与文档分离，反过来有时候因为源文档有与“文档家族”的虚拟连接关系，所以才会确保编辑等操作后的目的文档能持续维持与“文档家族”的虚拟连接关系。

例如没有“文档手铐”存储文档与“文档家族”的虚拟连接关系，产生的认知就不会持续汇集至该去的“文档家族”。

数据分类是数据安全的安全和前提

数据分类分级痛点

非结构化数据分类技术、分类错误率高

人工智能分类适用场景少，成本高昂

基于应用、位置分类，其适用场景少

基于文档网络架构驱动的数据分类

认知元生成系统

多类别认知元的选择性组合

文档级别类别改变的关联影响系统

认知元的持续延续积累

极致、开放、持续向上