段数据处理在处理文档并将其内容保存到知识库时会执行几个操作处理律师创建的文档并将其内容转换为数据库中的记录这些记录可以表示为单个单词短语公式句子文章文档部分。解析时的算法根据其内容确定文档类型。例如他们知道他们保留了租约中的措辞。也会标记文档以确定其结构这可以让你确定从文档的哪个部分保存到数据库的措辞例如这个文档中的这个措辞包含在房间转移中部分。有和经验的用户可能已经注意到在打。
开某些文档时它们的结构会显示在导航栏中 韩国 WhatsApp 号码列表 当然这并不神奇这项技术没有什么复杂的基于样式属性这是一个格式化元素构建结构而则关注其他形式特征例如标记为段落的段落作为标题。此功能显然不足以自动将文档标记为多个部分因为在现实生活中很少有用户会考虑文章标题的正确设置。例如关于将它们标记为标题或对其应用特殊的样式。因此需要一种新的解决方案根据各种标准重量位置坡度样式语义等将自动执行此标记。我们已经训练来完成。
这项任务为了训练模型我们手动标记了数百个文档。我们还训练模型从内容中识别文档类型。我们为什么这样做知识库可以存储数以千计的陈述并且有必要从这个集合中准确地向用户展示此时此地需要的那些陈述。例如如果用户正在处理供应协议或房地产尽职调查报告那么提供公司协议中的措辞就没有意义。这就是我们引入按文档类型和按文档部分类型划分的原因。如果第一个一切都清楚法律文件的类型相对有限那么文档部分的分类就变成了在标。