法律文本分析与解释的困境
法律文本分析,或称为文本挖掘,是人工智能与法律领域的一个分支,通过采用自然语言处理和机器学习,从案件裁判、合同或制定法中自动提取有意义的语义信息。法律文本分析深度学习装载有大型文本数据库的神经网络。神经网络由输入/输出节点组成,这些节点通过边缘加权与多层中间节点相连。输入通过网络上的节点传递至输出。这个过程包含对边缘权重的线性组合。其目的是学习那些能够使计算机输出与目标输出之间差异最小的权重。
不同的网络架构、层数和深度适合于不同的分析目标。深度学习和神经网络应采用多层架构,隐蔽层可以帮助学习具有预测性权重的各种特征。这就存在解释上的问题。神经网络通过学习权重可以进行预测,但还不能产生我们可以理解的解释。比如说,这些“知识”散布于神经网络的权重中,很难将这些知识从神经网络中提取出来,并以此对这些预测进行解释。此外,这些权重并不必然能够对应于法律执业者认为相关的“知识”。事实上,能够用以解释的相关“知识”甚至不存在于神经网络之中。研究人员Ilias Chalkidis和他的团队应用深度学习算法,直接从案件事实的文本描述中预测案件结果。他们的算法可以预测欧洲人权法院是否能够认定相关事实是否违反《欧洲人权公约》,以及违反了公约的哪些条款。研究人员收集了近85,000个案例用以算法的数据装载和开发,并使用3,000个案例用于测试。他们采用了基于BERT语言模型的算法结构,在F1分数上表现极佳(F1分数是精确率和召回率的调和均值),用这一算法对是否违反公约进行预测,得到的F1分数为0.82(F1分数的满分为1.0)。而该算法对违反哪些条款的预测,得到的F1分数为0.6。这一结果令人印象深刻,特别是他们的机器学习模型并不使用那些能够反映法律“知识”或实体法律问题的特征。
无需法律规则,无需案例,也无需法律价值判断。
可能有人会问,谁需要这种算法?
从案件文本中的深度学习,可以自动学习那些在确定预测中占有权重的特征。然而,即使这些学习来的特征可以从神经网络中提取出来,也并不必然与法律执业者能够理解的法律知识相对应,因此,他们所使用的机器学习路径并不能解释其预测的结果,这一路径能做的只是突出显示那些能够影响预测结果的文本,为此它采用了多层注意力网络(HAN)。
如前所述,不同的网络架构、层数和深度适合于不同的分析目标。多层注意力网络能够预测案件结果,并且产生神经网络的注意权重。多层注意网络中的注意力权重可以突出显示文件中的相关部分,或者至少突出显示最具预测力权重的部分。这使得使用多层注意力网络的突出显示来解释预测结果成为可能。
Chalkidis和他的团队想利用多层注意力网络从神经网络中找出法律解释的成分。对于那些对模型结果预测有更大影响力的文本部分,多层注意力网络将赋予更高的注意力分数,然后在界面中突出显示这些文本,并且希望这些突出显示的部分能够等同于对预测结果的解释。Chalkidis在生成突出显示的事实描述时,使用了多层注意力网络。
《欧洲人权公约》第3条禁止酷刑,以及不人道或有辱人格的待遇或惩罚。事实上,如果人们仔细去阅读那些突出显示的部分,就可以发现这些突出显示的内容确实有一定的意义,但还是会质疑这些内容能否等同于解释。
卡尔·布兰廷的实验表明,这些突出显示的、具有高注意力分数的文本对法律结论的解释意义有限。他的团队让61位专家和非专家人士参与一项任务,该项任务主要对世界知识产权组织(WIPO)规则下的网络域名争端解决的裁判进行分析。世界知识产权组织仲裁与调解中心提供无需在法庭进行诉讼,而解决网络域名争端的规则和机制。在实验中,参与者都被赋予了一项任务。每个参与者都被要求对两组独立案件中的“无权利或合法利益(NRLI)”问题进行裁判,并为每项预测提供理由。无权利或合法利益是世界知识产权组织域名争端解决中的重要问题。四个实验条件中,有两个涉及基于注意力权重而突出显示部分案件文本。实验结果表明,突出显示并不会对预测的正确性产生影响。但按照布兰廷的说法,参与者最具启发性的评论或许是他们难以理解,在突出显示的文本与他们要决定的问题之间存在什么联系。他们说不出那些突出显示的部分与WIPO规则的重要概念“无权利或合法利益”之间有什么关系。
尽管一个实验并不具有决定性意义,但这一发现对多层注意力网络的注意力权重能够解释法律预测的结果而言,是一个打击。布兰廷指出,一个有用的结论支撑应该可以帮助其用户理解案件记录的有关部分与案件的争议焦点和法律推理之间的关系。这是成功的法律解释的目标。
法律知识对帮助用户理解这种关联而言是重要的,但问题是,人们如何将这些法律知识整合到文本分析的分析路径当中?卡尔·布兰廷于2020年在《人工智能与法律杂志》中发表的论文中描述了一种近期最有希望的研究项目。该论文的题目是《可扩展和可解释的法律预测》。作者开发了一套名为SCALE的半自动检测方法,用以从事实和法律认定方面对世界知识产权组织域名争端案件进行注释。文本注释包括对案件裁判的文本进行标注,以确定信息语义类型的实例。这些语义类型是文本中的一些关键概念,例如,法院对事实的认定、法律问题、案件中的因素,以及如引注等文本属性。这些重要的语义类型被置于类型系统之中,这是一个概念与关系的位阶等级,这样一个注释管道就可以学习自动为文本分配一些语义概念或意义。
研究人员使用了类型系统中的标签,来对一小部分裁判的事实认定中的句子进行了注释。SCALE标签抓取在涉及域名争端的世界知识产权组织的案件中出现的那些对特征的构成十分关键的事实认定、法律问题、因素和属性的类型。例如,无权利或合法利益问题,及其相关的在先商业使用等因素,都用绿色进行突出显示。如前所述,无权利或合法利益源于世界知识产权组织关于域名争端的规则。该规则强调在收到争端通知前,对域名的善意商业使用的重要性。研究人员将一系列经注释的实例,载入机器学习分类器,使其对WIPO数据库中的所有案例中事实部分的句子按照标签进行分类。在实验中,他们证实了机器学习到的注释能够使程序合理预测案件的结果。预测结果也实现了合理的F1分数。除此之外,注释内容能够代表一些实质性的概念特征,这些特征可以用以解释预测结果。
为什么布兰廷团队会坚持适用SCALE的方法?因为他们想要得到一个能够生成律师可以理解的法律解释的系统,一个能够帮助其用户理解案件记录的有关部分与案件的法律问题和推理之间关系的系统。关于从案例文本中提取诸如法律问题和法律要素等在法律上有意义的特征,SCALE朝着这一方向迈出了惊人的一步。但机器学习程序可以用法律执业者能够理解的术语和方式来解释预测的结果。
SCALE的路径在中国民法法系当中能否得到应用呢?我曾听说过中国的指导性案例制度,中国的案例是否会对案例的实施情况进行完整的描述?中国的法学学者和律师是否如普通法系的法律执业者一样,采用类比推理的方法对案件进行法律推理?如果是的话,这对中国的法律信息检索系统有什么样的影响?这些系统又是否会支撑以“知识”为基础的法律论证?正是在这种关联之上,SCALE方法对辨别那些与结果预测的解释相关的法律问题和法律因素而言十分重要。法律知识能否帮助文本分析来解释其结果预测,取决于中国的民法法系如何适用于具体的案件。
责任编辑:
王 健 金惠珠