大语言模型时代的数字司法在价值上最显著的优势是实现了几近完美的效率,但因为无法进行价值判断而很难满足实质正义的要求,更无法实现司法裁判所要求的“负责任的正义”。负责任的正义是一种基于论证和代表的程序正义,要求司法裁判同时提起“真实性宣称”与“正确性宣称”。基于大语言模型的技术限制,数字司法既因为幻觉问题和完美训练集问题而存在真实性缺陷,又由于只能掌握“语词”(标识)而非真正的“语言”(意义),以及存在用数字技术消解司法程序空间的倾向而遭遇正确性或可证成性缺失的问题。基于大语言模型的伦理限制,人工智能系统不应为司法裁判负责,人类法官也不应放弃自己的道德自主,将司法裁判的责任推给机器。在根本上,大语言模型只是裁判辅助技术,既不能、也不应为司法裁判的正义负责。当下,技术赋能司法的程度不断加深。人工智能在司法审判活动中的角色也从“数字书记员”开始迅速转变为“法官同伴”,“人机协作”或“人机共融”开始成为数字司法的新趋势。以大语言模型为代表的生成式人工智能的广泛应用更是加速了这种趋势。无论是OpenAI公司研发的ChatGPT,还是深度求索公司研发的DeepSeek-V3和R1,都让普通用户深刻感受到人工智能可能给日常生活带来的变革。大语言模型是预训练语言模型的升级版。早期的自然语言处理通常用统计模型来生成语言,最著名的例子是隐马尔可夫模型(HMM)。这一模型用词汇出现的概率来预测下一个词,进而生成语言。尽管今天的大语言模型背后的数学基础已经超越了简单的隐马尔可夫模型,但其基本原理依然是相似的,即基于以往人类文本中出现的语言,预测每个词(句子、段落)后面的下一个词是什么(预测即生成)。只是与预训练语言模型相比,大语言模型包含数百亿或更多参数,因而大幅扩展了模型体量、预训练数据量和总计算量,可以更好地根据上下文理解自然语言并生成高质量文本。它基于神经网络模型而产生,具有小模型不具有的“涌现能力”。大语言模型直接针对人类语言,而文本是法律的表达方式,生成文本是法律领域的基本工作。所以,在大规模语料库上进行预训练后,让模型多学习裁判文书等法律文本(能力引导),或者对模型生成的文本进行人工标注(对齐微调),看起来就可以在法律这个垂直领域产生富有成效的法律大语言模型。与通用大语言模型相比,法律大语言模型具备更强大的法律大数据分析和处理能力,更专注于解决法律问题。由此,机器人法官“秒生成”裁判文书的图景似乎已不再是幻想。在高校系统,东南大学率先发布了深度推理法律垂域大模型“法衡-R1”。在司法系统,深圳市中级人民法院推出了全国首个司法审判垂直领域大模型。而在世界范围内,两年前就已诞生“全球大语言模型审判第一案”。对于大语言模型司法应用的场景及其优缺点,已有学者进行了系统的分析。与此相比,本文聚焦大语言模型时代数字司法的价值问题。具体而言:法律是人类的一种价值实践,而司法是这种价值实践的典型应用场景。当基于大规模法律语料库和统计模式的法律大语言模型被全面引入司法裁判时,它是否与这种价值实践的深层机理相符?如果我们以“正义”来统称司法裁判所追求的价值,那么问题在于:司法裁判中的正义是一种什么样的正义?数字司法又能否和应否为司法裁判的正义负责?
数字司法正在深刻改变传统司法模式,其核心优势在于显著提升司法效率。这至少体现在三个方面:一是案件处理效率提升。(1)自动化文书生成:大语言模型可自动生成起诉状、判决书等法律文书,减少法官和书记员的工作量,缩短案件处理周期。(2)智能证据分析:模型能快速分析海量证据,识别关键信息,辅助法官快速把握案件事实,提高审判效率。(3)类案智能推送:系统可根据案情自动推送类似案例和裁判规则,为法官提供参考,减少重复劳动,提升裁判效率。二是司法资源优化配置。(1)繁简分流:通过结构化的数据录入和智能识别实现案件繁简分流,有效调动简易程序(或速裁程序)和普通程序的分配,提升司法资源配置效率。(2)跨域协作:数字司法平台打破地域限制,实现不同法院之间的信息共享和协同办案,提高司法资源利用效率。三是司法流程便捷化。(1)在线诉讼服务:当事人可通过在线平台进行立案、缴费、提交证据等操作,减少奔波劳累,降低诉讼成本。(2)在线司法审判:利用数字技术实现庭审直播和录播,从“面对面”式司法向“屏对屏”网络式司法转变,保证案件程序高效流转并借助数字建模准确输出司法判断,以较低的时间成本和经济成本定分止争、解决争议、实现诉求。尤其是大语言模型具备强大的内容生成能力,契合法律行业的业务需求,其展现出法律法规认知、客户指令理解、法律逻辑推导与法律文本生成的全链条法律工作潜力。大语言模型通过深度学习和自然语言处理技术,提升了法律研究、合同分析、案件预测和文档自动化的效率。可以说,几近完美的效率正是大语言模型时代的数字司法所能触达的最大价值。法律大语言模型在大规模提升司法效率的同时也大大节约了司法成本,这可以有效化解我国法院长期存在的“案多人少”的矛盾,因而为我国司法机关所追求。追求效率并不意味着不顾正义,所谓“迟到的正义并非正义”。效率在公共权力产品中是重要价值。正义(公平)本身内含着效率的向度,效率的最大化构成正义的一个标准。概言之,效率是形式正义的表征。但这也意味着,仅有效率不足以实现正义。因为正义除了形式面向,也包含实质面向。如果效率是因各项资源的合理配置而不是因畸形配置(即在实质正义环境中)而得到提升,“高效”便成为一个正向的积极参数。但就司法公共产品而言,当效率的追求与(实质)正义的实现发生冲突或需要排列权重时,效率应当列于(实质)正义之后。在此意义上,可以把(实质)正义比喻为效率的“刹车”。那么,大语言模型能否带来实质正义?实质正义是一个异常复杂的问题,尤其是在价值多元主义盛行的当下。价值多元主义往往蕴含着价值相对主义,对于同一个裁判结论,不同的价值体系可能会作出大相径庭的评价。但无论如何,实质正义避免不了价值判断。这意味着,唯有能进行价值判断者,才有可能实现实质正义。当然,我们不能说凡是能进行价值判断者,皆可实现实质正义。但不管怎么样,价值判断是实质正义的必要前提。所以,如果大语言模型无法进行价值判断,就一定无法带来实质正义;反之,如果大语言模型能够进行价值判断,则是否一定会带来实质正义仍需再作判断。那么,它是否具备此种能力?对此,许多学者都认为,人工智能无法对司法裁判所面对的人和事进行评价。但也有论者指出,没有理由能够自始排除机器作出法学评价的可能性,例如可在“监督学习”程序中,在“训练回合”里输入许多由真人作出的裁判让机器去消化,在“验证回合”里输入另一批裁判资料,检验机器与人类得出的结论是否相符,然后再用这个训练过的算法去预测实际上尚未裁判的案件,并观察其表现。但是,支持人工智能可以进行价值判断的主张存在两个错误:一个错误是将价值判断等同于价值的表述生成。人类的价值判断具有自主性,也即不依赖于价值“输入值”。哪怕面对众口铄金式的一致外部价值判断,评价者也可以独立作出自己的不同价值判断。这是因为人类具有自由意志,自由意志被认为是“自主性”的一个根本依据。我们希望成为自己生活的设计者,能够对我们自己的生活进行自我管理和自我把握。自主的价值判断实际上就是这种自我管理和自我把握的体现。但是,人工智能在本质上是一套运算程式,即根据输入值(历史数据)来预测或生成输出值。人工智能没有“观点”,只有“观察”;没有“判断”,只有“复述”;无法“理解”,只能“表达”。它只是在根据人类的价值表述(输入值)来生成新的价值表述(输出值),用逻辑学的术语说,后者是前者的逻辑后承,原本就蕴含于前者之中。所以,人工智能不具有自主的价值判断能力。在司法裁判的场合,这典型地体现为:人工智能固然可以将人类(前案法官)的价值判断转化为可中立适用的具体规则,但也会使得这种先前的价值判断被一再固化,从而扼杀了后案裁判中“有所不同”的评价余地。但是司法创新的空间,正在于对价值判断保持适度的开放性。换言之,人工智能系统永远无法摆脱历史裁判数据的制约,只能进行同案同判,而人类法官则始终保有差异化判决的可能性。另一个错误是将价值判断等同于功能运算。即便作最宽松的假设,哪怕人工智能基于算法得出的结论与人类基于自主的价值判断得出的结论始终相符,这是否就意味着人工智能能够进行类似于人类的价值判断?答案是否定的。从结论相符来推断能力一致,是一种典型的功能主义视角。功能主义的视角永远无法触及人类价值判断背后的实质,那就是广义上的尊严,或者说人关于自身欲求的自决。这种尊严的核心在于人的规范能动性,即我们选择和追求我们对一种值得过的生活的设想的那种能力。它具体体现在两个方面:一是人对世界进行理解、反思和感受的能力,自主把人所特有的那种体验世界、用概念来表达世界的方式反映出来;二是人的自主对世界的创造意义,人们通过自主实践参与到价值世界中并从这个过程受益。很显然,人工智能并不具备这种规范能动性以及这种意义上的尊严,因而无法作出真正的价值判断。哪怕它运算得出的结论在很多时候都与人类基于价值判断得出的结论相符,也只是“形似而实非”。我们可以用“守法”作一类比:守法一方面固然要求守法者的外在行为与法律的要求相一致,但另一方面也要求守法者出于遵从法律义务的动机而非别的考虑(如根据自己的道德观念或偶然的心情)来实施这种行为。如果他出于这些别的考虑而“恰好”实施了与法律要求相一致的行为,那么很难说他在真正意义上“守法”。人工智能基于算法得出结论与人类基于自主之价值判断得出的结论相符,就类似于这种“恰好”相一致的守法行为。价值判断并非功能运算,只有人类才能始终保有发挥自己的规范主动性而作出不同评价的可能。综上,“人类决策是有意识的内容生成,在规则理解、价值判断和司法经验上反映着人类理性和法治人文精神,而机器则是依概率猜测的内容生成,这种算法决策很难作出伦理道德、善良风俗和经验理性等方面的考量”。算法决策面对复杂疑难案件,即便其能够促进形式正义,也很难实现实质正义。
人类司法不仅要实现正义,而且要实现“负责任的正义”。在司法裁判活动中,负责任的正义不同于纯粹正义之处在于,它不仅要求裁判结论是正义的,而且要求正义的裁判结论能够得到证成,也即建立在可被接受的理由的基础上。围绕理由的铺陈、检验和争辩所展开的活动就是论证和说理。法官要围绕司法裁判进行论证和说理,也即为决定提供理由。这同时也意味着,法官必须为这种理由的品质负责。因此,司法裁判所追求的“负责任的正义”,是一种“说得出的正义”。提供理由或说理是在众多主体之间展开的论证活动。如果这种论证活动受到规则的导控,则呈现为一个程序过程。司法裁判就是这样一种典型的程序性论证过程。当事人、代理人和法官在受到法律规则导控的过程(也即法律程序)中展开对话和论辩,达成共识。因此,司法裁判中实质正义的实现也必然仰赖于程序的设计,负责任的正义也必然具有程序正义的色彩。由于司法裁判围绕事实、法律及其衔接关系展开,所以负责任的正义需要满足两个条件:一是裁判所认定的事实和引用的法律都必须是真实存在的,二是结合事实和法律得出裁判结论或主张是正确的。前者是“真实性宣称”,而后者是“正确性宣称”。真实性宣称的实现既涉及法律依据,也涉及案件事实。前者主要涉及法律的查明和效力确认,后者涉及事实认定。事实认定是一个从证据材料到证据事实、再到案件事实的过程,其间存在各种认知性推论和评价性推论的空间,预设了一种对客观真相的本体论承诺和规范性诉求。正确性宣称则围绕法律和事实的结合展开,它由三个层面构成:(1)正确性的断言,即法官必须宣称自己的主张是正确的。(2)可证成性的保障。正确性意味着可证成性,即法官必须能够提出理由来支持其主张的正确性。(3)对正确性承认的预期,即只要司法裁判活动的其他参与者接受该理由,便会承认该断言和证成是正确的预期。事实上,提出这种正确性宣称不仅是法律论证活动的要求,也是法本身的要求。因此,由于正确性宣称不仅宣称主张本身的正确性,也要主张这种正确性可以得到证成,所以又可称为“可证成宣称”。可证成宣称是一种负责任的宣称。这是因为,法与纯粹的权力(暴力)最大的区别就在于,前者是一种与责任联结的权力,而后者则不是。这种联结不仅贯穿国家与人民之间关系的思想史,也贯穿公务员与人民之间关系的思想史。公务员包括法官地位的正当性来自将“公职”理解为服务或代表他人行动,公职身份甚至会对他们的一切行为课予义务。换言之,公职人员的行动不仅仅是其个人的行动,也是代表性的行动。为此,公职人员不仅在作出决定,而且要为其决定提供充足的理由来证成其决定是正确的。只有被证成了的行动或决定才是负责任的和有代表性的。这里涉及“论证性代表”的观念:法官不仅要提出主张,其论证是人民或公民的论证,而且至少就长期来看,还必须有足够数量的公民愿意接受这一论证,视其为正确的。而一般来说,只有理性的人格才有可能基于论证的正确性或有效性来接受它。所以,论证性代表必须满足两个基本的条件,即一方面存在有效的或正确的论证,另一方面存在理性的人格,其有能力和愿望基于论证的合理性或正确性而接受之。所以,负责任的正义是基于论证和代表的程序正义。数字司法能否满足“真实性宣称”与“正确性宣称”?本文认为,基于大语言模型的技术限制,人工智能系统在事实上无法满足负责任正义的这两个前提。就前者而言,由于大语言模型始终存在幻觉问题和完美训练集问题,所以总是存在真实性的缺陷。就后者而言,由于人工智能无法进行真正的说理或推理,甚至无法展开严格意义上的语言活动,所以总是存在正确性或可证成性的缺失。
要让大语言模型具备解决法律专业问题的能力,就需要向模型注入法律知识,这一般包括预训练和微调两种方式。这两种方式的确可以增加模型回答法律专业问题时的准确度,但目前无论怎样训练出来的法律大语言模型,都难以解决幻觉问题。所谓“幻觉”,就是模型生成的内容在表面上显得严肃专业,但实质上却是在胡编乱造。由于大语言模型是生成式模型,它的任务是生成语言,而不是检索和调用以往的准确信息,因此,语言模型生成的文本中常会包含一些不实信息。例如,向ChatGPT或Deepseek提出法律问题,它可能会编造出虚假的法条或案例作答;让它们提供答案出处,它们也经常会编造出并不存在的网页链接。美国一位律师使用ChatGPT编写法律文件,引用了四个并不存在的虚假案例,导致受到法庭的处罚。有中国学者也曾咨询Deepseek法律专业问题,发现其在法律引用方面存在四类问题,即依据已失效的法律,能够提供正确条目但与该条目对应的内容有误(非法条原文),混合使用已失效的法律和现行有效的法律,以及提供近似但错误的法条。“幻觉”错误很难被彻底消除,因为它根源于大语言模型的训练原理。大语言模型是基于统计学习的生成模型,通过对文本数据的学习,预测下一个可能出现的单词或句子,从而完成对话和文本的生成。在此过程中,模型会根据预先训练好的统计模型和概率分布,从训练集中选择下一个最适合的词汇,不断生成新的对话内容。如此训练的模型在形式上会显得通顺,但在内容上却可能出现事实错误。说到底,语言模型的底层技术只是预测语言(生成即预测),而不是给出正确答案。问题在于,法律是一个容错率极低的行业,有着相比于一般行业更高的要求。能否适用正确的法律条文,参考相似的司法案例,进行准确的逻辑推理,都对大语言模型的性能提出了挑战。尽管有学者提出集合搜索引擎,构建法律知识库,再结合生成式模型来完成法律问答,可最大程度减少幻觉现象,但如此一来无疑又大大增加了人工的作业量,有损于机器学习的初衷即效率价值了。
大语言模型基于神经网络模型而产生,其关键技术的第一步就是构建语料库。语料库是用来训练语言模型的大型文本集合,是机器学习的训练集。机器学习的思路在于通过总结经验,归纳规律,再将规律应用到相似场景中。例如,如果在买卖合同案件中,通过学习以往的判决书数据,算法发现法官一般都判决违约方返还合同价款,并全额赔偿因违约而给对方造成的损失,那么在类似案件中,算法就会运用相同的逻辑对案件进行判决。在理论上,只要数据量足够大(被学习的案件足够多),输入的规则足够完整,模型就能够进行类似于法官的法律适用活动。但在现有科技条件下,这两个条件均很难完全实现。这又体现在三个方面:一是无法应对复杂的法律问题组合。现实世界中的法律问题千差万别,不少法律问题仅出现在少数案件中,因而难以获得足够大的训练样本。训练样本不足,机器就难以从中找到规律。尤有甚者,一个案件有时会涉及多个法律问题,不同法律问题之间的组合十分复杂。质言之,模型面临着繁多的法律问题类型及这些问题间近乎无穷无尽的排列组合,但用于训练的数据量(判决)却总是有限的。这给机器学习带来根本性局限。二是无法应对新法律问题的涌现。在没有明确的法律规定,也没有明确的先例时,模型是无能为力的。当出现法律漏洞时,法官一般会运用裁量权来作出判断,这需要用到法官的社会经验,也需要他去发掘相关法律背后的价值判断。在方法论上,需运用类比推理、目的性扩张或基于一般法律原则的法律创制等方法。但是这种法律漏洞的情形完全超出了机器学习的能力范围,即便大语言模型也难以解决这一问题。毕竟,它无法进行超越既有人类知识(语言)意义上的创造性工作。三是无法有效进行案件事实判断。案件事实的形成是一个复杂的过程,它首先是一种语言陈述,但也包含着作为其形成基础的法条选择以及“必要的判断”。这些必要的判断又包括以感知为基础的判断、以对人类行为的解释为基础的判断、其他借助社会经验获得的判断、价值判断以及留给法官的判断空间。例如,何为“侵占”“违约”不是简单的语言逻辑问题,何谓“重大过错”和“必要确信”更非自然事实。它们需要的是“三维空间”里的真实体验和反思。但是,作为一种仅在“二维空间”里展开的活动,机器学习很难在模态众多的证据材料(文本、录音、视频、图像)中提炼出关键信息,很难理解每一个材料对于判断行为性质的意义,很难辨识证据的真伪,更难以将这些材料整合形成整体性判断。质言之,对案件事实的判断需要大量的社会经验、朴素的实践理性和必要的法律知识。对于人类而言,这并不十分困难。但对于机器而言,这意味着算法没有明确的学习任务(确定的结果变量)以及需要学习的训练集(训练数据)。或者说,训练集是整个社会,无边无际。总之,研究者很难对案件的“法律问题”和“事实问题”进行有效提取和编码表达,因为不存在可以在司法实践中有效应对这两类问题的“完美训练集”。这也构成了实践中使用算法预测判决结果的最大难题。归根结底,大语言模型至多只能进行语言世界内的“第二性语言游戏”,却无法进行真实世界与语言世界之间的“第一性语言游戏”。这也是人工智能无法完全替代人类智能的根本原因。
法律大语言模型或者说数字司法的基本原理是,将开放的裁判数据通过自然语言处理后,输入机器学习的算法之中,然后得出一种或多种用于预测或预见案件胜诉或败诉可能性的模型。这个算法的目标并非复现法律推理,而是寻找判决中各个参数间的相关性。事实上,机器学习算法能做的,只是通过一种自动化的方式用多种预设配置将一组观测值(输入值)与一组可能结果(输出值)关联起来。它在组成司法判决的不同词汇组之间构建分类链接:输入阶段的特定词汇组(表征案件事实)对应于输出阶段的特定词汇组(表征裁判结论)。它的基本原理近似于“讯飞”这样的机器翻译系统,只能在一组词汇和已经完成的译文之间对最佳匹配作可能的估计值,而无法真正“理解”所处理的句子的意思。所以,机器算法的基本运行逻辑是统计(计算)而非推理(说理):基于对历史裁判数据的统计规律预测或者说生成当下的数据。一旦形成对于算法程序的依赖,最终的结果就可能是:理由不再重要,重要的是历史统计数据;论证不再重要,重要的是对过去的模仿。换言之,它将司法裁判的重心置于对过去裁判的模仿上,也即持一种历史决定未来的思路。而这种思路符合人工智能成果的技术条件必须符合的封闭性准则。这就决定了,大语言模型从根本上不会进行论证和推理。一方面,大语言模型掌握的只是“语词”(标识)而非真正的“语言”(意义)。人类在语言的层面上考察世界。这并不是说没有语言之外的世界,而只是意味着,我们不是单单理解世界,也不是单单理解语言,我们通过理解语言来理解世界。论证是一种语言活动,而人工智能的思维材料只是“标识”。语言和标识系统是同一事物的不同呈现,类似于声音和声波。语言是一个自身内在具有自反性(先验自反能力)的系统,一种语言必须能够自己解释(解码)自己的所有组成元素(词汇、语法和所有语词关系的意义和功能),必须能够解说自己所包含的每个词汇和每句话的意义。而一个标识系统只有内部自带解码自身的自反能力,它才能同时成为语言。但是,学会与人类对话的人工智能事实上学到的不是有着人文和知识意义负荷的语言,而是由无数关联性或无穷可能链接构成的标识系统。它把语言的所有元素一视同仁地识别为标识,相当于收到“声波”却没有转化为“声音”。人工智能有能力发现标识之间的最大可能关联性而在它们之间建立起大概率链接,但它并不能理解其中的含义,它理解的是标识关联的可能性和概率。于它而言,所有信息无论多么复杂都是同质的标识,任何复杂的意义都可以简化为标识的链接。而标识承载的知识——思想含义属于外源性的资源,即属于人类的语言和知识。所以,人工智能仍处于“学而不思”的状态,尚未掌握具有自反性能力的语言。在根本上,大型语言模型只是一种“有说法、没想法”的机器。这就导致,大语言模型无法避免建立“错误的相关性”。认知计算技术无法在人类阅读的意义上阅读文本,它具有的是智能处理文本的技术、识别与问题相关元素的技术,以及以适当方式引起用户注意的技术。由于无法“理解”所处理之语词的意义,机器算法就无法避免建立这种“错误的相关性”:尽管两个案件具有事实特征上的相似性,但这种相似性却不具有法律意义或不应与法律后果发生关联,而机器学习算法却将其当作“链接”法律后果的前提。例如,假如有关抢劫罪的历史裁判数据中出现了“低学历”“重判”等要素,而待决案件中也存在,智能系统就很可能将它们识别为相关特征,并将前案所确定的法律后果与待决案件链接起来,并将之作为一个裁判规则(如“低学历抢劫者应被重判”)。这里就发生了所谓的“算法歧视”问题。当然,“算法歧视”只是我们人类的评价。由于人工智能无法进行评价,所以对于智能系统而言,它并非有意进行歧视——因为“歧视”于它而言也只是一种无意义的声波和语词而已。它所做的全部工作,无非数据之间的关联匹配。另一方面,大语言模型存在用数字技术消解司法程序空间的倾向。论证是一种在三维空间中由说理者、倾听者、论辩者展开的活动。对于司法裁判而言,相比于特定裁判结论本身,达致这一裁判结论的程序同样重要。这种程序的展开,其实是对各方参与者的主体性的认可:特定司法裁判结论不仅是恰当的,而且更重要的是,它是“我们”通过对程序的参与塑造出来的。这种“司法的剧场化”凸显出程序和秩序观念,促成了法律活动的技术化和专门化,增强了法律的神圣性和权威性。但是,数字司法将司法裁判从三维的立体过程降格为二维的平面活动。当人类将技术手段、数据与自动化决策当作司法实务运行的主要手段时,在一切秩序应然和公开透明的背后,人类却在司法活动中愈加依赖技术而逐渐缺乏主观决定性。平面化的机器决策不断侵蚀立体化的人类决策,而数字司法所追求的与其说是“类案同判”,不如说是将决策权委托给算法系统。有论者认为,数字司法将产生一种新型的程序正义观,即技术正当程序,强调通过透明、准确、可问责、参与等核心要素来化解传统正当程序所面临的正义风险,从而与传统正当程序理论相互支撑。数字司法所要追求的上述价值当然不容否认(无论它们是否被称为“程序”要素),但同样不容否认的是,它们无法替代司法程序的价值本身。因为从根本上说,技术正当性无法取代说理过程本身。综上,大语言模型既不“求真”,也不“求正确”。相反,从技术限制的角度看,目前数字司法存在着真实性缺陷和正确性/可证成性缺失的问题。所以,它无法满足司法裁判中必然提起的“真实性宣称”与“正确性宣称”。与数字司法的技术限制导致它事实上无法为司法裁判负责不同,数字司法的伦理限制关注的是为司法裁判负责的规范性面向。如果说前者涉及的是“能不能够”的问题,后者涉及的就是“应不应当”的问题。在本文看来,大语言模型不仅在技术上无法实现负责任的正义,而且在伦理上也无法担当负责任的正义。不仅因为机器道德(如果存在)脱离了与人类可相比拟意义上的责任,而且因为人类法官作为道德主体不得摆脱这种责任,将它推给机器。
恰恰在这里,大语言模型或者说“机器人法官”无法肩负其责。与人类法官不同,“机器人法官”并非站在他的裁判背后,因为严格意义上没有“他”。他不为他的裁判担保,更不会为裁判理由担保。因为他的“行动”并非出于自己所支持的理由,而只是基于数据计算和语言生成的程式性运算。站在理由论的角度,这种运算甚至谈不上真正的“行动”。因为行动以意向为基础,而意向以判断和理解为前提。人类的观点、判断和理解是在历史和社会的环境中生成的,因为人就是历史性和社会性的存在。可是人工智能不需要历史意识,也不需要历史遗产,不需要国家,甚至不需要社会,它要做的只是程序运行和结果输出。它一无所知,没有思考,没有生活经历,而且不像人类那样能够体验自己的自主性和责任感。如果“机器人法官”面对民众像个外来者,如果它“不理解”人生为何物,又如何能裁决民众的人生呢?所以,不许有没有法官责任却有法官权力的“机器人法官”存在。此外,道德责任的充分赋予是以一个人的行动是否自由为条件的。而前已述及,人工智能系统并没有自由意志,而只是在依据程式化的算法规则进行运算,故而不能进行责任的承担。在此,贯穿所有法律领域的权力与责任的联结,在数字司法活动中出现了松动。或许有一种声音认为,尽管机器没有意识、无法理解,但并不妨碍它担负责任。这里的逻辑是:意识能力和理解能力是过错责任的承担前提,而人工智能可以承担无过错责任。这种无过错责任的追究可以采取行为主义的归责模式,也可以采取风险归责模式。前者主张由实施行为者自己承担责任。如在刑法领域,如果具备足够决策能力的人工智能可以实施刑法意义上的行为,它就可以具有承担刑事责任的能力。后者认为“构成对于他人不可预测的起因的人,必须向这一他人就产生于这些不可预测性的损害进行赔偿”。它将特定的损害风险归责于那些(即便是以被允许的方式)产生了这一风险的人。依据相同的逻辑,无论“机器人法官”是否具有人类自由意志意义上的过错,只要它制造了冤假错案或是引起了无辜者承担不利法律后果的风险,那么就应由它承担责任。除去让人工智能或“机器人法官”自行承担责任有无实际意义这一点,上述主张其实隐含着对主体概念的降格。“机器应当负责”这句话的背后潜藏着一种关于人类的还原论想象,这种想象其实早已体现在图灵测试之中:思考是一种完全可由第三人观点来评判的东西。笼统而言,甚至可以追溯到18世纪法国唯物主义哲学家梅特里(Mettrie)的《人是机器》中的想法。据此,“人是一架机器,在整个宇宙里只存在一个实体,只是它的形式有各种变化”。如果说这只是机械唯物主义时代的观点的话,那么后人类主义的哲学则提出了更为激进的主张。在其看来,人类能够备份和上传自己,甚至“本质是信息性的”,就好比“动态档案”。因为信息可独立于载体,所以如果人类真是信息性的,那么人类便可与其肉体和生物基础断联。如此,人类就将超越其生物性(人本主义),或者作为碳基生物与人工智能这种硅基生物被并列为更高层次之存在者的两个分支,就其抛开肉体的内在性上与人工智能达成一致。因为心灵即运算,而身体是多余的、非本质性的。对此,魏岑鲍姆(Weizenbaum)批评道:“人工智能精英们相信,例如爱、忧愁、喜悦、悲伤及所有那些搅动人类灵魂的感受和情绪,都可以轻易地在瞬间转载到一个有着电脑大脑的机器人身上……这展现出对生命的蔑视,否定他们自身的人类经验。”格雷科(Greco)甚至认为,“机器负责”观念的背后潜藏着种族灭绝的思维,也就是要消灭整个人类。有些事物是只有人类才知道的,因为人类有身体。这就是伦理学上的具身性。所谓“具身性”,是指人类认知的诸多特征,在诸多方面都为人类的生物学意义上的“身体组织”所塑造,而不是某种与身体绝缘的笛卡尔式的精神实体的衍生物。进而,伦理规范的内容在相当大的程度上是由作为伦理主体的人类的肉体特征所塑造的。一部不知道何为痛苦的机器,无法理解年复一年在监狱中度过是什么感受。一部永远不会因为落败而失望的机器,更无法感同身受那是什么滋味,也即当它相信正义,但有权裁决的人却不对它展现尊重。宣称这样的机器能负责,就是给“责任意识”一词掺水,以至于变得与我们平常所使用的意义毫无共同之处。认为机器应当对裁判负责,就像我们在冬天时将自己的关节疼痛怪罪于寒冷的天气一样——尽管我们在口头语言中经常会这么说,但绝不会从字面上去这么理解。所以,“机器应当负责”的主张与机器不那么相关,而与人类更为相关。“人的条件”正是机器与人的根本差异所在:可由人类制作备份的东西,不必操心自己的生存;但我们称为法律的东西,处理的却正是生存问题。人的生存内含着人的尊严。由“机器人法官”操持司法,可能侵害《德国基本法》第1条第1款所说的“人的尊严”,或者违反我国《宪法》第33条第3款规定的“国家尊重和保障人权”的义务。因为最低限度共识的尊严概念指的是人的一种反思、评价和选择生活的属性。数字司法或算法裁判使得人类的行为服从于过去的历史数据(以及从中总结出的规律),使得人类丧失了深入反思、重新评价和自主选择自己的行为和生活的机会,使得人类关于自身欲求的自决和规范能动性被冰冷的计算(或更准确的说法:算计?)所取代。同时,它也损害了《德国基本法》第103条第1款以及程序性正当程序理论所蕴含的听审请求权。“机器人法官”没法“听审”,因为它“听不懂”(不理解)。总之,即便数字司法活动中存在“机器伦理”,它也只是一种“不担责任的道德”。
人工智能系统不会为其决定负责,为裁判负责的只能是人类法官。对此可能存在两个进一步的挑战。一个挑战认为,“人类负责”的观念无法成立。这是一种存在论——伦理学层面的挑战。例如,明斯基(Minsky)在多年前就主张,有责任意识的自我只是幻觉。这种具有一致性的、每个人称之为“我”的东西,只是大脑里许多部分合作且不受我们自身力量控制的运作结果。对此,可从两个方面予以反驳:一方面,“人的条件”中关于自身脆弱的基本经验是民众与法官共享的经验,借此经验,法官在面对民众时才不是外来者,而是共享者,才能为自己所作裁判可信地承担责任。另一方面,人类所拥有的自由意志也必然要求人类法官为其裁判负责。自由意志的核心是规范判断能力,其既包括理解回应性态度及其包含的规范性理由的能力,也包括依据上述理解改变既有认知和行为模式的能力。简单说,就是行动者对理由的回应能力。承担责任就蕴含着对理由的回应能力,这包含着复杂的理由认识、判断、理解以及按照理由来行动的能力。人工智能、哪怕是大语言模型或生成式人工智能也不具有回应理由的能力,它没有办法或能力通过了解来接受一套社会规则,来形成对规则之规范性的认知。相反,人类是一种“既能理解理由又能回应的动物”。如果人类完全将司法裁判交付给人工智能,实质上就是在以服从历史模型的方式臣服于机器,以尊重历史经验的表象让机器实际统治了人类。同时,人类不再愿意在复杂的人类事务(案件就是这类事务的体现)中运用理由去进行争辩,从而丧失了理由回应能力。丧失理由回应能力也就意味着丧失了自由意志,放弃自己的道德责任,乃至放弃人作为道德主体的地位。另一个挑战认为,“个人负责”的观念应让位于“国家(制度)负责”的观念。这是一种法政策层面的挑战。质言之,拥有公职和权力的个人(如法官)代表的是国家及构成国家的制度(如司法制度)。只要制度规划良好,就应让个人所代表的国家及其制度而非个人自己来承担责任。但是,这种观点没有认识到,一套认真对待个体的法律架构必须向个体证明权力的正当性。作为政治共同体之国家权力的正当性,在规范性意义上最终都要回溯至相关的个人。当然,一方面,这种主张并不支持个人在社会学意义上的“孤立”,而同样认可个人间存在社会关系和共同体联系。它只是要求规范性-正当论层面上的社会关系与共同体联系不被归结于完全独立于人的价值本身。另一方面,将任何国家权力都回溯至个人并不排除,在证成国家权力的中间层引入集体利益和相关共同体的价值(如“公共福祉”“共同体的利益”等),甚至可以支持共同体的价值和利益在很多时候优先于具体个人的价值和利益。只是,共同体或国家不会被视为最终的证成层次,而只被视为满足个人需求的中间策略(人的自由全面发展是国家的目标和基础)。人民由一个个的个人组成。国家是为了人民而存在的,国家的一切权力来自人民、也属于人民。我国《宪法》第2条第1款中所称的“人民”不是什么虚拟的集合体,而指的是中国人民。国家正如每一个合法成立的人民团体,其正当性并非源自自身,而是有其权源,其权源就是该人民团体背后站着的一个个有责任能力的个体。制度并不是责任的最终汇集点,必须追问谁是制度背后应负责的个人。在民主国家中,站在国家背后的是许许多多的自然人,而我们又站在这些自然人的背后,他们是作为我们的代理人而被我们置于国家背后的。相反,能够自主学习的生成式人工智能独立于人类而存在,“机器人法官”意味着权力行使与个体责任的脱节。故而相比于技术意义上的“奇点”,有论者更担忧已经浮现轮廓的“法律奇点”或“道德奇点”的危险,那就是,我们人类把自己的法律责任或道德责任推给机器。哪怕在明确人工智能只能作为人类法官之裁判辅助工具的前提下,也不能完全免于这种危险。因为与请助理草拟判决草案的不同之处在于,法官可能因为相信机器算法的客观性而几乎不加批判地照抄其产生的判决建议。这在事实上已构成将裁判的权力和责任偷偷转移给机器。所以,重要的是不断认识到:法律是我们的作品,也必须继续是我们的作品。机器不得对人类制命出令,规定我们身为有责任能力者该如何相处生活,我们的这种决策权不能被剥夺。对他人施展权力者,必须面对此人并承担责任。司法是我们人类互欠的责任,此责任不容推给机器。为裁判负责的仍应是作出裁判的人类法官。所以,让大语言模型或“机器人法官”为司法裁判负责,问题的要害可能不在于它“不能够”,而更多在于它“不应当”。正如有论者指出的,数字时代的司法加剧了“去责任化”趋势,计算机不仅消解了法官道德上的责任感,也成为法官理想的卸责对象,甚至加深了卸责行为的组织化的程度。因此,相比于数字司法的技术问题,数字司法的伦理问题在某种意义上更值得警惕和重视。一言以蔽之,哪怕人工智能的能力发展得再强大,在法律上为它们的行为负责、因而为确保它们在法律的界限内活动负责的总是人类自己。大语言模型时代的数字司法在价值上最显著的优势就是实现了几近完美的效率。但只有在“负责任的正义”的价值框架内,效率才能成为一个积极的参数。效率取代不了正义,更无法替代责任。数字司法能够实现的,是司法裁判遵从规律或者说规则化的一面,而完美的效率正是这种规律化或规则化面向在时间维度上的价值表征。但数字司法不能够、也不应当实现的,则是司法裁判以负责任的态度去追求个案正义的一面,或者说负责任的正义恰是司法在论证和代表面向上的价值诉求。大语言模型在本质上依然是一种技术,而技术在社会中的角色不只是功能的实现,技术也会产生社会建构价值。司法裁判是社会场域的一部分,它是人工智能技术产生的社会建构价值与司法裁判本身所蕴含的社会建构价值之间发生冲突的典型场合。当然,判断大语言模型具有何种社会建构价值,以及如何解决不同社会建构价值之间的冲突,依然属于人类自身之事。机器算法只会按照其运行逻辑一直运算下去,无论人类对它臧否与否,直至遇到人类为其设定的边界为止。归根结底,人的决策权在司法裁判中的核心地位不可替代,法律科技只是辅助而非取代人类法官。虽然这一主张几乎已成为学界的普遍共识,但却往往被当下狂飙突进的数字司法实践所遮掩。在“负责任的正义”理念下,我们需要时刻警惕过于乐观地憧憬“美丽新世界”的各种激进观点,并以“人类决策权(审查权)”为核心建构出更为务实和稳妥的数字司法政策。当然,制度构造和政策建议层面的研究则需要另文论述。目录|《东方法学》2025年第4期(数字化专刊3)
