人工智能技术与专利审判——以构建知识图谱为核心(部分)
2021-06-18 23:50:52
  • 0
  • 0
  • 2

1、司法审判中辅以人工智能技术的原因以及局限性

1.1 原因

一方面,人工智能可以提升裁判的统一适用。因为人工智能在一定程度上遵循固定的规则(如算法等),在给定的输入内容相同的情况下,同一个人工智能系统得出的结论必然是相同的。人工智能相较于人类,可以减少倦怠或经验不足所带来的差别适用风险。但是,人工智能辅助系统成败的关键还在于其中算法和输入数据的质量。比之于过去的依赖人工输入或修正的方式,人工智能系统可以利用机器学习(machine learning)的方式,自动调整和完善数据搜寻或咨询的结果。鉴于此,人工智能可以通过对过往所有国内相关专利诉讼案件的大数据分析,从而总结出一定审判范式,甚至可以在一定程度预测裁判结果。2017年,美国有三位法学教授将美国最高法院自1816年至2015年间的大约28000个判决输入了一个机器学习系统,[1]而经测试该系统对最高院判决的预测准确率高达70.2%,而根据一项2014的调查资深的法律顾问的预测准确率也只有60%。[2]该实验从侧面论证了人工智能系统对于司法统一适用的助益。

另一方面,人工智能辅助系统可以提升案件文本录入和分析的效率。机器学习中包含有预测编码系统(predictive coding),其经常被用于检阅与创制存档的电子文件,比如电子邮件。早在2006的一项实验中,研究者发现预测编码系统可以识别95%以上的相关文件,而人工识别只能在等同条件下做到50%。[3]除了文档外,人工智能还能针对电话录音进行甄别,同等时间下人工智能可以完成时长达33000小时时长的电话录音的甄别,而人类只能完成140小时时长的录音。[4]

人工智能对于专利诉讼而言,鉴于全世界大部分专利立法采用的“绝对新颖性”标准,在考察一项技术新颖性时,搜寻相类似现有技术(prior art)的过程就如同“大海捞针”。而在2018年,美国专利商标局开始尝试利用人工智能技术,以来提升其专利检索与新颖性判断功能。美国专利商标局旨在建立一个能对现有已公开的全部专利数据,能够进行比对和甄别出存在类似或相同现有技术的可能性。[5]

1.2 局限性

首先,人工智能的好坏很大程度上依赖于算法和数据的好坏,简言之,程序决定了人工智能系统的成败。人类编制了人工智能的初始程序,还应在其随后的运行中实时进行监控,并检验其产出的结论。而人类的失察,将产生渎职的情况。在2011年美国的J-M Manufacturing Co. v. McDermott Will & Emery案中,[6]在电子取证(e-discovery)环节中,诉讼一方雇佣专业公司进行取证时,取证软件不小心将原本需要保密的文件进行了公开。这样的问题直到现在,仍是对运用于诉讼中的人工智能系统的一种警惕,提醒使用方对其必须进行实时监督,否则会影响裁判的公正性与司法的公信力。

其次,现阶段的人工智能还是不能达到人类逻辑推理的成熟水平,仍处于初级阶段。人类的学习和改进能力仍远高于系统,特别是在翻译文件领域中,人工智能的翻译虽能实现逐字逐句,但在语序、精准性和连贯性上远输于人类翻译。[7]

最后,对于人工智能之于司法审判的作用,仍有待观察,不可过分信赖。当前的司法制度是由人类历史不断积累和演化而成,其最终的主体仍是人。司法寻求的是法律实践中的“实质正义”,而非“形式正义”。[8]但人工智能容易将司法判断绝对化或程式化(僵化),这虽然对处理一些事实相对简单的案件比较容易,但其往往也只能看到表面的数据和文本,不大可能对案件背后的社会意义进行分析。即使在比较偏技术性的专利案件中,由于立法的不足和司法标准的不统一,也会时常有个案差异的状况。所以,课题组经过前期的研究和调研,全体一致认为当前人工智能系统仅能专利诉讼提供一定程度上的辅助,而在具体操作层面上如何步步推进,仍待细致研究。同时,需要结合现有研究团队的技术能力,最终形成行之有效的方案。

2、将人工智能技术融入专利审判的前提与整体目标

2.1 前提

一方面,必须坚持以标准化为前提。2018年的《最高人民法院工作报告》中周强院长提出,要“加快建设智慧法院”,“加强信息化、人工智能与法院工作的深度融合,完善智能审判支持、庭审语音识别、电子卷宗随案生成等智能辅助办案系统”。将人工智能系统融入司法审判是大势所趋,但由于人工智能系统尚处于成长期,机器学习也仅是在模拟法官及审判辅助人员的人脑对案件的处理过程,并可能受到程序员在开发过程中各种自身因素的影响。因此,将人工智能系统融入专利审判的前提是遵循标准化原则,使人工智能系统具有可重复使用、可样本化的特质。

另一方面,必须以遵循法院内部成员分工为前提。目前,人民法院已从以“互联互通”为主要特征的信息化2.0版成功迈向以“全面覆盖、移动互联、跨界融合、深度应用、透明便民、安全可控”为主要特征的信息化3.0版。在以“全业务网上办理、全流程依法公开、全方位智能服务的网络化、阳光化、智能化”为特征的智慧法院初步建成的大背景下,人民法院信息化建设已从侧重审判管理人员的绩效考核、流程监控、司法统计等“管理需求”逐步转向关注法官及其审判辅助人员办案效果的“用户体验”。本轮司法改革的目标之一是建立法院人员分类管理制度,以达到“以法官为中心、以审判辅助工作为重心”的目的。因此,在应用人工智能系统融入专利审判时应以符合法院当前的大政方针,遵循法院成员的分工为前提。由于法官从事的审判工作如指挥庭审、把控诉讼流程、认定证据和案件事实、合议评议等呈个性化特点,被遴选入额的法官也大多经过专业系统的法律培训并有多年的法院工作经验,在对案件进行审理时需投入大量智力劳动及情感。因此,虽然目前司法人工智能技术可通过其对专利文本和相关证据的深入分析,提高法官的决断能力,但并不能完全替代法官。不过,通过司法人工智能系统的辅助作用可使法官将更多的精力集中于对疑难复杂案件的处理上,从而催生出更多的“专家型”法官。

2.2 整体目标

首先,人工智能技术必须实现专利审判的集约化。在案件审理过程中,解放相关人员的一般性审判辅助事务工作,并未审判员提供专业的技术分析建议,从而节省专利诉讼中法庭调查(事实查明)的成本与时间,更有利于法官对案件的法律部分进行裁判(因为当前大部分知产法官缺乏专业技术背景,即使有理工科背景,也不可能对每个技术领域都精通)。

其次,努力率先在部分诉讼环节中实现自动化,协助法官完成“简案快审”的目标。2016年最高法院印发了《关于进一步推进案件繁简分流优化司法资源配置的若干意见》,提出要“遵循司法规律推进繁简分流”,“简单案件可以使用令状式、要素式、表格式等简式裁判文书,简化说理”。如上述,专利诉讼有许多类型化案件,在法律层面上并不难解决。因此,在技术层面无疑义的前提下,可通过OCR、语义分析、大数据分析等技术自动识别这类案件的诉讼材料,并依托知识图谱,解构案件事实要素,进而实现“要素式”裁判文书自动生成,使案件从起诉、庭前准备、庭审、举证和裁判各个环节围绕要素无缝对接、省略拖沓步骤。

最后,要在专利审判中最终实现智能化,帮助法官“难案精审”。本轮司法体制改革的核心要务是全面落实司法责任制,以提高审判质效和司法公信力。司法责任制的核心要义是“让审理者裁判、由裁判者负责”。因此,为提高法官的办案能力,加强法官的正规化、专业化、职业化建设,可通过人工智能审判辅助技术为法官提供相关智力支撑,以挖掘司法责任制改革的内生潜力。当然,只有一线法官、审管人员、技术人员强强联合、深度参与,才能使人工智能审判辅助系统更为智能化,以达到辅助法官“难案精审”的目的。2017年7月,最高法院印发了《司法责任制实施意见(试行)》,形成了信息检索与审判融合的新模式。另外,2018年1月,最高法院印发了《关于进一步加快推进电子卷宗随案同步生成和深度应用工作的通知》,要求法院及时部署电子卷宗同步生成及深度应用系统,方便法官在案件审理过程中直接接收、上传与管理如电子文档、图像、音视频等多类型文件,实现案件审执信息全程留痕与公开,并为司法大数据的深度应用提供基础。

3、构建专利审判中的法律知识图谱

3.1 机器认知智能的实现依赖于知识图谱技术

首先,知识图谱可以补齐缺失的因果链条。其次,知识图谱可以对碎片化的数据进行关联和融合。此外,知识图谱能够深化行业数据的理解与洞察。司法知识图谱将法律文书信息以结构化形式呈现,通过抽取案件文书中相关信息,判断案件繁简程度,进行繁简分流。这能帮助从业人员快速地在线检索相关的法务内容,提高法院审判工作质量和效率。

在确定知识图谱的建立为当前专利审判辅助系统研究的核心之后,首先需要明白知识图谱在法律中的适用,这需要大量的法律专业人才和技术人员的合作完成。目前,国内有关法律人工智能辅助系统的知识图谱提内容的提炼过程大致分为几个步骤:小样本研究,监督学习,人工标记,人工检索,强化学习,交叉验证,原型开发,模型测试,部署试用,模型调整等。

法律知识图谱是机器进行法律知识推理的基础,它将法律规定、法律文书、证据材料及其他法律资料中的法律知识点以一定的法律逻辑连接在一起形成概念框架,它的概念框架上的每个知识实体或概念又分别与法律法规、司法经验、案例、证据材料等相应挂接,从而建立起法律概念、法律法规、事实、证据之间的动态关联关系。不同于英美法系的判例法,在中国是成文法的背景下,知识图谱将法条和司法解释用更加有逻辑的语言表达出来,且比文字更加明确,更加有逻辑。知识图谱优势在于可以根据法条、司法解释的更新进行迭代,因此可以构建出知识图谱为主,大数据为辅助,类案为辅助的人工智能审判框架。[9]

3.2 构建法律知识图谱的路径选择——以自上而下的专家式为主

法律知识图谱的构建一般分为两种:一种是自上而下的专家式系统构建路径,另一种是自下而上的机器学习构建路径。鉴于当前人工智能和机器学习的能力有限,本课题主要选择前者(即专家式构建),通过人工的方式预先构建知识图谱模式图,并进一步构建数据图。但该方式对专家提出很高的要求,不仅需要扎实的理论功底,能将抽象法律与具体实施串联起来,还需要较强的大数据分析能力,对专利审判相关大数据进行有效的分析与管理,并将之转变为可以为机器所识别的某种机构运行模式,对机器进行训练,教导机器挖掘文本中的相关要点。[10]

具体而言,相较于版权、商标或不正当竞争等知识产权案件,专利案件(特别是专利侵权案件)有着公开性较好、技术性较高、对比性较易等特点,所以知识产权司法审判辅助系统以专利案件为突破口是一个正确的选择。尤其是专利申请文件一般是具有固定格式的,主要分为说明书(含附图)、权利要求书与申请书等三大部分,其中申请书和权利要求书由于标准化程度较高,且文本较为简要,故在数据抓取方面较为便利,在说明书和权利要求书中可以通过“发明人”、“申请人”、“优先权”、“发明名称”、“申请日期”以及权利要求书中的关键信息(关键词),在短时间内建立较为清晰的知识图谱。而在相当专利专家的指导下,技术人员能更好地掌握专利诉讼要点,从而迅速定位机器抓取要素,从而提升了技术研发效率。

3.3 构建法律知识图谱的理论框架——以要件事实型民事裁判论为基础[11]

要件事实型民事裁判论是指,明确要件事实法律性质后,依据民事实体法规范结构、民事诉讼审理机构展开的民事裁判方法。[12]其裁判逻辑为:“识别请求权基础规范—请求权基础规范的要件解构—争点整理—证明责任分配—争议事实认定—涵摄得出裁判结论”,综合实体与程序,最终得出结论。人工智能易于模拟具有确定的审理对象、明晰的法律规则、经审理后确定的案件事实以及规范的程序规则,这些内容都是要件事实型民事裁判论的核心要义,因此要件事实型民事裁判论从性质、结构、方法上,都是人工智能知识积累的较好选择。[13]

而专利侵权纠纷是典型的要件事实型民事裁判类纠纷,法官可以根据请求权基础规范的构成要件,将待证事实解构为若干要件事实。绘制法律知识图谱的过程中,法律与技术专家根据要件事实论完成层级解构和标注以后,机器可以有效学习。以下是构建相关法律知识图谱的具体步骤:

第一步,根据专利侵权案件事实,需要标注请求权基础要件包括了专利权人享有权利的种类和范围(专利说明书、权利要求书)、专利权属确定、专利权授权转让关系确定(根据国知局相关登记)、原告专利技术方案与被诉侵权人技术方案的比对、权利限制的范畴、被诉侵权行为的认定。

第二步,标注要件事实、证明过程。原告诉请的要件事实包括专利权的归属、专利权转让的事实、侵权的时间、地点、过程,原告要以专利权证书、声明书、转让协议等权属证据证明了技术性质、技术权属,并提供公证书、截图、录屏等证据证明侵权事实,即可证明侵权成立。个案中,被告可能对权属事实提出抗辩,认为原告不享有专利权,转让或授权关系不成立,或者侵权比对中认为不构成相同或者实质性相似,侵权不成立。抗辩需要有证据提供。

第三步,标注证明路径。证明路径可以分为两种:一种路径是直接证明,当事人通过举示证据而直接证明事实,另一种路径是间接证明,当事人通过间接证据来证明间接事实,法官依照经验法则推定主要事实。法官专家可以按照此二维路径对个案证明方式予以标注,并形成司法大数据,机器就可以依照证明方式的知识点进行深度学习。无法直接证明权属、侵权成立、事实推定过程、经验法则、高度盖然性等间接证据达到民事诉讼优势证据原则的要求,侵权即告成立。两种证明路径标注后供机器学习,从而实现精准推送与精确辅助。

第四步,对裁判结果进行标注。对专利诉讼裁判结果的事实依据、法律依据进行要素解构和标注。特别是请求权基础、要件事实、证明过程、证明路径等事实成立或者部分成立导致不同的裁判结果进行标注,供机器深度学习,最终相应的法律知识点作为分支结构,形成一棵“决策树”。目前,一棵“决策树”的法律知识图谱被验证不足,法律图谱应当是立体形态的,且只是引擎的一个环节,多种图谱通过逻辑符改造搭建成引擎,最终绘制成立体“决策树”。

3.4 专利审判辅助技术的现实困境

从整体上看,目前人工智能辅助审判系统现实困境主要体现在人工智能辅助审判系统设计逻辑存在缺陷、人工智能辅助审判系统的应用模块配置不合理、人工智能辅助审判系统应用模块的适用属于非强制性等几个方面。[14]

现阶段,国内法院体系中以上海市和广东省的办案模式最具代表性,但上海市偏向于办案系统在贯彻证据规则,统一法律适用上起到智能辅助作用,而广东省偏向于办案流程智能化管控。虽然国内外部分软件已取得较好成效,但是存在研究领域过于集中(如刑事案件领域、民事案件领域中的合同文本自动生成及部分内容可视化表达、智能类推等)、研发深度浅、实际应用少、覆盖面窄等不足。同时,国外的软件系统基本大多数都由律所开发,与法院的需要不相一致,所以对专利案件在内民事案件进行专门深度开发,明确用途为辅助办案系统,才能切实为法官肩负,达到诉讼当事人的愿景。[15]

具体而言,在需求层面,构建专利审判辅助技术现存的问题是:(1)开发应用与实际需求存在偏差的主要原因为需求分析的产品负责人对于法律和一线办案人员所需不甚了解;(2)关于研发数据和质量问题,由于专利民事案件诉请较为复杂、证据形式多样,现有法律数据大多是非结构化数据,这是辅助系统运行中的最大障碍之一。未来的发展方向将主要集中在非结构化数据的标准、快速的提取方面,大量存在的非结构化数据和本结构化数据带来的技术和应用领域是大数据的蓝海,多样类型的数据分析、复杂的数据组合、多元的数据融合等问题将成为创新的重要焦点。

在微观运行层面,仍存在系统数据表达的非标准化、系统逻辑建构的不确定性与系统场景设计高度同质化等问题。特别针对专利审判而言,当前系统虽然基本能做到数据的有效整合和智能搜索,但却显示因未能建构类似于人脑的审判思维的数据提取和智能推理,所以导致智能类推的内容存在全而杂的问题。所以,就需要程序员在前期对大量非结构化的数据(包括了专利申请书、权利要求书、证据证明以及相关司法文书等)进行人工的大样本分析和知识图谱设计,然后根据不同的功能进行以程序语言和人类语言相互结合的信息逻辑设计。所以,如果对于该辅助系统的要求不只是停留于简单的专利数据分析,那么就应该需要长期有效的探索,构建系统深度学习的可行性。

值得注意的是,由于知识图谱自身没有衍生性,单一案由的法律知识图谱只适用于该特定案件,没有衍生学习的能力,这点对于诉讼标涉及技术领域极大的专利案件来说,知识图谱的构建有极大的难度。根据IPC分类(国际专利分类表),专利一共可以分为8个部,共70000多个小组,[16]而每个大类的专利申请文件在写作和表述上都有一定差异。在还不包括不同撰写人的用词不规范和低质量申请文本的情况下,专利审判辅助系统中知识图谱的构建本身就是一项相当艰巨的任务。所以,在本课题推进过程中,课题组认为先从一个部或几个相似的部入手,在条件成熟后再逐步推进到专利所有分类之中。

3.5 可供构建知识图谱的技术领域——以北京知识产权法院数据为代表

北京知识产权法院一审集中受理全国专利授权确权纠纷司法案件,以及其他有管辖权的专利侵权等案件。所以,北京知识产权法院的专利案件审理数据在全国各级知识产权司法机关中具有较强的代表性与典型性。

自2013至2018年五年间,总共审结知识产权案件125390件,约占全国知识产权案件的1/5。审结专利案件5299件,加强对高新领域核心、前沿技术成果的保护。所以,北京知产法院对于专利案件审理的情况在全国知产法院系统中具有一定的典型性与代表性。根据2018年5月公布的《知产宝-北京知识产权法院司法保护数据分析报告(2017)》显示,[17] 2017年北京知识产权法院共审结专利民事案件380件,其中案由为侵害专利权纠纷的案件数量高达320件,按照涉及领域细分,案件分布最多的领域为IPC分类H04类电子通信技术领域(见下图1)。

图1(省略)

同时,根据北京知产法院微信公众号“知产北京”2017年9月发布的《北京知识产权法院专利审判大数据(2014.11.6-2017.6.30)》显示,[18]根据IPC的分类标准,在能体现专利技术领域信息的142份民事裁判文书中,各技术领域案件数量及占比分别为人类生活必需43起(30.3%)、电学28起(19.7%)、作业运输17起(12.0%)、固定建筑物17起(12.0%)、化学冶金15起(10.6%)、物理14起(9.9%)、机械工程6起(4.2%)、纺织造纸2起(1.3%)(见下图2)。

图2(省略)

而在能体现专利技术领域信息的720份专利权无效和专利申请驳回复审行政裁判文书中,各技术领域的案件数量及占比较专利民事纠纷有所变化,分别为化学冶金143起(19.9%)、作业运输133起(18.5%)、电学114起(15.8%)、机械工程104起(14.4%)、人类生活必需102起(14.2%)、物理58起(8.1%)、固定建筑物55起(7.6%)、纺织造纸11起(1.5%)(见下图3)。

图3(省略)

结合上述数据表明,专利民事纠纷与专利行政纠纷在所涉及的技术领域方面存在一定差异,例如人类生活必需、电学等属于现阶段专利侵权纠纷较为高发的技术领域,该领域权利人维权意识较强,专利技术运用较为活跃,而化学冶金、作业运输等则多属于已经完成专利布局或正在进行专利布局的领域。

(文章后面部分省略)

参考文献:

[1] Daniel Martin Katz et al., A General Approach for Predicting the Behavior of the Supreme Court of the United States [J], 12 PLOS ONE, no. 4, Apr. 12, 2017.

[2] Theodore W. Ruger et al., The Supreme Court Forecasting Project: Legal and Political Science Approaches to Predicting Supreme Court Decision making [J], 104 COLUM. L. REV. 1150, 1150 (2004).

[3] Jyothi K. Vinjumur, Predictive Coding Techniques with Manual Review to Identify Privileged Documents in E -Discovery 3 [EB/OL] (2018) (unpublished Ph.D. dissertation, University of Maryland), https://drum.lib.umd.edu/bitstream/handle/1903/21009/Vinjumur_umd_0117E_19016.pdf?sequence=1&isAllowed=y.

[4] Michael McDonald, Artificial Intelligence Can Reduce % of Review Hours [EB/OL], L. TECH. TODAY (Sept. 6, 2017), https://www.lawtechnologytoday.org/2017/09/artificial-intelligence-can-reduce-review- hours.

[5] USPTO’s Challenge to Improve Patent Search with Artificial Intelligence [EB/OL], Solicitation No. RFI- USPTO, https://www.fbo.gov/index?s=opportunity&mode=form&id=8d661556b876e94883b69093a2531b91&tab=core&_cview=0.

[6] No. BC 462 832 (Cal. Super. Ct. July 28, 2011).

[7] Human Translators Are Still on Top—for Now [EB/OL], MIT TECH. REV. (Sept. 5, 2018), https://www.technologyreview.com/s/611957/human-translators-are-still-on-top-for-now/.

[8] 潘庸鲁. 人工智能介入司法领域路径分析[J]. 东方法学, 2018, No.63(03):111-120.

[9] 叶胜男,李波. 人工智能介质下审判路径范式构建透析——法律知识图谱的模型构建,澎湃网·网聚法言,2019年11月4日,https://m.thepaper.cn/baijiahao_4875073,最后访问日期:2019年12月9日。

[10] 叶胜男,李波. 人工智能介质下审判路径范式构建透析——法律知识图谱的模型构建,澎湃网·网聚法言(2019年11月4日),https://m.thepaper.cn/baijiahao_4875073,最后访问日期:2019年12月9日。

[11] 高翔.人工智能民事司法应用的法律知识图谱构建——以要件事实型民事裁判论为基础[J].法制与社会发展,2018,(06):66-80.

[12] 许可. 民事审判方法:要件事实引论[M],法律出版社,2009年。

[13] 高翔.人工智能民事司法应用的法律知识图谱构建——以要件事实型民事裁判论为基础[J].法制与社会发展,2018,(06):66-80.

[14] 唐旭, 苏志猛. 人工智能辅助审判系统:理论证成、特质与困境突破[J]. 重庆理工大学学报(社会科学), 2019(8).

[15] 蔡一博. 智能辅助:AI下民商事办案系统的建构——以裁判思维与要件标注为切入点[J]. 东方法学, 2018, No.63(03):133-141.

[16] 《国际专利分类表》(IPC分类)是根据1971年签订的《国际专利分类斯特拉斯堡协定》编制的,是目前国际通用的专利文献分类和检索工具,为世界各国所必备。国际专利分类系统按照技术主题设立类目,把整个技术领域分为5个不同等级:部、大类、小类、大组、小组。IPC将全部技术分为8个部,用字母A-H的大写形式表示:A=人类生活必需;B=作业、运输;C=化学、冶金;D=纺织、造纸;E=固定建筑物;F=机械工程、照明、采暖、武器、爆破;G=物理;H=电学。源自国家知识产权局网站,http://www.sipo.gov.cn/wxfw/zlwxxxggfw/zsyd/bzyfl/gjzlfl/,最后访问日期:2019年12月9日。

[17] 知产宝-北京知识产权法院司法保护数据分析报告[EB/OL],搜狐新闻,https://www.sohu.com/a/233270004_221481,最后访问日期:2019年12月9日。

[18] 许波,北京知识产权法院专利审判大数据 (2014.11.6-2017.6.30)[EB/OL],知产北京,https://bbs.mysipo.com/thread-565225-1-1.html,最后访问日期:2019年12月9日。

 
最新文章
相关阅读