NLP应用于司法系统(综述)

2021年11月23日 阅读数:14
这篇文章主要向大家介绍NLP应用于司法系统(综述),主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence

Abstract

司法人员常常考虑使用rule-based和symbol-based方法解决任务,NLP研究者主要考虑data-driven和embedding方法。git

在这篇文章中就主要讨论Legal AI的历史、现况、和将来的研究方向。github

进行了一些试验来对现有的工做进行更有深度的分析,分析他们的优缺点,并揭示一些将来的研究方向。segmentfault

可解释性强的symbolic models的效率不高,embedding-methods有更好的性能,但一般没有好的解释性,在一些道德相关的问题上有比较大的问题:经典性别和种族偏见。网络

咱们总结了symbol-based methods和embedding-based方法共同面临的三个主要的挑战:app

  1. 知识建模(Knowledge Modeling)。由于司法文本格式化程度好(well formalized)有不少的domain 知识和概念。用好这些knowledge很重要。
  2. 司法推理(Legal Reasoning)。LegalAI必须严格遵循法律条文。所以结合预先定义的规则和AI技术对于司法推理就很是重要。
  3. 可解释性(Interpretability)。

本文的研究贡献主要以下:dom

  1. 从NLP研究者和司法人员两个角度,来描述现存的工做。
  2. 描述三个经典的应用,包括判决预测(judgment prediction),类似案件匹配(similar case matching)和司法问题回答(legal question answering)来强调为何这两种方法对于LeaglAI比较重要。
  3. 在多个数据集上进行了繁重的实验,来揭示怎么利用NLP技术和司法知识去克服LegalAI中的挑战。这些实现能够在github上找到。https://github.com/thunlp/CLAIM
  4. 总结了LegalAI数据集,能够被看做是benchmark。数据集在github中公布,还有一些比较有阅读价值的司法paper。https://github.com/thunlp/LegalPapers

2 Embedding-based Methods

2.1 Character, Word, Concept Embeddings

字和词嵌入很重要。机器学习

直接从司法案情描述中学习出专业词汇很困难。为了克服这种困难,能够同时捕捉语法信息司法知识ide

knowledge graph methods在司法领域颇有前景,可是在实际使用以前,仍是有两个主要的挑战:函数

  1. 构造LegalAI的知识图谱(knowledge graph)很复杂。不少状况下,没有提早制造好的knowledge graph可使用,研究者须要从零开始构建。另外,有一些不一样的司法概念在不一样的国家里有不一样的涵义。一些研究者尝试去嵌入(embed)司法词典,这是一种可替换的方法。
  2. 一个泛化程度高的司法知识图谱在形式上和其余常常在NLP中使用的知识图谱不太同样。现有的知识图谱关心实体(entity)和概念(concept)之间的关系(relationship),但LegalAI更多地专一于解释司法概念。

这两种挑战让LegalAI经过embedding进行知识建模不平凡(non-trivial)。研究者在将来会尝试去克服这些困难。性能

2.2 Pretrained Language Models

预训练的语言模型(Pretrained language model,PLM)好比BERT,最近集中于不少NLP的领域。鉴于预训练模型的成功,在LegalAI中使用预训练模型是一个很合理很直接的选择。可是在司法文本中,这里还有一些不一样,若是直接使用这些PLM会致使很差的性能。这些不一样就来自于司法文本中所包含的术语和知识。为了解决这些问题,Zhong(2019)提出了一个中文司法文档的预训练模型,包括民事和(civil)刑事(criminal)案件的文档。针对司法领域设计的PLM给LegalAI任务提供了一个更有质量的baseline系统。咱们在实验中对比不一样的BERT模型应用于LegalAI任务。

对于在将来探索LegalAI中的PLM,研究者能够把目标放在整合knowledge进入PLM。整合knowledge进入预训练模型能够帮助推理司法概念之间。不少工做已经作了,去把general domain融入模型。

3. Symbol-based Methods

symbol-based methods也被叫作structured prediction methods。

符号化的司法知识包括:事件(events)和关系(relationship),这些能够提供可解释性。

深度学习方法能够用于提升symbol-based methods的性能。

3.1 Information Extraction

信息提取(information extraction,IE)已经被普遍地在NLP中被研究。IE强调从文本中提取有价值的信息,一些技术好比:实体识别(entity recognition),关系提取(relation extraction),事件提取(event extraction)。

为了更好的使用司法文本,研究者尝试使用本体论(ontology)或者全球一致性(global consistency)在LegalAI的命名实体识别(named entity recognition)任务中。为了从司法文本中提取关系和事件,研究者尝试去使用不一样的方法,包括:人工规则(hand-crafted rules),CRF(不知道这是啥),联合模型好比SVM,CNN,GRU,或者(scale-free identifier network)(不知道这是啥)。

现存的工做已经作出了很大努力去改善IE的效果,但咱们须要跟多的注意力放在怎么好好利用这些提取出来的信息。这些提取出来的符号有司法基础(legal basis)并且能够对司法应用提供可解释性。因此咱们不能只把目标定在方法的性能。在这里咱们展现两个利用提取出的符号来提升LegalAI可解释性的例子:

  1. 关系提取和继承纠纷(Relation Extraction and Inheritance Dispute)。继承纠纷是一种民事案件中的类型,专一于继承权力的分配。所以,识别出相关人的关系相当重要,谁和死者(the deceased)关系更近谁就能分得更多的财产(assets)。在继承纠纷中,关系提取就提供了判决结果的利用,也能够基于这一点优化性能。
  2. 关系时间线提取和刑事案件判决预测(Event Timeline Extraction and Judgment Prediction of Criminal Case)。在刑事案件中,团体犯罪常常设计多方。为了决定谁应该对这个刑事案件付主要责任,咱们须要肯定全部人在整个案件中都干了什么,以及这些时间的顺序也很关键。好比,群殴事件中,谁最早开打须要承担主要责任。

在将来的工做中,咱们须要更多注意,应用提取的信息在LegalAI任务中。这些信息的利用取决于特定任务的要求,并且这些信息能够提供更多的可解释性。

3.2 Legal Element Extraction

除了NLP中的共同的symbol,LegalAI有独有的symbol,称做legal elements。提取legal element专一于提取一些关键元素,好比:某我的是否是被杀了,或者某个东西是否是被偷了。这些元素是犯罪活动(crime)的基本组成元素,并且咱们能够基于这些元素,直接给犯罪者定罪。利用这些元素,不只能够给判决预测任务带来直接的监管信息,并且可让模型的预测结果更加可解释。

从这个例子能够看出,提取元素能够决定判决结果。这些元素对于下游任务颇有用。

为了更深度分析基于元素的symbol,Shu(2019)构造了用于提取元素的三个数据集:离婚纠纷,劳工纠纷,贷款纠纷。这些数据集须要咱们检测相关元素是否被知足,并把这个任务规范化为一个多标签的分类任务。为了展现现存方法在element extraction上的性能,咱们进行了一系列实验,以下表格所示。

咱们实现了NLP中几个经典的encoding模型,为了检验elemetnt extraction。包括TextCNN,DPCNN,LSTM,BiDAF,BERT。咱们用了两种不一样的BERT预训练参数(原始BERT、用中文司法文档训练的BERT:BERT-MS)。从这个结果中能够看到,在普遍领域(general domain)上的预训练模型效果不如在特定领域(domain-specific)训练的预训练模型,这就是在LegalAI中推动PLM的必要性。paper的如下部分,咱们就会使用在legal documents上预训练的BERT来达到一个更好的表现。

从目前的element extraction的结果来看,现存的方法已经达到了一个很好的性能,可是在相关的应用上仍然不够。这些元素能够被看做是预先定义好的legal knowledge而且帮助下游任务。怎么改善element extraction也是须要进一步研究。

4 Applications of LegalAI

介绍几个典型的应用:

Legal Judgment Prediction

Similar Case Matching

Legal Question Answering

Legal Judgment Prediction 和Similar Case Matching能够看做民事法律(Civil Law)和普通法系(Common Law System,英美法系,普通法系)判决的核心功能。Legal Question Answering能够给不懂法律的人提供咨询服务。所以探究这三个任务能够基本上涵盖LegalAI的大部分方面。

4.1 Legal Judgment Prediction

Legal Judgment Predction(LJP)在民事法律体系中很中国要。在民事法律体系中,判决结果是基于事实和法律条文。LJP主要关心怎么经过事实描述和民法中相关条文,来预测判决结果。

下面将介绍LJP方面的研究进展,和将来的研究方向。

相关工做

早期的工做包括:使用统计和数学方法在特定场景下分析司法案件。同时结合数学方法和司法规则让预测结果具备可解释性。

为了LJP的进展,Xiao(2018)提出了一个大规模的重温刑事判决预测数据集,C-LJP。这个数据集包含2.68 million个司法文档,是一个LJP的有效的benchmark。C-LJP包含三个子任务:相关文章relevant articles,应用的指控applicable charges,刑期term of penalty。前两个能够被formalize为多标签分类任务,最后一个是回归任务。英文的LJP也有,可是规模比较小。

随着NLP发展,研究者开始考虑在LJP中使用NLP任务。这些工做能够分为两个主要方向:1. 使用更新的模型提升性能:Chen(2019)用门机制提升预测刑期(term of penalty)的性能,Pan(2019)提出使用多尺度(multi-scale)的attention,来处理含有多个被告的案件。除此以外,其余的研究者探究怎么使用legal knowledge和LJP的一些属性。Luo(2017)在fact和law articles之间使用attention来帮助预测可应用的指控(applicable charges)。Zhong(2018)使用拓扑图来利用不一样LJP不一样任务之间的关系。Hu(2018)整合了是个可辩别的(discriminative)司法属性(legal attributes)来帮助预测低频率的指控。

实验和分析

一系列在C-LJP上的实验

  1. 咱们实现了几个经典的文本分类模型:TextCNN,DPCNN,LSTM,BERT(在中文刑事案件上预训练的BERT)
  2. 实现了几个为了LJP特定设计的模型:FactLaw,TopJudge,Gating Network。

实验结果:

能够看到不少模型在预测高频率指控(high-frequency charges)和文章(articles)中达到了很好的性能。 可是在低频率的标签上表现很差,表现为micro-F1和macro-F1之间有很大的差距。

micro-F1:适用于多分类不平衡,若数据极度不平衡会影响结果;

macro-F1:适用于多分类问题,不受数据不平衡影响,容易受到识别性高(高recall、高precision)的类别影响;

Hu(2018)展现了把few-shot learning应用于LJP。然而他们的模型须要额外的人工添加一些属性信息,这就致使很费劲,并且难以在其余的数据集上应用。除此以外,咱们发现BERT的性能不够好,由于在一些模型参数较少的模型上没有什么提高。主要的缘由是司法文本的长度通常较长,可是BERT最长的文本长度是512。根据统计数据,最长的司法文本长度是5w多字,15%文档场都超过了512。所以LJP须要一些文本理解(document understanding)和推理技术(reasoning technique)。

虽然embedding-based方法已经有很好的效果了,可是在LJP中咱们须要结合embedding-based和symbol-based。拿TopJudge做为一个例子,这个模型规范化LJP任务中(symbol-based part)的拓扑序,并使用TextCNN用于编码fact description。(有点好奇这个TopJudge里是怎么经过symbol-based搞一个拓扑序的?对模型是怎么样有用的。)经过结合symbol-based和embedding-based,TopJudge达到了一个很好的效果。经过对比TextCNN和TopJudge能够发现加judgements 的顺序(order)能够提高性能。

为了更好的LJP性能。 一些挑战须要研究者来探索:

  1. 文档理解和推理(Document understanding reasoning):须要这个技术来从超长的legal text中挖掘全局信息(global information)
  2. 小样本学习(few-shot learning):低频率的指控也不能被忽视,由于这是司法完整性(legal integrity)的一部分。
  3. 可解释性(interpretability):咱们要去理解这些模型怎么去作出了这些决策。现存的embedding-based方法都像一个黑盒。咱们不知道哪些因素影响决策结果的状况下,就可能引入不公平和道德因素,好比性别误差。加入legal symbol和knowledge能够改善LJP的可解释性。

4.2 Similar Case Matching

在使用Common Law System(这好像能够解释为卷宗法律系统,经过类似的案件来判案)的国家中,好比美国,加拿大,印度,判决决策是经过类似案件和有表明性的(representative)案件来进行的。所以,怎么识别出类似的案件,时Common Law System中所最须要的。

为了更好的预测Common Law System的判决结果,Similar Case Matching(SCM)成了LegalAI的一个重要的话题。SCM中对于类似度(similarity)的定义也是多种多样。SCM须要从不一样的信息粒度(information of different granularity)来建模(modeling)案件之间的关联(relationship),好比事实级别(fact-level),事件级别(event-level),和元素级别(element-level)。换一种话说,就是SCM是语义匹配的一种特殊形式(semantic matching),这个对于提取司法信息(legal information retrieval)有帮助。

相关工做

传统的IR方法集中于使用统计方法来衡量term-level 的类似性,好比TF-IDF。除此以外,其余研究者还尝试利用元信息(meta-information),来捕捉语义类似度。许多机器学习方法也被应用于IR,好比SVD或者矩阵分解(factorization),随着深度学习发展,多层感知机(multi-layer perceptron),CNN,RNN也被应用于IR。

已经有一些LegalIR的数据集:COLIEE,CaseLaw,CM。COLIEE和CaseLaw都被用于从大的语料库中提取最相关的文章。CM中的数据样例提供了三个司法文档用于计算类似度。这些dataset都提供了一个benchmark。许多研究者专一于创建易用的司法搜索引擎(legal search engine,司法版google)。

以计算语义级别(semantic-level)的类似度为目标,深度学习方法被用于LegalIR。Tran(2019)提出了一个CNN-based model,结合了文档级别(document-level)和句子级别(sentence-level)的池化(pooling),在COLIEE上达到了SOTA的效果。

实验和分析

为了对当前的LegalIR进展有一个更好的理解视角,咱们使用CM(Xiao 2019)来进行实验。CM包含8964个三元组,每一个三元组包含三个司法文档(A, B, C)。CM的任务就是分辨出B和C哪一个更接近A。咱们实现了几个不一样类型的baseline:

  1. term-matching methods:TF-IDF
  2. siamese network with two parameter-shared encoders(孪生网络):TextCNN,BiDAF,BERT和一个距离函数(distance function)?
  3. semantic matching models

    1. in sentence level:ABCNN,
    2. in document level:SMASH-RNN

咱们发现,可以捕捉语义信息的模型性能超过了TF-IDF,可是应用到SCM还不够。如Xiao(2019)所说,主要的缘由是司法人员认为数据集中的elements定义了司法案件之间的类似度。司法人员会比较看重两个案件是否有相关的元素(elements)。只考虑term-level和semantic-level的类似度是不足够的。

更深的SCM研究有如下几个方向须要努力:

  1. 元素级别的表示(Elmental-based representation):研究者能够更多的专一到司法文档中的symbol,由于司法案件之间的类似度是和symbol相关的,好比elements。
  2. 知识合并(Knowledge incorporation):由于semantic-level matchin对于SCM是不足够的,咱们须要考虑整合司法信息进入model来提升性能和提供可解释性。

4.2 Legal Question Answering

Legal Question Answering(LQA):司法方面的问答系统。

司法专业人员的一个很重要的任务是向不懂法的人提供可靠的、高质量的司法咨询服务。

LQA中,问题的形式会有比较大的变化:有的问题强调对于司法概念的解释,有的问题主要考虑对于特定案件的分析。另外,从专业人员和非专业人员口中表达专业词汇可能会有差异。这些问题给LQA带来了不少挑战。

相关工做

LegalAI中有不少数据集,Duan(2019)提出CJRC,一个司法阅读理解数据集,和SQUAD 2.0有类似的格式,包括span extraction(不懂),yes/no questions,unanswerable questions。另外COLIEE包含500个yes/no questions。另外,律师资格考试(bar exam)对于律师来讲是一个很重要的考试,所以律师资格考试数据集会比较难,由于须要专业的司法知识和技能。

除了这些数据集以外,研究者还用了不少方法在LQA上。rule-based systems在早期的研究中效果显著。为了更好的性能,研究者利用更多的信息,好比概念解释(explanation of concepts)或者把相关文档格式化为图(formalize relevant documents as graph)来帮助推理。机器学习和深度学习方法好比CRF,SVM,CNN也用于LQA。可是,大多数现存方法只在小数据集上进行了实验。

实验和分析

咱们选择JEC-QA来做为实验的数据集,由于这是从律师资格考试中收集到的最大的数据集,保证他的困难程度。JEC-QA包含了28641个多项选择、多项回答问题,还包含了79433个相关的文章来帮助回答问题。JEC-QA把问题分为知识驱动问题(knowledge-driven questions, KD-Questions)和案件分析问题(case-analysis questions),而且提供了人类的表现。咱们实现了几个有表明性的QA模型,包括BiDAF、BERT、Co-matching、HAF,这些实验结果在表6中呈现。

对比发现,这些模型不能在回答这些司法问题上跟回答open-domain的问题时有同样好的效果。在LQA上,模型和人类之间有巨大的差距。

为了有更好的LQA方法,这里有几个困难须要克服:

  1. 司法多段跳推理(Legal multi-hop reasoning):司法案件太复杂,不能用单步推理。
  2. 司法概念理解(Legal concepts understanding):大多数模型相对于进行知识理解, 在案件分析上表现更好,这证实了只是建模对于现存方法仍具备挑战性。怎么在LQA中对司法知识建模很关键,由于司法知识是LQA的基础。

5 Conclusion

除了这篇文章中的,还有其余的LegalAI任务:司法文献概述(legal text summarization),从司法合同中进行信息提取(information extraction from legal contracts)。无论怎样,咱们都可以应用embedding-based方法来提升性能,结合symbol-based方法提升可解释性。

三个主要的挑战:

  1. 知识建模:Knowledge modelling
  2. 司法推理:legal reasoning
  3. 可解释性:interpretability

将来的研究者能够主要结合embedding方法和symbol方法解决这三个挑战。

对于一些任务,尚未数据集,或者数据集不够大。咱们能够尝试构建规模大、质量高的数据集,或者使用few - shot / zero - shot learning方法来解决这些问题。