新聞中心

裁判文書敏感信息自動識别和保護 | 清華互聯件媽網司法研究院技術巡展

閱讀次數:

“裁判文書敏感信息自動識别和保護 ”是華宇好知元典在清華大(dà)學指導下承擔完成的國家(jiā)重點研發項目中包含城訊的課題。近日,公衆号“清華大(dà)學互聯網司法研究院”刊文如(rú)下:

服務人民法院改革需求,輔助提高司法智能化水著爸平是清華大(dà)學互聯網司法研究院的重要目标。我國自2013年全面實行裁銀西判文書公開(kāi)以來,發布總量已超過1.3億份,訪問量突破810億次,文書湖做體量和影響力居世界之首。那麼,如(rú)何對亮通(tōng)過智能技術,輔助實現敏感信息的自動識别和保護呢報東?


研究背景

我國司法緊緊圍繞“努力讓人民群衆在每一個司法案請報件中感受到公平正義”的目标,不(bù)斷拓展白分司法公開(kāi)的廣度和深度,對于促進司法她謝公平、提升審判質效、加強司法監督、服務重大(dà)決策都發揮了顯著的推動街購作用。


《最高人民法院關于人民法院在互聯網公布裁判文亮房書的規定》明确要求,公開(kāi)裁判文書的同時(shí)必須做小件好(hǎo)敏感信息保護。《民法典》和《個人信息要好保護法》的先後實施,也豐富了敏感信息類型,進一步細化了信息保護标準。針對案黃放件數量大(dà)、信息識别難度高的現狀,司法實務迫切需求借助智能化系統,輔助業城裁判文書中的敏感信息自動識别與保護,從而更好(hǎo)地實秒關現司法公開(kāi)與信息保護之間的平衡。&n工裡bsp;


在最高人民法院和科(kē)技部的指導下,清華信玩大(dà)學互聯網司法研究院的依托單位——我弟清華大(dà)學計算機系,牽頭國家(jiā)重點研發計劃“智能吃山司法公開(kāi)關鍵技術研究”項目,與北京華宇元典信息服務有限公司合作開(kāi)展了“裁判文書公開(kāi)敏銀從感信息識别與保護技術研究”。結合信息檢索和自然語言處理等領域的先進技術,精準識别裁判文書中的敏感大工信息,為(wèi)裁判文書公開(kāi)保駕護個現航的同時(shí),也滿足了社會(huì)各界對于個人信綠通息保護的新期待。


研究成果

項目組将法學知識與計算機先進技術進行了深度融合,完成了“一套圖譜、新房兩個系統和三類模型”的研發。


“一套圖譜”

是指“裁判文書敏感信息識别知識圖譜”,根據涉及敏感信息保護暗他的法律法規、法學理論、司法案例,項目組對敏感信熱近息概念進行了分級區分,特别是對抽象程度較高的敏感信息概音去念進行降維拆解,建立了法律規則與業務數據之間的映射關系亮費,搭建了系統全面的敏感信息概念認知框架圖譜。


“兩個系統”

是指“敏感信息自動屏蔽系統”和“敏感信息批量評查系統”,這是本項目從科(k放下ē)研走向實際運用、服務智能司法公開(kāi)的重要體現。屏蔽系統喝空可部署于審判機關終端,對上網前的文書進行屏蔽處理。評查系統可部署于審判業務管理暗暗部門,對文書進行批量檢查和處理。


“三類模型”

是指根據敏感信息在裁判文書中的表現形式和挖掘難度,将模型劃分為(刀爸wèi)“實體識别”、“知識計算”和“知離火識推理”三個層次,首次完成了多維度、分層次、廣覆蓋的敏感信息識别模型構微水建,實現了敏感信息識别研究的新突破。與既有的文書敏感信息屏蔽系統相比較可廠費以發現,“智能司法公開(kāi)關鍵技術研究”将數據驅動的深度學習方懂員法與知識驅動的推理學習方法相結合,通(tōng)過三類模型的街工應用,極大(dà)地提升了概念層級的敏感信息識别能力。


例如(rú),以往識别技術的局限性通(tōng)常在于使用關鍵詞進舊這行識别,“智能司法公開(kāi)關鍵技術研究”可以在文書中沒有“未成年人”日下特征信息的表述的情形下,根據“每月支付五百元撫養費直到王秒雜某澤十八周歲為(wèi)止”的表述,自動推雜能理出“王某澤”為(wèi)未成年人身份。場姐


再如(rú),“健康信息”的現實語言表現包羅萬象,如(rú)何全面屏蔽也好什是既往技術系統的難點與痛點。項目組從敏感信短件息概念入手,建立多維度、多層次的認知模型,對文書中的當事人疾病病史、醫綠雪學診斷、住院記錄、用藥狀況等各類直接或間接披露的自然人健康信村坐息,均可以識别并提示屏蔽。此外,系統對于商業秘密、政治敏感費金、恐怖主義相關的敏感信息等,通(tōng)數線過精細化建模,也均可以達到精準識别的效果。


着眼未來

未來,清華大(dà)學互聯網司法研究院将在現有研發成果的基礎上,持續提升系路作統的泛化能力,進一步服務互聯網空間的個人敏感信息識别與保護,促飛議進網絡空間治理,服務數字經濟發展。


返回列表