§ 簡介:
專利文件撰寫的工作實踐了許多年,最近開始根據以往的實務經驗開發了一款基於自然語言處理(Natural Language Processing,NLP)的工具,結合了自動優化、翻譯、以及撰寫輔助的功能。
§ 背景
以專利說明書為例的專利文件,作為需要相當的嚴謹程度的法律文件的同時、也牽涉了不同領域的科技,因而有別於一般提供翻譯等功能的自動化工具,其實現有著更多的問題與挑戰:
1. 各國專利實務差異和語言間差異:各國對於專利實務的要求有所差異,再加上不同語言之間的差異,為文件之間的轉換帶來挑戰。比如在進行翻譯——特別是中文->英文翻譯時,由於中文本身在邏輯和結構上比較不明確的語言特性,單純的直接翻譯會造成許多漏洞、而往往不能符合英文語言和相關國家的專利實務要求。
2. 資料集處理與模型訓練:由於前述專利實務差異和語言間差異的問題而造成中、英文專利文件內容的不一致,比如同一個發明的中、英文專利說明書在格式和內容上為了因應不同的格式要求(例如「權利要求」的形式)和內容要求(例如各國所允許的專利標的(subject matter)),往往需要大量的改寫而使得彼此之間有著許多不一致,造成了處理相關資料集的困難、從而形成了訓練相關語言模型的挑戰。此外,簡體中文(中國)案件長期以來在實作上多有的品質問題(例如不嚴謹的撰寫風格)進一步增加了前述困難與挑戰。
3. 文件內容分析、改寫、翻譯:前述的專利實務差異和語言間差異、文件內容的不一致等問題疊加起來,形成了從專利文件中文內容分析、優化到英文翻譯、改寫的許多挑戰。
4. 一般自然語言處理技術問題:對自動化工具的效能而言,術語提取等自然語言處理技術至關重要。
目前為了因應前述問題與挑戰,而將自動化工具設計為結合了內容優化、翻譯、撰寫輔助功能的形式,在自動與手動之間取長補短,以期達到較佳的整體效能。
§ 工具介紹
目前實現了關於內容優化、翻譯、撰寫輔助的一些基本功能,包括把撰寫美國專利說明書的工作流程自動化為一個自定義流程:先提取中國專利說明書的原文內容進行分析、找出缺點進行優化,然後翻譯成英文、並按照美國專利說明書的格式來撰寫(改寫)。自動化工具的執行流程如下所述。
1. 作為實現自定義流程的準備,先從中國專利說明書的不同段落中搜集專利資料、進行基本的分析和整理:
2. 在自定義流程中,先根據(預先手動建立的)自定義字典來初始化動態中英文字典(用來維持術語翻譯的一致性),而後分析先前搜集到的專利資料、提取關鍵字來更新動態中英文字典:
3. 在翻譯權利要求的過程中,先分析權利要求1中的主體(subject)之間的關係,當關係不明確時嘗試進行優化:
4. 根據優化後的關係來調整、優化權利要求1:
5. 根據優化後的權利要求1來進行翻譯,翻譯的過程中套用動態中英文字典的內容:
6. 在後續的請求項的翻譯過程中,持續提取關鍵字來更新動態中英文字典,並套用動態中英文字典的內容進行翻譯:
7. 針對與權利要求1相對應的裝置、系統、媒體等請求項,按照美國專利說明書的格式來改寫,並自動生成與權利要求1的附屬項相對應的附屬項:
8. 翻譯說明書的內容時,根據前面翻譯權利要求時的優化來修改說明書中的專利名稱、技術領域等部分:
9. 可以導入(經翻譯、手動校正的)英文權利要求文件,以實現撰寫輔助:
10. 所導入的英文權利要求項會直接套用、而不用再翻譯:
11. 其他未導入相應英文權利要求的權利要求項會繼續進行翻譯:
12. 針對與前面導入的權利要求1相對應的裝置、系統、媒體等請求項,也會按照美國專利說明書的格式來改寫、並自動生成相應的附屬項:
§ 小結與展望:
針對前述的問題與挑戰,目前除了藉助於現有的自然語言工具包(Natural Language Toolkit,NLTK)等工具之外,多採用後處理的方式。比如利用正規表示式(Regular expression,Regex)模式來提取關鍵字、並結合使用自定義字典來進行分析。未來可以持續在專利實作中改進,並運用更多的機器學習手段(例如深度學習機制)來優化。