2025年7月20日 星期日
科學的根本是哲學,技術的盡頭是玄學?
2025年5月6日 星期二
旅居,在聖克里斯托巴
原以為會是用力擁抱熱情的西班牙文化,沒想到在這異域中的異域會一頭栽進另一個時空:以至於一整個禮拜跟人類說不到幾句話,卻每天跟那些AI(Artificial intelligence,人工智慧)聊天機器人大量地溝通、協作。
我個人的生活狀態,大抵是每十年有一個重大的變化:幅度之大是連我自己都完全無法想像下一個十年的樣子,比喻作輪迴的話可以說這輩子到現在已經「轉世」了有兩三回了。
2022年底離開中國的雲南以來,其實還抱著再找個舒適的地方長居的想法,最終跨過了半個地球、遇到這個見面就似曾相識的地方:一個從地理到文化上都稱邊遠的所在。人生走到這樣的境地,可謂是到了「末路」了。
現在這個建立在自由職業(freelancing )上的生活型態其實是十年前嘗試創業失敗後的權宜之計,而後衍生成遠走、旅居的型態:幾乎完全背離了躊躇滿志的初衷。或許是走到這「末路」後的深刻自省所致,竟然重拾起了「前世的前世」的行當。
我的專利相關工作目前主要涉獵機器人、AI領域:AI的新東西接觸多了也想來玩玩。而今在AI 聊天機器人的協助下快速入手新的程式語言,少不得就是要把現在的工作給自動化:模仿個人的工作流程、同時考量機器和資源的侷限,實現出來的是結合專利文件自動優化、翻譯、撰寫輔助的工具(基於自然語言處理(natural language processing ,NLP))。
雖然說只是個簡單的開始,卻有著影響個人未來的生活型態的端倪。至少能在一定程度上增進「工作」這個生活要素的效益,甚至能成為工作、生活的新方向:增添自由職業工作的內容、以至於涉獵相關學術領域。
而今這個世界,很多人已經能感受到那不安的暗潮。就如同人們面對被AI科技取代的危機,應對的態度可以是消極抵抗、也可以是積極調適。如果相信自有安排,就不妨視為「機遇」、試著去順應它:自由職業就自由職業吧,動盪的世界貴在靈活度,不如就讓「自由」的職業更加自由吧。
2025年4月25日 星期五
基於自然語言處理的專利文件自動優化、翻譯、撰寫輔助工具
§ 簡介:
專利文件撰寫的工作實踐了許多年,最近開始根據以往的實務經驗開發了一款基於自然語言處理(Natural Language Processing,NLP)的工具,結合了自動優化、翻譯、以及撰寫輔助的功能。
§ 背景
以專利說明書為例的專利文件,作為需要相當的嚴謹程度的法律文件的同時、也牽涉了不同領域的科技,因而有別於一般提供翻譯等功能的自動化工具,其實現有著更多的問題與挑戰:
1. 各國專利實務差異和語言間差異:各國對於專利實務的要求有所差異,再加上不同語言之間的差異,為文件之間的轉換帶來挑戰。比如在進行翻譯——特別是中文->英文翻譯時,由於中文本身在邏輯和結構上比較不明確的語言特性,單純的直接翻譯會造成許多漏洞、而往往不能符合英文語言和相關國家的專利實務要求。
2. 資料集處理與模型訓練:由於前述專利實務差異和語言間差異的問題而造成中、英文專利文件內容的不一致,比如同一個發明的中、英文專利說明書在格式和內容上為了因應不同的格式要求(例如「權利要求」的形式)和內容要求(例如各國所允許的專利標的(subject matter)),往往需要大量的改寫而使得彼此之間有著許多不一致,造成了處理相關資料集的困難、從而形成了訓練相關語言模型的挑戰。此外,簡體中文(中國)案件長期以來在實作上多有的品質問題(例如不嚴謹的撰寫風格)進一步增加了前述困難與挑戰。
3. 文件內容分析、改寫、翻譯:前述的專利實務差異和語言間差異、文件內容的不一致等問題疊加起來,形成了從專利文件中文內容分析、優化到英文翻譯、改寫的許多挑戰。
4. 一般自然語言處理技術問題:對自動化工具的效能而言,術語提取等自然語言處理技術至關重要。
目前為了因應前述問題與挑戰,而將自動化工具設計為結合了內容優化、翻譯、撰寫輔助功能的形式,在自動與手動之間取長補短,以期達到較佳的整體效能。
§ 工具介紹
目前實現了關於內容優化、翻譯、撰寫輔助的一些基本功能,包括把撰寫美國專利說明書的工作流程自動化為一個自定義流程:先提取中國專利說明書的原文內容進行分析、找出缺點進行優化,然後翻譯成英文、並按照美國專利說明書的格式來撰寫(改寫)。自動化工具的執行流程如下所述。
1. 作為實現自定義流程的準備,先從中國專利說明書的不同段落中搜集專利資料、進行基本的分析和整理:
2. 在自定義流程中,先根據(預先手動建立的)自定義字典來初始化動態中英文字典(用來維持術語翻譯的一致性),而後分析先前搜集到的專利資料、提取關鍵字來更新動態中英文字典:
3. 在翻譯權利要求的過程中,先分析權利要求1中的主體(subject)之間的關係,當關係不明確時嘗試進行優化:
8. 翻譯說明書的內容時,根據前面翻譯權利要求時的優化來修改說明書中的專利名稱、技術領域等部分:
9. 可以導入(經翻譯、手動校正的)英文權利要求文件,以實現撰寫輔助:
10. 所導入的英文權利要求項會直接套用、而不用再翻譯:
2025年3月3日 星期一
資料分析—Tea of Yunnan~2
§ 簡介:
以Python自動化工具的形式來實現分析雲南茶葉的產量等指標的關鍵影響因素,並實現簡單的預測。
§ 資料背景
資料集包括最晚到2024年的近50年區間內的中國國家統計局的雲南年度茶葉產量、相關面積、價格等數據,以及最大產區臨滄一帶的美國NCEI年度降水量、氣溫等數據。資料預處理的策略主要是依據個別資料類型是否適合進行平滑處理:針對適合進行平滑處理的類型(例如比較不容易劇烈變化的年平均氣溫)採用中位數填充處理,而針對不適合進行平滑處理的類型(例如比較容易發生劇烈變化的總產量)則採用插值處理。
§ 資料分析
資料分析採用了從1979年到2018年的40年區間內的資料集中的資料(從2019年到2023年的5年區間內的資料集中的資料後續用於比對模型預測的結果)。
1. 相關性分析:
利用皮爾遜(Pearson)相關係數來評估茶葉產量等指標與氣候、面積、價格等潛在影響因素之間的相關性。使用自動化工具進行計算,並呈現為熱圖(heatmap)的形式、以便分析。根據該熱圖,就總產量而言,茶園面積、採收面積是主要的正面影響因素,降雨則是主要的負面影響因素。
2. 因果分析:
結合使用皮爾遜相關係數(用來過濾弱相關性)、格蘭傑因果關係 (Granger causality,用來推測因果關係)和傳遞熵(Transfer Entropy,用來過濾格蘭傑因果關係的推測結果、解決其中的非線性因果關係)來評估茶葉產量等指標與前面分析出的影響因素之間的因果關係。使用自動化工具進行計算,主要參數包括最大延遲(lag)為3,P閾值為0.2,相關性閾值為0.3,並呈現為因果關係鏈的形式、以便分析。