2025年5月6日 星期二

旅居,在聖克里斯托巴

異國邊陲小城聖克里斯托巴·德拉斯卡薩斯 (San Cristóbal de las Casas)、五個月的時光,在山腰的小屋、以半個上帝的視角望著風雲的變幻。這個不太一樣的旅居開端,彷彿也預示著那不太一樣的變化

原以為會是用力擁抱熱情的西班牙文化,沒想到在這異域中的異域會一頭栽進另一個時空:以至於一整個禮拜跟人類說不到幾句話,卻每天跟那些AI(Artificial intelligence,人工智慧)聊天機器人大量地溝通、協作。


我個人的生活狀態,大抵是每十年有一個重大的變化:幅度之大是連我自己都完全無法想像下一個十年的樣子,比喻作輪迴的話可以說這輩子到現在已經「轉世」了有兩三回了。


2022年底離開中國的雲南以來,其實還抱著再找個舒適的地方長居的想法,最終跨過了半個地球、遇到這個見面就似曾相識的地方:一個從地理到文化上都稱邊遠的所在。人生走到這樣的境地,可謂是到了「末路」了。


現在這個建立在自由職業(freelancing )上的生活型態其實是十年前嘗試創業失敗後的權宜之計,而後衍生成遠走、旅居的型態:幾乎完全背離了躊躇滿志的初衷。或許是走到這「末路」後的深刻自省所致,竟然重拾起了「前世的前世」的行當。


我的專利相關工作目前主要涉獵機器人、AI領域:AI的新東西接觸多了也想來玩玩。而今在AI 聊天機器人的協助下快速入手新的程式語言,少不得就是要把現在的工作給自動化:模仿個人的工作流程、同時考量機器和資源的侷限,實現出來的是結合專利文件自動優化、翻譯、撰寫輔助的工具(基於自然語言處理(natural language processing ,NLP))。


雖然說只是個簡單的開始,卻有著影響個人未來的生活型態的端倪。至少能在一定程度上增進「工作」這個生活要素的效益,甚至能成為工作、生活的新方向:增添自由職業工作的內容、以至於涉獵相關學術領域。


而今這個世界,很多人已經能感受到那不安的暗潮。就如同人們面對被AI科技取代的危機,應對的態度可以是消極抵抗、也可以是積極調適。如果相信自有安排,就不妨視為「機遇」、試著去順應它:自由職業就自由職業吧,動盪的世界貴在靈活度,不如就讓「自由」的職業更加自由吧。

2025年4月25日 星期五

基於自然語言處理的專利文件自動優化、翻譯、撰寫輔助工具

§ 簡介: 

專利文件撰寫的工作實踐了許多年,最近開始根據以往的實務經驗開發了一款基於自然語言處理(Natural Language Processing,NLP)的工具,結合了自動優化、翻譯、以及撰寫輔助的功能。


§ 背景

以專利說明書為例的專利文件,作為需要相當的嚴謹程度的法律文件的同時、也牽涉了不同領域的科技,因而有別於一般提供翻譯等功能的自動化工具,其實現有著更多的問題與挑戰:

1. 各國專利實務差異和語言間差異:各國對於專利實務的要求有所差異,再加上不同語言之間的差異,為文件之間的轉換帶來挑戰。比如在進行翻譯——特別是中文->英文翻譯時,由於中文本身在邏輯和結構上比較不明確的語言特性,單純的直接翻譯會造成許多漏洞、而往往不能符合英文語言和相關國家的專利實務要求。

2. 資料集處理與模型訓練:由於前述專利實務差異和語言間差異的問題而造成中、英文專利文件內容的不一致,比如同一個發明的中、英文專利說明書在格式和內容上為了因應不同的格式要求(例如「權利要求」的形式)和內容要求(例如各國所允許的專利標的(subject matter)),往往需要大量的改寫而使得彼此之間有著許多不一致,造成了處理相關資料集的困難、從而形成了訓練相關語言模型的挑戰。此外,簡體中文(中國)案件長期以來在實作上多有的品質問題(例如不嚴謹的撰寫風格)進一步增加了前述困難與挑戰。

3. 文件內容分析、改寫、翻譯:前述的專利實務差異和語言間差異、文件內容的不一致等問題疊加起來,形成了從專利文件中文內容分析、優化到英文翻譯、改寫的許多挑戰。

4. 一般自然語言處理技術問題:對自動化工具的效能而言,術語提取等自然語言處理技術至關重要。

目前為了因應前述問題與挑戰,而將自動化工具設計為結合了內容優化、翻譯、撰寫輔助功能的形式,在自動與手動之間取長補短,以期達到較佳的整體效能。


§ 工具介紹

目前實現了關於內容優化、翻譯、撰寫輔助的一些基本功能,包括把撰寫美國專利說明書的工作流程自動化為一個自定義流程:先提取中國專利說明書的原文內容進行分析、找出缺點進行優化,然後翻譯成英文、並按照美國專利說明書的格式來撰寫(改寫)。自動化工具的執行流程如下所述。

1. 作為實現自定義流程的準備,先從中國專利說明書的不同段落中搜集專利資料、進行基本的分析和整理:


2. 在自定義流程中,先根據(預先手動建立的)自定義字典來初始化動態中英文字典(用來維持術語翻譯的一致性),而後分析先前搜集到的專利資料、提取關鍵字來更新動態中英文字典:


3. 在翻譯權利要求的過程中,先分析權利要求1中的主體(subject)之間的關係,當關係不明確時嘗試進行優化:


4. 根據優化後的關係來調整、優化權利要求1:


5. 根據優化後的權利要求1來進行翻譯,翻譯的過程中套用動態中英文字典的內容:

6. 在後續的請求項的翻譯過程中,持續提取關鍵字來更新動態中英文字典,並套用動態中英文字典的內容進行翻譯:

7. 針對與權利要求1相對應的裝置、系統、媒體等請求項,按照美國專利說明書的格式來改寫,並自動生成與權利要求1的附屬項相對應的附屬項:

8. 翻譯說明書的內容時,根據前面翻譯權利要求時的優化來修改說明書中的專利名稱、技術領域等部分:


9. 可以導入(經翻譯、手動校正的)英文權利要求文件,以實現撰寫輔助:


10. 所導入的英文權利要求項會直接套用、而不用再翻譯:


11. 其他未導入相應英文權利要求的權利要求項會繼續進行翻譯:

12. 針對與前面導入的權利要求1相對應的裝置、系統、媒體等請求項,也會按照美國專利說明書的格式來改寫、並自動生成相應的附屬項:

§ 小結與展望:

針對前述的問題與挑戰,目前除了藉助於現有的自然語言工具包(Natural Language Toolkit,NLTK)等工具之外,多採用後處理的方式。比如利用正規表示式(Regular expression,Regex)模式來提取關鍵字、並結合使用自定義字典來進行分析。未來可以持續在專利實作中改進,並運用更多的機器學習手段(例如深度學習機制)來優化。



2025年3月3日 星期一

資料分析—Tea of Yunnan~2

§ 簡介:

以Python自動化工具的形式來實現分析雲南茶葉的產量等指標的關鍵影響因素,並實現簡單的預測。


§ 資料背景

資料集包括最晚到2024年的近50年區間內的中國國家統計局的雲南年度茶葉產量、相關面積、價格等數據,以及最大產區臨滄一帶的美國NCEI年度降水量、氣溫等數據。資料預處理的策略主要是依據個別資料類型是否適合進行平滑處理:針對適合進行平滑處理的類型(例如比較不容易劇烈變化的年平均氣溫)採用中位數填充處理,而針對不適合進行平滑處理的類型(例如比較容易發生劇烈變化的總產量)則採用插值處理。


§ 資料分析

資料分析採用了從1979年到2018年的40年區間內的資料集中的資料(從2019年到2023年的5年區間內的資料集中的資料後續用於比對模型預測的結果)。

1. 相關性分析:

利用皮爾遜(Pearson)相關係數來評估茶葉產量等指標與氣候、面積、價格等潛在影響因素之間的相關性。使用自動化工具進行計算,並呈現為熱圖(heatmap)的形式、以便分析。根據該熱圖,就總產量而言,茶園面積、採收面積是主要的正面影響因素,降雨則是主要的負面影響因素。


2. 因果分析:

結合使用皮爾遜相關係數(用來過濾弱相關性)、格蘭傑因果關係 (Granger causality,用來推測因果關係)和傳遞熵(Transfer Entropy,用來過濾格蘭傑因果關係的推測結果、解決其中的非線性因果關係)來評估茶葉產量等指標與前面分析出的影響因素之間的因果關係。使用自動化工具進行計算,主要參數包括最大延遲(lag)為3,P閾值為0.2,相關性閾值為0.3,並呈現為因果關係鏈的形式、以便分析。


根據該因果關係鏈,就總產量而言,茶園面積、採收面積作為前面分析出的主要正面影響因素有直接的因果關係、因此可視為關鍵影響因素,而降雨作為前面分析出的主要負面影響因素則沒有因果關係。

§ 模型預測
自動化工具導入了整合移動平均自我迴歸(Autoregressive Integrated Moving Average,ARIMA)、 線性迴歸預測(Linear Regression Prediction,LRP)、隨機森林預測(Random Forest Prediction,RPP)、以及長短期記憶(Long Short-Term Memory,LSTM)四種模型來預測茶葉產量等指標的趨勢。根據從1979年到2018年的40年區間內的資料集中的資料來預測其後5年(2019年到2023年)的趨勢,並引入了該5年區間內的資料集中的資料、用來與預測結果相比較。就總產量而言,該四種模型的預測結果中最接近實際數值的是整合移動平均自我迴歸(ARIMA)模型的預測結果,長短期記憶(LSTM)模型的預測結果則比較類似於實際趨勢的模式(即曲線形狀比較類似)。

§ 小結與展望:
1. 茶葉總產量的影響因素的自動分析結果與先前的手動分析結果類似:其隨著茶園面積/採收面積的增加而增長。
2. 氣候、災害的因素(例如降雨、乾旱)根據自動分析結果未如同預期中的有明顯和直接的影響,推測可能是茶園面積/採收面積的急遽增加趨勢(特別是2004年以後)排擠了其他影響因素。
3. 茶葉的生產者物價指數(PPI)根據自動分析結果未如同預期中的受到茶葉產量的明顯影響,推測一方面可能是因為其影響因素較複雜,另一方面可能是由於相關資料較少、缺失較多。
4. 可再引入福建、四川等茶葉產量相當的同級行政區的資料進行橫向的比較分析,或引入季度、月度等較細粒度的資料來進行分析,以進一步確認茶葉產量等指標的關鍵影響因素。
5. 可再改進預測模型、並整合即時氣候,以進一步提升預測的準確性。

2025年1月27日 星期一

資料分析—Tea of Yunnan

§ 分析資料








§ 資料背景

1. 採用近50年區間內的中國國家統計局的雲南省年度茶葉產量、價格、採收面積數據,以及美國NCEI的昆明站點年度降水總量、平均氣溫數據,並以Python工具進行處理、呈現。

2. 茶葉價格數據較少、且近年數據的缺失較多,年降水總量、年平均氣溫近年數據的缺失較多。


§ 資料分析

1. 產量明顯跟隨採收面積的增長,2004年以後的增長速度較快且穩定。

2. 茶葉價格的變化極大,而且與降水量的變化趨勢相對應(因為降水影響茶葉品質?)。

3. 特別值得關注的時間點為2008年前後,經歷了茶葉價格的暴漲與暴跌(可觀察與採收面積、降水量的連動關係)。


§ 心得&展望:

1. 可針對預測產量、價格等目的來對數據進行不同維度的分析,進而協助制定定價、庫存管理等策略。

2. 可引入機器學習模型來協助進行產量、價格等預測。

2024年5月31日 星期五

甲辰有感

生活在一個荒亂的年代,

乖誕的世界裡的許多人、事、物迷惑著人的心。


也只能明哲保身,

遠離人、事、物的惡業,

同時不忘在內心裡保留一塊淨土。


有限的資源要用來滋養有限的生命,

不浪費時間和金錢在無謂的人、事、物上。


有放下的豁達、才有拿起的勇氣,

一步一步走穩人生的路。


路過 中國·四川·成都


05/31/2024

2023年6月20日 星期二

2023,初訪日本北海道

初見日本北海道的札幌。鮮少的先民遺蹟、大量近百年歷史的仿西洋建築物、大片的自然腹地,這個北國城市的一幕幕風景,讓人不覺聯想到那個遙遠的南國城市:台北。

個人每到一個陌生的地方,總會下意識地尋找它的歷史脈絡:從一個地方的過去來驗證其現狀的合理性、進而窺見它的未來。直到偶然注意到「開拓使」這個歷史角色,我才明白那一份莫名的熟悉感的來源:日本殖民歲月。

原來北海道之於日本就好比台灣之於中國,在日本歷史上一直被視為「化外之地」般的存在。直到明治維新之後殖民主義興起,才以「開拓」的姿態開始大力經營這片原本人煙稀少的苦寒之地。

雖說歷史難以作假設,但是北海道的殖民活動也就比台灣早了30年左右,拿來作類比也算合理。所以腦海裡不禁浮現一個歷史命題:如果台灣持續被日本殖民到現在,會是什麼樣子的呢?答案應該是跟北海道相差無幾,而且多半會更好點的吧。

因為與面積差不多的北海道相比,台灣的劣勢主要是離日本本土更遠、而且民族文化差異較大,優勢主要是它的地理位置和溫暖的氣候:相信這樣的優勢應該遠大於劣勢。

于日本·北海道·札幌

06/20/2023