2025年7月20日 星期日

科學的根本是哲學,技術的盡頭是玄學?

這次半隱居在這座喜馬拉雅深山裡的小城市,不覺已經超過一個月的時間。每天除了飲食、睡眠之外,幾乎就是在研讀NLP(自然語言處理)相關資料、構思論文了。日子平淡、內心也少有波瀾,倒是偶爾會迸出靈光一現的想法。

前兩天適逢清爽的天氣,黃昏的光景讓我不禁彈琴自娛起來,平靜的腦海裡油然而生出「NLP+音樂」的構思。而後開始去了解相關的聲學原理、音樂分析技術、以至於音樂治療,而後循線找到真的以這樣的構思實現音樂治療的英國新創公司Wavepaths。想到個人多年來作為科技相關從業者、音樂愛好者、靈修實踐者的心路歷程,有一種唏噓+欣慰的複雜感覺:唏噓的是這樣的東西在自詡古老的東方還只能作為一個概念而存在,欣慰的是我自己好歹趕上了這樣的時代機遇。


為了解決NLP應用中實現術語的「上位化」所繞不開的「語意分析」難題,我從計算機科學的語言模型、神經網路開始著手了解,尋找解決方案的過程中一路跨越到語言學的知識圖譜 (knowledge graph) ,直到遇見本體 (ontology) 這個概念我才驚覺自己幾乎觸碰到了哲學的範疇。此外在探索技術的過程中竟然也能發現某些「玄妙」的存在,比如事實證明密集向量在所有NLP任務中的表現都比稀疏向量更好:原因不甚了了、但能「直覺」合理。所以,也許可以這麼總結道:科學的根本是哲學,技術的盡頭是玄學。 




反觀我們東方的哲學、宗教、以至於靈修實踐,現狀簡單來講就是「跟不上時代」:僅局限於個人和少數同好群體之間的活動,從古到今的形式和內容都差不多、而難以形成Wavepaths式的現代科技產品和服務。我個人多年前接觸「超自然心理學」之後才知道心理學已經從科學跨越到哲學、玄學範疇(而今Wavepaths公司進一步把它產品化),而在更早之前心理學就有了廣告、設計之類的商業應用,因此在瀏覽了儒、釋、道的一些經典之後也沒有花太多的時間去「皓首窮經」式的深究。


如果說現代世界的樣貌是工業革命所造就的,那麼說現代人類文明是西方哲學體系所形塑的應該也不為過。從這個角度看西方哲學體系,它相較於東方哲學體系有一套完整的(從基礎理論到各種實踐的)方法論,比如這兩天看得我眼花撩亂的心理學分支和應用:心理物理學 (psychophysics)、心理聲學 (psychoacoustics)、振動聲學療法 (vibroacoustic therapy)、雙耳節拍 (binaural beats)。而今這些方法論讓許多科幻成了現實,比如朱邦復(倉頡輸入法的發明人)20年前就著手研發以文字生成動畫,但多年來只聞樓梯響、一直到神經網路技術成熟後的今年2025了才終於有產品問世。


我對東方哲學體系的疑慮來自於個人的實踐:深深感覺那些靠「悟」的學問僅適用於極少數人、而且極具偶然性。以我個人彈古琴的實踐為例,從開始學習到結合技巧鍛鍊、靈修實踐好幾年之後才能「駕馭」某些類型的曲目。在那偶然的「修為」突破後,直到現在超過十年的時間都沒能有明顯的長進(基於同樣的原理,我的靜坐功夫也沒有明顯的進步),說穿了就是欠缺另一個層次的修為突破(同樣又會是另一個偶然)。以禪宗的概念來說,就是「空生妙有」,能淨化心靈、修到初步的「空」才會有初步的「妙有」:掌握某些類型的曲目。再用蘇東坡的詩句「無一物中無盡藏,有花有月有樓台」比喻,就是修到能變出花來,但還不到變出樓台、月亮的「法力」:無法在各類曲目的不同「境界」間游刃有餘。


反之,西方哲學體系藉助它那一套完整的方法論已經能夠超越心靈、駕馭物質、以至於讓物質反過來影響心靈:形成產品、服務而普及於大眾,或許更適合物質爆發、心靈缺乏禪宗大師式的引導的現代。以機器學習機制為例,簡單地說就是把輸入的學習對象(例如人提供的文字、聲音、圖像)化成向量(一組數字),而後經過數學運算把向量組成矩陣、以便GPU(圖形處理器)進行(大量、快速的)平行運算,反覆運算、適當地修改矩陣參數來進行「學習」,學習的結果被換算成機率、最後再據以輸出對應的學習目標(例如機器產生的文字、聲音、圖像)。換句話說,能解答疑問、呈現出人一般的聲音和影像、甚至撫慰人類心靈的「聊天機器人」並未曾「懂」得什麼東西:它只是把一堆數字經過數學運算、電子元件處理,再運用統計學原理「猜」出人們想要的回應而已。


原理說穿了沒什麼了不起,然而一套哲學體系能形成這許多方法論,進而實現出這些魔術般神奇、而且在一定程度上管用的東西(聊天機器人、智慧型手機、人形機器人,諸如此類),背後是數不清的人們、花了數不清的時間的努力成果。相較之下東方哲學體系的價值在哪裡、又能如何體現呢?問題的答案我不甚了了、但「直覺」是應該有的:好比《老子》說的「道之為物,惟恍惟惚。惚兮恍兮,其中有象;恍兮惚兮,其中有物。窈兮冥兮,其中有精;其精甚真,其中有信。」

2025年5月6日 星期二

旅居,在聖克里斯托巴

異國邊陲小城聖克里斯托巴·德拉斯卡薩斯 (San Cristóbal de las Casas)、五個月的時光,在山腰的小屋、以半個上帝的視角望著風雲的變幻。這個不太一樣的旅居開端,彷彿也預示著那不太一樣的變化

原以為會是用力擁抱熱情的西班牙文化,沒想到在這異域中的異域會一頭栽進另一個時空:以至於一整個禮拜跟人類說不到幾句話,卻每天跟那些AI(Artificial intelligence,人工智慧)聊天機器人大量地溝通、協作。


我個人的生活狀態,大抵是每十年有一個重大的變化:幅度之大是連我自己都完全無法想像下一個十年的樣子,比喻作輪迴的話可以說這輩子到現在已經「轉世」了有兩三回了。


2022年底離開中國的雲南以來,其實還抱著再找個舒適的地方長居的想法,最終跨過了半個地球、遇到這個見面就似曾相識的地方:一個從地理到文化上都稱邊遠的所在。人生走到這樣的境地,可謂是到了「末路」了。


現在這個建立在自由職業(freelancing )上的生活型態其實是十年前嘗試創業失敗後的權宜之計,而後衍生成遠走、旅居的型態:幾乎完全背離了躊躇滿志的初衷。或許是走到這「末路」後的深刻自省所致,竟然重拾起了「前世的前世」的行當。


我的專利相關工作目前主要涉獵機器人、AI領域:AI的新東西接觸多了也想來玩玩。而今在AI 聊天機器人的協助下快速入手新的程式語言,少不得就是要把現在的工作給自動化:模仿個人的工作流程、同時考量機器和資源的侷限,實現出來的是結合專利文件自動優化、翻譯、撰寫輔助的工具(基於自然語言處理(natural language processing ,NLP))。


雖然說只是個簡單的開始,卻有著影響個人未來的生活型態的端倪。至少能在一定程度上增進「工作」這個生活要素的效益,甚至能成為工作、生活的新方向:增添自由職業工作的內容、以至於涉獵相關學術領域。


而今這個世界,很多人已經能感受到那不安的暗潮。就如同人們面對被AI科技取代的危機,應對的態度可以是消極抵抗、也可以是積極調適。如果相信自有安排,就不妨視為「機遇」、試著去順應它:自由職業就自由職業吧,動盪的世界貴在靈活度,不如就讓「自由」的職業更加自由吧。

2025年4月25日 星期五

基於自然語言處理的專利文件自動優化、翻譯、撰寫輔助工具

§ 簡介: 

專利文件撰寫的工作實踐了許多年,最近開始根據以往的實務經驗開發了一款基於自然語言處理(Natural Language Processing,NLP)的工具,結合了自動優化、翻譯、以及撰寫輔助的功能。


§ 背景

以專利說明書為例的專利文件,作為需要相當的嚴謹程度的法律文件的同時、也牽涉了不同領域的科技,因而有別於一般提供翻譯等功能的自動化工具,其實現有著更多的問題與挑戰:

1. 各國專利實務差異和語言間差異:各國對於專利實務的要求有所差異,再加上不同語言之間的差異,為文件之間的轉換帶來挑戰。比如在進行翻譯——特別是中文->英文翻譯時,由於中文本身在邏輯和結構上比較不明確的語言特性,單純的直接翻譯會造成許多漏洞、而往往不能符合英文語言和相關國家的專利實務要求。

2. 資料集處理與模型訓練:由於前述專利實務差異和語言間差異的問題而造成中、英文專利文件內容的不一致,比如同一個發明的中、英文專利說明書在格式和內容上為了因應不同的格式要求(例如「權利要求」的形式)和內容要求(例如各國所允許的專利標的(subject matter)),往往需要大量的改寫而使得彼此之間有著許多不一致,造成了處理相關資料集的困難、從而形成了訓練相關語言模型的挑戰。此外,簡體中文(中國)案件長期以來在實作上多有的品質問題(例如不嚴謹的撰寫風格)進一步增加了前述困難與挑戰。

3. 文件內容分析、改寫、翻譯:前述的專利實務差異和語言間差異、文件內容的不一致等問題疊加起來,形成了從專利文件中文內容分析、優化到英文翻譯、改寫的許多挑戰。

4. 一般自然語言處理技術問題:對自動化工具的效能而言,術語提取等自然語言處理技術至關重要。

目前為了因應前述問題與挑戰,而將自動化工具設計為結合了內容優化、翻譯、撰寫輔助功能的形式,在自動與手動之間取長補短,以期達到較佳的整體效能。


§ 工具介紹

目前實現了關於內容優化、翻譯、撰寫輔助的一些基本功能,包括把撰寫美國專利說明書的工作流程自動化為一個自定義流程:先提取中國專利說明書的原文內容進行分析、找出缺點進行優化,然後翻譯成英文、並按照美國專利說明書的格式來撰寫(改寫)。自動化工具的執行流程如下所述。

1. 作為實現自定義流程的準備,先從中國專利說明書的不同段落中搜集專利資料、進行基本的分析和整理:


2. 在自定義流程中,先根據(預先手動建立的)自定義字典來初始化動態中英文字典(用來維持術語翻譯的一致性),而後分析先前搜集到的專利資料、提取關鍵字來更新動態中英文字典:


3. 在翻譯權利要求的過程中,先分析權利要求1中的主體(subject)之間的關係,當關係不明確時嘗試進行優化:


4. 根據優化後的關係來調整、優化權利要求1:


5. 根據優化後的權利要求1來進行翻譯,翻譯的過程中套用動態中英文字典的內容:

6. 在後續的請求項的翻譯過程中,持續提取關鍵字來更新動態中英文字典,並套用動態中英文字典的內容進行翻譯:

7. 針對與權利要求1相對應的裝置、系統、媒體等請求項,按照美國專利說明書的格式來改寫,並自動生成與權利要求1的附屬項相對應的附屬項:

8. 翻譯說明書的內容時,根據前面翻譯權利要求時的優化來修改說明書中的專利名稱、技術領域等部分:


9. 可以導入(經翻譯、手動校正的)英文權利要求文件,以實現撰寫輔助:


10. 所導入的英文權利要求項會直接套用、而不用再翻譯:


11. 其他未導入相應英文權利要求的權利要求項會繼續進行翻譯:

12. 針對與前面導入的權利要求1相對應的裝置、系統、媒體等請求項,也會按照美國專利說明書的格式來改寫、並自動生成相應的附屬項:

§ 小結與展望:

針對前述的問題與挑戰,目前除了藉助於現有的自然語言工具包(Natural Language Toolkit,NLTK)等工具之外,多採用後處理的方式。比如利用正規表示式(Regular expression,Regex)模式來提取關鍵字、並結合使用自定義字典來進行分析。未來可以持續在專利實作中改進,並運用更多的機器學習手段(例如深度學習機制)來優化。



2025年3月3日 星期一

資料分析—Tea of Yunnan~2

§ 簡介:

以Python自動化工具的形式來實現分析雲南茶葉的產量等指標的關鍵影響因素,並實現簡單的預測。


§ 資料背景

資料集包括最晚到2024年的近50年區間內的中國國家統計局的雲南年度茶葉產量、相關面積、價格等數據,以及最大產區臨滄一帶的美國NCEI年度降水量、氣溫等數據。資料預處理的策略主要是依據個別資料類型是否適合進行平滑處理:針對適合進行平滑處理的類型(例如比較不容易劇烈變化的年平均氣溫)採用中位數填充處理,而針對不適合進行平滑處理的類型(例如比較容易發生劇烈變化的總產量)則採用插值處理。


§ 資料分析

資料分析採用了從1979年到2018年的40年區間內的資料集中的資料(從2019年到2023年的5年區間內的資料集中的資料後續用於比對模型預測的結果)。

1. 相關性分析:

利用皮爾遜(Pearson)相關係數來評估茶葉產量等指標與氣候、面積、價格等潛在影響因素之間的相關性。使用自動化工具進行計算,並呈現為熱圖(heatmap)的形式、以便分析。根據該熱圖,就總產量而言,茶園面積、採收面積是主要的正面影響因素,降雨則是主要的負面影響因素。


2. 因果分析:

結合使用皮爾遜相關係數(用來過濾弱相關性)、格蘭傑因果關係 (Granger causality,用來推測因果關係)和傳遞熵(Transfer Entropy,用來過濾格蘭傑因果關係的推測結果、解決其中的非線性因果關係)來評估茶葉產量等指標與前面分析出的影響因素之間的因果關係。使用自動化工具進行計算,主要參數包括最大延遲(lag)為3,P閾值為0.2,相關性閾值為0.3,並呈現為因果關係鏈的形式、以便分析。


根據該因果關係鏈,就總產量而言,茶園面積、採收面積作為前面分析出的主要正面影響因素有直接的因果關係、因此可視為關鍵影響因素,而降雨作為前面分析出的主要負面影響因素則沒有因果關係。

§ 模型預測
自動化工具導入了整合移動平均自我迴歸(Autoregressive Integrated Moving Average,ARIMA)、 線性迴歸預測(Linear Regression Prediction,LRP)、隨機森林預測(Random Forest Prediction,RPP)、以及長短期記憶(Long Short-Term Memory,LSTM)四種模型來預測茶葉產量等指標的趨勢。根據從1979年到2018年的40年區間內的資料集中的資料來預測其後5年(2019年到2023年)的趨勢,並引入了該5年區間內的資料集中的資料、用來與預測結果相比較。就總產量而言,該四種模型的預測結果中最接近實際數值的是整合移動平均自我迴歸(ARIMA)模型的預測結果,長短期記憶(LSTM)模型的預測結果則比較類似於實際趨勢的模式(即曲線形狀比較類似)。

§ 小結與展望:
1. 茶葉總產量的影響因素的自動分析結果與先前的手動分析結果類似:其隨著茶園面積/採收面積的增加而增長。
2. 氣候、災害的因素(例如降雨、乾旱)根據自動分析結果未如同預期中的有明顯和直接的影響,推測可能是茶園面積/採收面積的急遽增加趨勢(特別是2004年以後)排擠了其他影響因素。
3. 茶葉的生產者物價指數(PPI)根據自動分析結果未如同預期中的受到茶葉產量的明顯影響,推測一方面可能是因為其影響因素較複雜,另一方面可能是由於相關資料較少、缺失較多。
4. 可再引入福建、四川等茶葉產量相當的同級行政區的資料進行橫向的比較分析,或引入季度、月度等較細粒度的資料來進行分析,以進一步確認茶葉產量等指標的關鍵影響因素。
5. 可再改進預測模型、並整合即時氣候,以進一步提升預測的準確性。