2025年3月3日 星期一

資料分析—Tea of Yunnan~2

§ 簡介:

以Python自動化工具的形式來實現分析雲南茶葉的產量等指標的關鍵影響因素,並實現簡單的預測。


§ 資料背景

資料集包括最晚到2024年的近50年區間內的中國國家統計局的雲南年度茶葉產量、相關面積、價格等數據,以及最大產區臨滄一帶的美國NCEI年度降水量、氣溫等數據。資料預處理的策略主要是依據個別資料類型是否適合進行平滑處理:針對適合進行平滑處理的類型(例如比較不容易劇烈變化的年平均氣溫)採用中位數填充處理,而針對不適合進行平滑處理的類型(例如比較容易發生劇烈變化的總產量)則採用插值處理。


§ 資料分析

資料分析採用了從1979年到2018年的40年區間內的資料集中的資料(從2019年到2023年的5年區間內的資料集中的資料後續用於比對模型預測的結果)。

1. 相關性分析:

利用皮爾遜(Pearson)相關係數來評估茶葉產量等指標與氣候、面積、價格等潛在影響因素之間的相關性。使用自動化工具進行計算,並呈現為熱圖(heatmap)的形式、以便分析。根據該熱圖,就總產量而言,茶園面積、採收面積是主要的正面影響因素,降雨則是主要的負面影響因素。


2. 因果分析:

結合使用皮爾遜相關係數(用來過濾弱相關性)、格蘭傑因果關係 (Granger causality,用來推測因果關係)和傳遞熵(Transfer Entropy,用來過濾格蘭傑因果關係的推測結果、解決其中的非線性因果關係)來評估茶葉產量等指標與前面分析出的影響因素之間的因果關係。使用自動化工具進行計算,主要參數包括最大延遲(lag)為3,P閾值為0.2,相關性閾值為0.3,並呈現為因果關係鏈的形式、以便分析。


根據該因果關係鏈,就總產量而言,茶園面積、採收面積作為前面分析出的主要正面影響因素有直接的因果關係、因此可視為關鍵影響因素,而降雨作為前面分析出的主要負面影響因素則沒有因果關係。

§ 模型預測
自動化工具導入了整合移動平均自我迴歸(Autoregressive Integrated Moving Average,ARIMA)、 線性迴歸預測(Linear Regression Prediction,LRP)、隨機森林預測(Random Forest Prediction,RPP)、以及長短期記憶(Long Short-Term Memory,LSTM)四種模型來預測茶葉產量等指標的趨勢。根據從1979年到2018年的40年區間內的資料集中的資料來預測其後5年(2019年到2023年)的趨勢,並引入了該5年區間內的資料集中的資料、用來與預測結果相比較。就總產量而言,該四種模型的預測結果中最接近實際數值的是整合移動平均自我迴歸(ARIMA)模型的預測結果,長短期記憶(LSTM)模型的預測結果則比較類似於實際趨勢的模式(即曲線形狀比較類似)。

§ 小結與展望:
1. 茶葉總產量的影響因素的自動分析結果與先前的手動分析結果類似:其隨著茶園面積/採收面積的增加而增長。
2. 氣候、災害的因素(例如降雨、乾旱)根據自動分析結果未如同預期中的有明顯和直接的影響,推測可能是茶園面積/採收面積的急遽增加趨勢(特別是2004年以後)排擠了其他影響因素。
3. 茶葉的生產者物價指數(PPI)根據自動分析結果未如同預期中的受到茶葉產量的明顯影響,推測一方面可能是因為其影響因素較複雜,另一方面可能是由於相關資料較少、缺失較多。
4. 可再引入福建、四川等茶葉產量相當的同級行政區的資料進行橫向的比較分析,或引入季度、月度等較細粒度的資料來進行分析,以進一步確認茶葉產量等指標的關鍵影響因素。
5. 可再改進預測模型、並整合即時氣候,以進一步提升預測的準確性。

2025年1月27日 星期一

資料分析—Tea of Yunnan

§ 分析資料








§ 資料背景

1. 採用近50年區間內的中國國家統計局的雲南省年度茶葉產量、價格、採收面積數據,以及美國NCEI的昆明站點年度降水總量、平均氣溫數據,並以Python工具進行處理、呈現。

2. 茶葉價格數據較少、且近年數據的缺失較多,年降水總量、年平均氣溫近年數據的缺失較多。


§ 資料分析

1. 產量明顯跟隨採收面積的增長,2004年以後的增長速度較快且穩定。

2. 茶葉價格的變化極大,而且與降水量的變化趨勢相對應(因為降水影響茶葉品質?)。

3. 特別值得關注的時間點為2008年前後,經歷了茶葉價格的暴漲與暴跌(可觀察與採收面積、降水量的連動關係)。


§ 心得&展望:

1. 可針對預測產量、價格等目的來對數據進行不同維度的分析,進而協助制定定價、庫存管理等策略。

2. 可引入機器學習模型來協助進行產量、價格等預測。

2024年5月31日 星期五

甲辰有感

生活在一個荒亂的年代,

乖誕的世界裡的許多人、事、物迷惑著人的心。


也只能明哲保身,

遠離人、事、物的惡業,

同時不忘在內心裡保留一塊淨土。


有限的資源要用來滋養有限的生命,

不浪費時間和金錢在無謂的人、事、物上。


有放下的豁達、才有拿起的勇氣,

一步一步走穩人生的路。


路過 中國·四川·成都


05/31/2024

2023年6月20日 星期二

2023,初訪日本北海道

初見日本北海道的札幌。鮮少的先民遺蹟、大量近百年歷史的仿西洋建築物、大片的自然腹地,這個北國城市的一幕幕風景,讓人不覺聯想到那個遙遠的南國城市:台北。

個人每到一個陌生的地方,總會下意識地尋找它的歷史脈絡:從一個地方的過去來驗證其現狀的合理性、進而窺見它的未來。直到偶然注意到「開拓使」這個歷史角色,我才明白那一份莫名的熟悉感的來源:日本殖民歲月。

原來北海道之於日本就好比台灣之於中國,在日本歷史上一直被視為「化外之地」般的存在。直到明治維新之後殖民主義興起,才以「開拓」的姿態開始大力經營這片原本人煙稀少的苦寒之地。

雖說歷史難以作假設,但是北海道的殖民活動也就比台灣早了30年左右,拿來作類比也算合理。所以腦海裡不禁浮現一個歷史命題:如果台灣持續被日本殖民到現在,會是什麼樣子的呢?答案應該是跟北海道相差無幾,而且多半會更好點的吧。

因為與面積差不多的北海道相比,台灣的劣勢主要是離日本本土更遠、而且民族文化差異較大,優勢主要是它的地理位置和溫暖的氣候:相信這樣的優勢應該遠大於劣勢。

于日本·北海道·札幌

06/20/2023










2022年10月24日 星期一

神州壬寅對

一朝文武無敢應;

封滬佞臣竟入常。


橫批:亂邦不居


10/24/2022

於 中國 · 雲南 · 騰衝


2022年10月15日 星期六

疫後近三年,中國當下的現狀與展望

2022年下半年、COVID-19病毒流行之後近三年之際,全世界僅存的、還在實行原始的封城等嚴厲的防疫措施的國家:中國的嚴峻現狀已經是舉世皆知,就連長年接受虛假媒體訊息已久的中國大陸境內的人們也幾乎都能親身感受到。

特別是經濟在受到內部的打壓科技業、嚴厲的防疫措施的戕害,以及外部的中美貿易戰、俄烏戰爭等諸多不利因素的影響,明顯的衰退不僅是展現在統計數據上,絕大多數生活在其中的人們已經可以從其自身和周邊的人的收入等方面看清楚這樣的現實。因此,社會上的氛圍也就有別於前些年的積極進取、樂觀向上,瀰漫的是一股消極擺爛、悲觀沉淪的味道。

從它大環境的不利現狀:無能的政治高層、惡劣的國際環境、難救的經濟衰退,就不難預期它令人悲觀的未來:這樣的未來可以用「衰世」來概括。如果說COVID-19病毒流行之前的局面可以類比於清朝的嘉慶年間,現在的話就可以類比於清朝的道光、以至於光緒年間。短短幾年的時間就衰退到今天盡顯亡國之兆的狀況,在歷史上也是少有的。

不難預料的是,無能的會繼續掌大權,國際環境也就會繼續惡化,因而經濟也會繼續低迷不振。在這種循環下,上面的政治勢力誰也壓不了誰、持續鬥來鬥去,任由底下的平頭百姓繼續民不聊生,最終難免退化成三流國家、以至於南美洲的委內瑞拉之類的失敗國家。而這樣的轉變過程不會太長,也許只要三五年的時間。

10/15/2022

於 中國 · 雲南 · 騰衝


2022年5月29日 星期日

一場新時代的政治運動

 2022年上半年的當下,中國大陸艱難的現狀是生活在其中、以至於對它有所關注的人們多能感受得到的。究其原因,簡言之就是一句俗話「將帥無能累死三軍」。

好比個人所觀察的在軍隊裡的狀況:一個單位的領導者決定了其整體的特性,而當領導者同時具有無能、好大喜功的特質時,底下的人就會像無頭蒼蠅一樣、整天忙碌於徒具表面而缺乏實質意義的事務,而其整體也就成了腐朽、低效的官僚單位。因為極權體制的權力缺乏制衡,遇到問題時往往難以自我修正、只能任由問題自然發展而無所作為。

有人把COVID-19病毒肆虐以來的防疫舉措稱作「關門運動」。從四月份至今、超過兩個月的上海封城讓許多人開始感受到類似於政治運動的氛圍:殺雞取卵式的極端防疫措施、荒腔走板的封城亂象,這個國際大都會的種種苦難使得這種全世界獨有的防疫方式漸漸成了國際間所質疑的問題、以至於笑話。當防疫措施的代價遠超過所能達到的目的的同時、權力以防疫的名義被高度地集中,就很難讓人再相信「防疫」這個藉口。當下在這片土地上所發生的諸如此類的一系列事情,或許在不遠的將來也會被冠以「××運動」的稱號。

而今諸多的內憂外患,當中的許多問題其實在近幾年早已陸續浮現,只是貿易戰加劇了這些問題、而COVID-19更進一步把它們推向了難解的深淵。至於未來的路會怎麼走,按照當前這個「××運動」的趨勢看來,或許不至於發展成「文化大革命」式的群眾運動,然而退回到改革開放前那種原始、貧困的狀態恐怕是在所難免的。


05/29/2022

於 中國 · 雲南 · 騰衝