§ 簡介:
以Python自動化工具的形式來實現分析雲南茶葉的產量等指標的關鍵影響因素,並實現簡單的預測。
§ 資料背景
資料集包括最晚到2024年的近50年區間內的中國國家統計局的雲南年度茶葉產量、相關面積、價格等數據,以及最大產區臨滄一帶的美國NCEI年度降水量、氣溫等數據。資料預處理的策略主要是依據個別資料類型是否適合進行平滑處理:針對適合進行平滑處理的類型(例如比較不容易劇烈變化的年平均氣溫)採用中位數填充處理,而針對不適合進行平滑處理的類型(例如比較容易發生劇烈變化的總產量)則採用插值處理。
§ 資料分析
資料分析採用了從1979年到2018年的40年區間內的資料集中的資料(從2019年到2023年的5年區間內的資料集中的資料後續用於比對模型預測的結果)。
1. 相關性分析:
利用皮爾遜(Pearson)相關係數來評估茶葉產量等指標與氣候、面積、價格等潛在影響因素之間的相關性。使用自動化工具進行計算,並呈現為熱圖(heatmap)的形式、以便分析。根據該熱圖,就總產量而言,茶園面積、採收面積是主要的正面影響因素,降雨則是主要的負面影響因素。
2. 因果分析:
結合使用皮爾遜相關係數(用來過濾弱相關性)、格蘭傑因果關係 (Granger causality,用來推測因果關係)和傳遞熵(Transfer Entropy,用來過濾格蘭傑因果關係的推測結果、解決其中的非線性因果關係)來評估茶葉產量等指標與前面分析出的影響因素之間的因果關係。使用自動化工具進行計算,主要參數包括最大延遲(lag)為3,P閾值為0.2,相關性閾值為0.3,並呈現為因果關係鏈的形式、以便分析。
根據該因果關係鏈,就總產量而言,茶園面積、採收面積作為前面分析出的主要正面影響因素有直接的因果關係、因此可視為關鍵影響因素,而降雨作為前面分析出的主要負面影響因素則沒有因果關係。
§ 模型預測
自動化工具導入了整合移動平均自我迴歸(Autoregressive Integrated Moving Average,ARIMA)、 線性迴歸預測(Linear Regression Prediction,LRP)、隨機森林預測(Random Forest Prediction,RPP)、以及長短期記憶(Long Short-Term Memory,LSTM)四種模型來預測茶葉產量等指標的趨勢。根據從1979年到2018年的40年區間內的資料集中的資料來預測其後5年(2019年到2023年)的趨勢,並引入了該5年區間內的資料集中的資料、用來與預測結果相比較。就總產量而言,該四種模型的預測結果中最接近實際數值的是整合移動平均自我迴歸(ARIMA)模型的預測結果,長短期記憶(LSTM)模型的預測結果則比較類似於實際趨勢的模式(即曲線形狀比較類似)。
§ 小結與展望:
1. 茶葉總產量的影響因素的自動分析結果與先前的手動分析結果類似:其隨著茶園面積/採收面積的增加而增長。
2. 氣候、災害的因素(例如降雨、乾旱)根據自動分析結果未如同預期中的有明顯和直接的影響,推測可能是茶園面積/採收面積的急遽增加趨勢(特別是2004年以後)排擠了其他影響因素。
3. 茶葉的生產者物價指數(PPI)根據自動分析結果未如同預期中的受到茶葉產量的明顯影響,推測一方面可能是因為其影響因素較複雜,另一方面可能是由於相關資料較少、缺失較多。
4. 可再引入福建、四川等茶葉產量相當的同級行政區的資料進行橫向的比較分析,或引入季度、月度等較細粒度的資料來進行分析,以進一步確認茶葉產量等指標的關鍵影響因素。
5. 可再改進預測模型、並整合即時氣候,以進一步提升預測的準確性。