首頁 > 文章中心 > 正文

      時間序列挖掘技術

      前言:本站為你精心整理了時間序列挖掘技術范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

      時間序列挖掘技術

      [摘要]數據挖掘技術近年來被廣泛用于時間序列分析,時間序列挖掘技術主要包括關聯分析、序列分析、分類分析、聚類分析和異常檢測等五類。由于金融領域的時間序列具有一些重要的特征,因此將各種挖掘方法與金融時間序列的特征,以及各種傳統的時間序列分析模型相結合,是目前金融時間序列挖掘領域的研究熱點。

      [關鍵詞]時間序列;金融;數據挖掘

      一、引言

      在金融領域,時間序列是一種重要的數據類型,對時間序列的分析是金融數據分析的一個重要內容。作為數理統計學的一個分支,時間序列分析自1960年代起就已經得到了廣泛的研究。傳統的金融時間序列分析方法主要包括基本分析、技術分析以及各種數理統計學方法等。隨著近年來數據規模的不斷增長以及分析任務的日益復雜,數據挖掘技術開始被運用到金融時間序列的分析中。

      所謂數據挖掘是指從大規模的數據中抽取隱含、未知、有潛在使用價值的規則的過程。作為一門交叉學科,數據挖掘集成了許多學科中成熟的工具和技術,包括數據庫技術、統計學、機器學習以及人工智能等。廣義地說,所有從海量數據中發現新的規律的方法都可以統稱為數據挖掘技術。

      本文在對傳統的金融時間序列分析方法進行簡單回顧的基礎上,對當前主要的金融時間序列挖掘技術進行綜述,并指出相關方法的優缺點和需要進一步研究的問題,為該領域的進一步研究提供基礎。

      二、金融時間序列傳統分析方法

      基本分析與技術分析是最常見的分析方法,主要用于證券與期貨市場中的時間序列分析。基本分析主要通過對影響證券市場供求關系的基本因素進行分析,從而判斷股票價格的走勢。技術分析則通過對歷史數據進行一些簡單的計算,得到相關的技術指標和圖表,從而判斷序列未來的變化趨勢。

      另一類主要的金融時間序列分析方法是數理統計方法,這類方法主要包括各種統計特征的檢驗分析、相關分析、線性/非線性回歸分析、自回歸移動平均(ARMA)分析以及分形分析等,此外,各種多元分析方法也被廣泛用于金融時間序列分析,如判別分析、主成分分析以及因子分析等。限于篇幅,本文不再詳細討論這些方法。

      三、時間序列挖掘方法

      近年來數據挖掘技術在時間序列分析領域開始得到廣泛的研究與應用,已有大量的文獻提出了各種時間序列挖掘算法。需要指出的是,雖然這些文獻本質上屬于對通用的基礎算法進行研究,并不是專門針對金融領域的時間序列,然而其中許多方法都是以金融時間序列為例,來說明算法的有效性、準確度或性能,因此這些算法也在金融領域得到了應用。時間序列挖掘方法主要包括以下幾個方面。

      1.關聯分析與序列分析

      關聯分析與序列分析的目的都是發現數據間的各種相關聯系,不同的是,關聯分析用于發現同一時間段內的各種聯系,而序列分析用于發現在時間上具有先后關系的聯系。

      使用關聯與序列分析方法,能夠發現同一序列的前后變化或不同序列變化間的復雜關系。由于傳統的關聯與序列挖掘算法主要適用于符號型數據,因此在對數值型金融時間序列進行關聯與序列分析時一般需要先對序列進行符號化。將序列劃分為多個子序列,根據子序列的形狀進行聚類并符號化,在此基礎上采用序列挖掘算法發現符號間的規則。多個股票在不同時段的漲跌關系轉換為具有雙時間維約束的關聯規則模型,并提出相關的挖掘算法,用于挖掘“當某幾種資產的收益率變動超過一定幅度時,哪些資產會在同時(或間隔一段時間后)有同樣(或相反)的表現”這類復雜的規則。一種基于“重要點”的方法將時間序列逐段符號化,并提出了一種基于互關聯后繼樹模型的時間序列關聯規則發現算法。

      2.相似性查找

      相似性查找是時間序列挖掘領域的一個重要研究方向。所謂相似性查找是指對于給定的目標序列Q,根據某種相似性度量函數,尋找與Q最相似的序列Qk。時間序列的相似性查找分為全序列匹配和子序列匹配兩大類,全序列匹配是指所查找的序列與目標序列Q具有相同的長度;子序列匹配則是指在一個更長的序列中,尋找與目標序列Q相似的所有子序列。相似性查找在金融領域典型的應用是,根據圖形上的相似性,尋找與某種資產的價格(或收益率)變動情況比較接近的其他資產。

      由于金融時間序列一般都跨越較長的時間段,理論上甚至具有無限長度,因此這類數據都表現出高維甚至是超高維的特征。由于大多數相似性度量函數(如歐氏距離函數)在處理高維數據時性能都急劇下降,因此對于這類數據,一般先采用某種方法對序列進行維約簡,即將原始序列變換到低維空間,在此基礎上再比較序列間的相似性。常見的時間序列維約簡方法包括離散傅立葉變換、離散小波變換、逐段線性描述等。除了維約簡方法,相似性度量函數也是這一問題的研究熱點。

      3.聚類分析

      聚類分析的目的是把整個目標數據分成多個不同的簇,使得每個簇中的數據盡可能相似,而不同簇中的數據具有明顯的差別。在金融領域,聚類分析對于板塊研究、投資組合模型的構建以及客戶交易模式研究等都有著重要的意義。

      由于時間序列的聚類分析同樣需要進行序列間的相似性度量,因此與相似性查找類似,在聚類分析之前一般先對序列進行維約簡。使用離散傅立葉變換對序列進行維約簡,在此基礎上使用歐氏距離進行聚類,與此類似,研究了基于離散小波變換和主成分分析的時間序列維約簡以及聚類,對基于線性模型的聚類方法進行了研究。

      研究了基于隱馬爾可夫模型(HMM)的時間序列聚類,將HMM和期望最大方法相結合,從而提高了聚類結果的準確性。針對由于時間序列中經常存在異常數據,提出將原始序列根據中位數轉化為二元時間序列,在此基礎上進行聚類,從而減少異常數據的影響。試驗結果表明,當序列中存在異常數據時,該方法能夠有效地提高聚類結果的準確性。

      4.分割與逐段描述

      時間序列的分割與逐段描述是指對長度為n的序列Q,將其分為k段(k<<n),對各段分別使用某種模型進行描述并記為Q′,使得Q′與Q非常接近。對時間序列進行分割與逐段描述的主要原因有兩個方面:第一,時間序列往往跨越較長的時間段,某些序列在理論上甚至具有無限長度,在此期間數據的許多特征都可能發生變化,對這樣的數據用一個單一的模型來描述是不合適的;第二,時間序列在演化的過程中,由于受到各種因素的影響,往往具有復雜的局部特征,使用一些簡單的模型(如線性模型)對序列進行逐段描述,丟棄一些細節變化信息,對于某些挖掘任務來說更合適。

      由于金融時間序列經常受到眾多非線性因素的影響,并且隨著時間的推移,各種因素的影響效果也不斷變化,因此金融時間序列往往呈現出復雜多變的形態特征。對金融時間序列進行分割并逐段描述,對許多挖掘任務而言更有意義。最常用的時間序列分割方法是使用線性模型對序列進行分割與逐段描述,稱為逐段線性描述,對這類分割方法進行了詳細的介紹。一種基于隱馬爾可夫模型的聯機時間序列分割算法,根據概率密度函數的變化對序列進行分割。

      5.異常檢測

      異常檢測是時間序列挖掘中的一個重要方面。所謂異常是指數據集中明顯與眾不同的數據,使人懷疑這些數據是由不同的機制產生的,而非隨機偏差。異常檢測最先在統計學領域得到研究,這些方法通常將數據用某個假定的統計分布進行建模,然后根據假定的模型和數據的實際分布來確定異常。由于通常無法準確地確定實際數據的分布形式,并且現實數據往往并不符合任何一種理想的數學分布,因此統計異常檢測方法具有相當大的局限性。在時間序列挖掘領域,序列異常的概念,即當掃描序列時,如果某個數據點明顯不同于其前面的序列,這樣的點就被認為是異常數據。由于序列異常在概念上存在一定的缺陷,因此該方法容易遺漏真正的異常數據。使用柱狀圖方法來發現異常數據,如果將某個數據從序列中移去,單獨用一個桶存放,能夠減少整體柱狀圖的誤差,則該數據被認為是異常。一種兩階段支持向量回歸的算法,用于檢測金融時間序列中的異常數據,以避免異常數據對預測精度產生影響。

      四、混合挖掘方法

      近年來金融時間序列分析領域出現一種新的趨勢,即將各種時間序列挖掘技術與傳統分析方法和模型相結合,我們將這些方法稱為混合挖掘方法。與第三節中的時間序列挖掘方法不同,這類方法大多針對于金融領域某個特定的分析任務,或者基于金融時間序列的某些特征,因此更具有針對性,

      當前的時間序列聚類方法分為基于原始數據、基于特征量以及基于模型的聚類三類。其中后兩類均屬于混合挖掘方法。一種基于ARMA模型的時間序列相似性度量和聚類算法,該方法使用ARMA模型對序列進行建模,并且將模型的系數轉換為線性預測編碼倒譜系數(LPCC)。在此基礎上,對LPCC使用歐氏距離判斷兩個序列的相似程度并進行聚類。對同一個序列使用多個ARMA模型建模,以便更準確地捕獲數據的各項特征。結合期望最大方法,鑒于ARMA模型在金融時間序列分析中已經得到廣泛應用,上述方法在金融領域有著重要的意義。

      一種新的時間序列趨勢變動分析方法,該方法將傳統的時間序列趨勢分析與文本挖掘技術相結合,分析證券市場中的各種新聞信息與股票數據趨勢變動之間的關系,從而通過分析相關的新聞來預測股票數據的變動方向。與此類似,研究了外匯市場中的相關新聞對匯率波動的影響,從而根據這些新聞進行匯率的短期預測。

      此外,大多數基于逐段線性描述的時間序列分割方法都使用了線性回歸模型的相關特性。一個常用于描述金融資產波動性的技術分析指標——布歷加信道與逐段線性描述方法相結合,用于對金融時間序列進行聯機分割,在此基礎上進行相似性查找以及資產價格變動的趨勢預測。

      五、對上述方法的評述

      基本分析與技術分析方法主要用于證券與期貨市場中的時間序列分析,這兩種分析方法雖然計算簡單并且易于使用,但是無法用于進一步分析數據中隱藏的其他規律和各種復雜的統計特征。

      數理統計方法是目前金融時間序列分析中最重要的方法。但是隨著數據量的不斷增加(如金融領域中的高頻和超高頻數據),這些方法在分析能力方面存在一定的缺陷。各種統計分析方法的一個主要問題在于,其無法有效地處理具有較大規模的數據集。此外數理統計分析方法也不適合用于從大量的數據中主動地發現各種潛在的規則。

      雖然近年來出現了大量的時間序列挖掘方法,然而將這些方法直接用于分析金融時間序列仍然存在一些不足。其中一個主要的原因在于不同領域的時間序列往往具有不同的特征。例如金融領域的時間序列一般不具有典型的周期性,而這一特征在商業或氣象領域的時間序列中則非常明顯。近年來時間序列挖掘領域的主要研究成果做了一個詳細的介紹,并對這些挖掘方法使用大量新的數據集進行了重新檢驗。作者發現隨著測試數據集的不同,這些方法的有效性、性能以及準確度等都會得到迥異的實驗結果,有些方法針對某些數據集甚至根本無法使用。實驗結果說明,對于來自不同領域、具有完全不同特征的時間序列,提出一種普適的挖掘方法是困難的。

      我們認為金融時間序列挖掘技術未來的主要發展方向是混合挖掘技術,這里的“混合”主要包括以下兩個方面的內容:一方面,各種新的數據挖掘算法必須考慮到金融時間序列所具有的主要特征,即根據序列的特征研究相關挖掘算法,基于特征分析的金融時間序列挖掘進行了詳細研究;另一方面,新的數據挖掘算法應與傳統分析方法和統計模型進一步結合,并針對金融領域的特定分析任務,從而保證分析與挖掘工作的有效性。事實上,傳統的數理統計分析方法與模型大多基于嚴格的統計數學和相關的金融分析理論,在金融時間序列分析中發揮著不可替代的作用。數據挖掘技術則為在海量的金融數據中快速、自動、智能化地發現各種潛在的、有價值的規律提供了新的支持。這些方法的結合,將使得金融時間序列分析領域具有更廣闊的應用前景。

      六、進一步研究的問題

      雖然金融時間序列挖掘技術得到了廣泛的研究,但是仍然存在一些有待于進一步研究的問題。一方面,金融領域的某些分析任務或數據特征具有一定的特殊性,需要開發新的數據挖掘算法進行支持。另一方面,各種時間序列挖掘技術在金融領域的應用層次也有待于進一步深入,例如現有的關聯分析與序列分析技術,大多側重于發現序列中大量IP-THEN形式的規則以及這些規則的可信度。然而如何利用這些規則,并根據投資者的風險偏好以及資本金規模等相關特征,為其提供個性化的投資與理財方案,則需要將數據挖掘與相關的決策優化技術相結合。

      此外,目前金融時間序列挖掘領域主要關注的是單變量時間序列,對多變量時間序列挖掘的研究則非常少,在金融領域經常使用多個變量描述一種現象或狀態,例如描述股票交易情況的變量一般包括交易價格、成交量以及換手率等,并且與單變量時間序列相比,多變量金融時間序列將會具有一些新的特征(比如協整性等)。如何根據這些新的特征,將各種數據挖掘技術與相關的多變量統計模型(如向量自回歸模型等)相結合,從而實現對多變量金融時間序列的有效挖掘,這是一個重要的研究方向。

      亚洲国产小视频精品久久久三级 | 亚洲国产成人久久精品软件| 亚洲AV日韩精品久久久久久久| 亚洲综合AV在线在线播放| 午夜亚洲乱码伦小说区69堂| 亚洲a∨国产av综合av下载 | 亚洲精品动漫免费二区| 亚洲字幕AV一区二区三区四区| 国产午夜亚洲精品| 亚洲国产高清国产拍精品| 亚洲AV无码之国产精品| 国产亚洲视频在线观看| 亚洲不卡无码av中文字幕| 小说区亚洲自拍另类| 亚洲不卡AV影片在线播放| jlzzjlzz亚洲乱熟在线播放| 亚洲片国产一区一级在线观看| 国产日产亚洲系列最新| 亚洲精品国产字幕久久不卡 | 亚洲午夜无码久久| 亚洲AV无码国产剧情| 五月婷婷亚洲综合| 亚洲国产成人久久精品99| 国产亚洲日韩在线三区| 亚洲av无码不卡| 亚洲综合久久久久久中文字幕| 亚洲1234区乱码| 亚洲成a∨人片在无码2023 | 亚洲成a人无码av波多野按摩| 亚洲午夜国产片在线观看| 亚洲午夜久久久影院| 亚洲成年轻人电影网站www| 亚洲美女在线观看播放| 亚洲一区精彩视频| 激情婷婷成人亚洲综合| 在线观看亚洲天天一三视| 亚洲AV无码码潮喷在线观看| 亚洲欧洲精品一区二区三区| 亚洲 日韩经典 中文字幕| 国产成人亚洲午夜电影| 亚洲日韩精品A∨片无码|