前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數據挖掘技術研究范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:Web應用;數據挖掘技術;互聯網;研究
中圖分類號:TP393.09
隨著互聯網的產生,其網絡上各種不同服務也正在快速產生而得到發展,很多公司急切需要通過利用互聯網巨大的信息源對客戶行為進行分析,搜尋最佳商機。Web數據挖掘技術就是從該種商業角度進行考慮,它是在二十世紀八十年代末的時候被研發出來,該數據挖掘技術是在Web網絡原有的基礎上納入挖掘數據的方法與思想。在Web網絡中通過該方法解決遇到出現的問題,以此形成Web的數據挖掘,基于Web網絡的數據挖掘,它是數據挖掘中的一個全新的研究領域與方向,能夠滿足對未來電子商務的發展趨勢的需求。
1 Web數據庫及數據挖掘的特點
在對大量的網絡信息進行認真分析研究的基礎上,我們才可以進行Web數據的挖掘活動,在這個過程中一定要注意使用最佳的方式來進行,在具體的模式可使用過程中,必須要進行數據信息的提煉、信息選擇、信息調整、數據挖掘和模式分析,然后再進行歸納總結,對使用者的習慣以及細化哦進行推測,以實現合理地信息數據管理,將可能存在的安全性問題的發現進行防御。Web數據挖掘所包含的內容及其寬泛,除了對信息數據進行的處理,還涉及計算機胡網絡、數據庫與數據倉儲、人工智能、信息檢索、可視化、自然語言理解等多方面的內容。
從海量的信息中找到一個有意思的模式就是信息數據的挖掘,這些數據可以存放在數據庫、數據倉庫或其它信息存儲中,從學科方面來說它已經具有了跨學科的性質,比方說數據庫體系、信息儲備中心、統計、機器學習、數據可視化、信息提取和高性能計算。
2 Web數據挖掘技術的概念與類型
所謂的Web數據挖掘技術,它是在挖掘數據技術的基礎之上,針對網絡數據中的服務日志文件與Web文檔進行分析數據、歸納與匯總,并且在當中發掘與索取有用潛在的知識及信息的技術。應用Web挖掘技術能夠發現更多的隱藏信息資源或者其他潛在的有趣應用模式,同時在信息過濾技術的協助下使客戶獲取層次更高的知識和規律。按照有關技術原理,可把Web數據挖掘技術分如下幾大類:
2.1 Web的結構挖掘
結構挖掘是指在Web挖掘中運用Web構造組織之間的鏈接關聯,從而對網頁系統里具有實用價值的形式進行計算。在海量的Web超鏈接數據中,為Web網頁面創造出足夠的合適的數據信息資料,它可以對文檔當中的引用、從屬及包含關系聚集地反映出來,同時經由對Web文檔當中信息資料體系進行分析,能夠有效地處理掉存在的任何問題,以有便于搜尋到權威性的網頁面。
在Web結構挖掘范圍內,HITS和PageRank算法是應用最多的算法,這兩個方面都是通過固定的計算手段進行測算的,在這種情況下可以對網頁超鏈接的質量進行有效保護,比方說:在百度中搜索方式的使用可以提高計算水平。
2.2 Web的內容挖掘
內容挖掘主要是在Web挖掘中搜集有利的Web資源信息(例如:內容、數據及文檔等)。Web包括許多不同種類的資源信息,現在絕大部分網絡資源信息基本上均都是從www資源信息當中獲得,這除了這些可以個體可以直接檢索得到并加以使用達到目標的信息資源以外,還有一些信息數據是通過加密的普通個體是無法檢索得到的,要向獲得這些信息數據必須對其采取Web挖掘的手段來進行。
2.3 Web的使用挖掘
使用挖掘是在Web挖掘中實施挖掘網頁面中的對應站點信息數據與日志文件,從而去對相應的站點進行有效地訪問。這是因為在網頁面的信息訪問中,質量具有很重要的作用、復雜的信息,而每個資源信息在服務器的上面,都存在一個形式化的日志訪問頁面,當用戶提出了訪問頁面的要求以后,訪問服務器會自覺地將所需的數據進行記錄。因此對Web不同的使用的日志訪問進行分析,有助于掌控Web結構與客戶的動態行為,更加有利于使網站的工作效率得到有效提升。
3 數據挖掘工作流程
3.1 定義問題
先對信息挖掘體系的主要目的進行評論,明確其具備的具體價值以及將會帶來的實際效果進行分析。
3.2 形成數據挖掘庫
對于數據挖掘來說數據挖掘體系是最重要的一個關鍵點,我們可以通過相關信息資料的搜集來證實,對數據體系的行程內容進行研究,生成“數據表述報告”,將信息資料庫中所有的信息進行合理地整合,把來自不同數據源的數據并到同一個數據庫中,讓沖突的以及不一致的數據統一化。建好數據挖掘庫以后應該安排專門的人員對它進行定期的檢查管理,防止任何安全隱患的存在,在對它的安全性進行維護的過程中,需要定期備份,監視它的性能,還需要根據實際的需要不斷地擴大它的存放空間,對那些專門用來存放復雜數據的系統中心,必須要將這項工作交給專業的工作人員來完成。
3.3 清理分析數據挖掘庫
不正確的信息數據都是廣泛地存在的,所以說對于很大的信息數據儲存中心來說保證數據的正確性。所以,一定要采取有效的措施對其進行合理的管理,將數據保存與使用中可能會出現的機械性錯誤率降到最低,處理好模型與整個數據體系的完整性。
3.4 探索分析數據挖掘庫
這樣做主要是為了對信息數據的模型進行管理。主要包括選擇變量、選擇記錄、創建新變量、轉換變量、探索分析。
3.5 創立數據挖掘模型
做好這項工作對于信息數據的高效保存有很重要的作用,為了讓模型更加合理,具有正確性與穩定性,我們必須要從宏觀上來對這個模型所需的材料進行處理,讓模型能為后續的數據保存工作提供一個依據與參考標準。
4 基于Web的數據挖掘應用
4.1 數據控掘在高校教學中的應用
使用該種體系有利于對學生學習生活的實際狀況進行客觀有效地分析,掌握學生的實際學習狀況,為教師的教學活動提供詳細的信息,提高教學效率的同時提高學生的學習效率,幫助學生在最短的時間內提高學習成績;端正學生的學習態度,提高學習方法。
4.2 數據控掘在電子商冬中的應用
對于現代市場營銷來說,網絡方式引進就是其信息化的最有利的證明,隨著我們的商務活動的不斷完善,網絡營銷將會成為營銷業的全新發展趨勢。因此我們可以看到,將這一技術充分地應用到電子商務活動中,能夠幫助企業進行客觀的市場發展狀況的分析,確定有效的發展目標,找到最佳發展方式。
5 結束語
總而言之,Web數據挖掘技術的應用有利于企業編制具有遠見性的營銷戰略,促使企業可以在市場激烈競爭中掌控更加有利的發展時機。隨著迅速發展的電子商務,Web數據挖掘技術在未來的發展空間將變得更加廣闊及前途無量。
參考文獻:
[1]柴文光,周寧.網絡信息安全防范與Web數據挖掘技術的整合研究[J].情報理論與實踐,2009(03):97-101.
[2]范建中,王福慶.基于Web的數據挖掘技術研究與應用[J].電腦編程技巧與維護,2009(12):32-33+42.
[3]居曉琴,周學全.Web數據挖掘技術探索與應用[J].山東紡織經濟,2009(06):144-147.
關鍵詞:數據挖掘;數據庫;預處理技術
中圖分類號:TP311.131
隨著計算機和互聯網的普及應用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業甚至在計算機應用的基礎上,提出了無紙化辦公的理念,在實際應用的過程中,計算機需要存儲大量的數據,對于企業用戶來說,很多數據具有私密性,如果這些數據泄露出去,將會給企業的發展帶來嚴重的影響,甚至造成巨大的經濟損失。受到特殊的歷史因素影響,我國的經濟和科技起步較晚,與西方發達國家相比,存在較大的差距,雖然經過了多年改革開放的發展,我國已經成為了世界第二大經濟體,計算機的應用水平也有了很大的提高,但是在尖端的數據挖掘等領域中,研究的還比較少,而數據挖掘等技術,能夠在很大程度上影響數據的利用效率,對于實際的工作來說,具有非常重要的作用。
1 數據挖掘的預處理技術簡析
1.1 數據挖掘預處理技術的概念
數據挖掘技術是隨著數據庫的發展,逐漸形成的一門學科,在計算機出現的早期,受到其性能和體積的限制,能夠存儲的數據很少,不需要考慮數據的利用效率,但是隨著晶體管和集成電路的使用,計算機的性能得到了極大的提高,相應的存儲設備也有了很大的進步,計算機能夠處理的任務越來越復雜,存儲的數據越來越多,現在我國建成了多個大型數據存儲中心,存儲的數據量非常巨大。對于如此多的數據,如何篩選出自己想要的,成為了很大專家和學者研究的問題,在傳統的數據應用中,通常都是利用檢索技術,根據輸入的關鍵詞,在數據庫中進行逐個的匹配,如果數據庫的存儲量較小,檢索的效率就比較高,而對于現在的海量存儲來說,逐個匹配顯然需要很長的等待時間。數據挖掘的預處理技術,正是在這種背景下出現的,所謂預處理技術,就是在數據挖掘之前,對數據進行一定的整理,通常情況下,數據挖掘主要面對現有的數據庫或者互聯網上海量的數據,如果在數據庫中進行挖掘,那么可以對數據庫進行一定的修改,如完善數據分類的方式等,而在互聯網上進行數據挖掘,顯然就需要優化挖掘的方式,或者縮小數據挖掘的范圍等。
1.2 數據挖掘預處理技術的特點
與正常的數據挖掘技術相比,如何增加相應的預處理環節,無疑可以極大的提高數據挖掘的效率,如在數據庫中進行數據的挖掘,傳統的挖掘方式下,通常都是利用檢索技術,輸入指定的關鍵詞后,與數據庫中的信息進行對比,這樣逐條的進行檢索,就可以找到自己想要的數據,如果數據庫存儲的信息量較大,那么利用這樣的挖掘方式,顯然需要很長的等待時間。如果增加相應的預處理環節,如在數據庫中添加索引,對數據庫中的數據進行分類,那么在輸入相應的關鍵詞后,首先與索引進行匹配,然后在指定類別的數據中進行對比,這樣的方式,顯然極大的提高了數據挖掘的效率,目前使用的數據庫中,大多采用了這樣的預處理技術,取得了很好的應用效果。受到特殊歷史因素的影響,我國數據庫相關技術水平較低,目前我國建設的大型數據庫,都是與國外的技術公司合建的,通過實際的調查發現,現在我國還無法自主生產外部存儲設備,市面上的存儲設備,都是從外國引進的,但是在實際數據庫的建設中,在外國存儲設備的基礎上,我國也進行了大量數據挖掘等技術的研究。
1.3 數據挖掘預處理技術的發展
從某種意義上來說,數據挖掘技術是隨著互聯網和數據庫的應用,根據實際使用的需要,逐漸形成的一門技術,在互聯網發展的初期,網絡上的資源有限,而且受到計算機性能的限制,沒有太多的娛樂項目,只能瀏覽一些商業網站等,隨著計算機的普及應用,互聯網有了很大的發展,現在已經建成了覆蓋世界范圍的因特網。據最新的統計調查表明,我國的網民數量已經超過了6億,如果龐大的用戶群體,為我國互聯網的發展,提供了堅實的基礎,但是通過實際的調查發現,我國的實際網絡帶寬,還沒有達到世界平均水平,即使實際使用的網絡帶寬較低,我國互聯網內容的發展速度依然很快,現在網絡上出現了各種各樣的網站,極大的提高了網絡建設水平。在實際的網絡瀏覽中,面對如此大的信息量,如何找到自己想要的信息,成為了一個實際問題,為了解決這個問題,出現了搜索引擎,只要輸入相應的關鍵詞,搜索引擎就可以很快的找到大量相關內容,然后進行必要的篩選,就能夠得到相應的數據,但是隨著互聯網內容的豐富,除了傳統的文字信息外,還有視頻和音頻等數據,如何在這些數據中,進行相應的挖掘工作,具有較大的難度。
2 影響數據挖掘預處理技術的因素
2.1 預處理的方式
在實際的數據挖掘過程中,能夠影響挖掘效果的因素有很多,如數據量的大小、挖掘方式等,從某種意義上來說,數據挖掘就是數據的查找,從指定范圍或者未知范圍內,找到指定的數據,通常情況下,數據挖掘都具有很強的目的性,但是對于找到數據的量,并沒有明確的要求,尤其是隨著互聯網內容的增加,現在的數據挖掘中,都會附帶大量的相關信息。對于數據挖掘的預處理技術來說,預處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個一百條數據庫中進行挖掘,為了提高實際的效率,通常情況下會采用檢索的方式,根據輸入的關鍵詞,逐條的與數據庫的信息進行比對,這樣挖掘的效率具有很大的不確定性,如果要查找的數據排列比較考前,那么就需要很短的檢索時間,如果要查找的數據剛好在第一百條的位置,顯然就需要進行一百次匹配。如果采用索引的方式進行預處理,將這一百條數據根據自身的特點,分成十個類別,每個類別建立一個索引,那么在實際的匹配中,無論要查找的數據處于哪個位置,最多只需要十次匹配,就可以找到相應的數據,由此可以看出,預處理方式對于數據挖掘效率具有非常重要的影響。
2.2 數據量的大小
計算機經過了多年的發展,其自身的性能有了很大的提高,在實際的數據挖掘中,如果檢索的數據較少,即使不經過任何的預處理,仍然可以具有很高的挖掘效率,但是隨著數據庫自身的發展,企業用戶的數據庫容量越來越大,在數據庫中查找指定的數據,需要較長的時間,要想很好的解決這個問題,必須對數據挖掘的方式等,進行相應的優化。通過實際的調查發現,目前我國使用的數據庫,大多都是國外的技術公司設計的,為了方便數據庫的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問題,同時可以提供優質的軟件服務。目前市面上的數據庫,大多對數據挖掘技術進行一定的優化,如增加索引環節等,通過這些技術的使用,很好的提高了實際的挖掘效率,但是這些預處理技術,并沒有考慮到數據量的大小,如一些大型的數據庫中,要想建立索引機制,本身就需要很長的時間,雖然在建立索引后,就可以直接的使用,即使數據庫中發生變化,也不需要重新建立,只要根據數據的情況,將其存儲到指定的分類中即可。
2.3 操作人員自身的素質
對于實際的數據挖掘工作來說,操作人員自身的素質,也可以在很大程度上影響挖掘的效率,經過了多年的完善,數據挖掘技術已經成為了一門單獨的學科,計算機專業的學生,要進行相應知識的學習,但是通過實際的調查發現,現在的數據挖掘主要針對互聯網上的內容,而互聯網日新月異的發展,給數據挖掘帶來了很大的難度。在這種背景下,如果沒有足夠的工作經驗,顯然很難完成相應的數據挖掘工作,因此剛畢業的大學生,數據挖掘的效果較差,即使能夠完成相應的工作,也需要較長的時間,雖然這些學生在學校中,能夠學習到大量的數據挖掘知識,為了提高教學的效果,老師還會講解一些數據挖掘的實例,但是實際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數據挖掘經驗,在實際的工作中,必然會總結一些相應的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時間,提高數據挖掘的準確性,對于數據挖掘工作來說,具有非常重要的作用,從某種意義上來說,數據挖掘的預處理技術,指的就是這些從實踐中總結出來的技巧,然后進行科學、系統的分析,應用到實際的挖掘中。
3 我國數據挖掘預處理技術應用中存在的問題
3.1 沒有意識到預處理技術的重要性
在傳統的數據挖掘中,由于數據庫自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數據,因此不需要預處理技術,隨著數據庫自身的發展,計算機的性能也有了很大的提高,在很長一段時間內,硬件的發展速度都要領先于軟件,因此數據檢索具有很高的效率,近些年互聯網的普及應用,在很大程度上改變了這種現象,尤其是云計算等理念的出現。在互聯網海量數據中進行挖掘,依靠單獨的計算機,很難具有較高的效率,在這種背景下,如何優化數據挖掘技術,成為了很多專家和學者研究的問題,預處理技術就是根據實際工作的需要出現的,受到特殊的歷史因素影響,在數據庫的建設等方面,我國要落后西方國家很多,雖然近年來我國投入了大量的人力和物力,研究數據挖掘等技術,但是并沒有取得明顯的效果。正是受到自身技術水平的限制,使得我國數據建設中,對數據挖掘的預處理技術,沒有足夠的重視,導致很大數據庫中,還采用傳統的檢索等方式,沒有任何的預處理技術,在很大程度上影響了數據挖掘的效率,雖然一些數據庫中集成了相應的功能,但是通過實際的調查發現,在實際使用的過程中,并沒有啟用相應的功能。
3.2 沒有針對性的預處理方式
由于現在的數據挖掘,主要針對互聯網上海量的數據,而互聯網上的數據非常復雜,尤其是近些年網絡的發展,出現了文本、視頻、音頻等各種各樣的信息,在這些信息中進行數據的挖掘,顯然具有較大的難度,而且互聯網的數據量較大,即使借助相應的搜索引擎,依然需要很長的挖掘時間,對于現在使用的一些數據挖掘預處理技術,只有在一些特定的情況下,才能夠發揮出一定的作用。數據挖掘預處理技術出現的時間較短,目前還沒有形成統一的認識,不同學者根據實際工作的需要,提出了不同的預處理方式,通過實際的調查發現,這些預處理方式的應用,都具有一定的局限性,在特定的數據挖掘中,可以明顯的提高挖掘的效率,但是對于其他數據的挖掘,就無法起到相應的作用。受到我國數據挖掘技術水平的限制,并沒有意識到這點,在實際數據挖掘的工作中,通常都是隨意的采用預處理方式,這樣顯然無法最大成都上提高數據挖掘的效率,有時候反而會降低工作的效率,目前西方發達國家的數據挖掘預處理中,都會根據每次工作的實際情況,針對性的設計一個預處理的方式。
4 數據挖掘的預處理技術應用措施
4.1 重視數據挖掘的預處理技術
考慮到我國的數據庫建設中,很多都沒有采用相應的預處理技術,在很大程度上影響了數據挖掘的效率,要想很好的解決這個問題,必須對預處理技術給予足夠的重視,在數據庫的設計時,就對預處理的方式等進行考慮,如果是購買的數據庫服務,那么就要根據自身的實際情況,對預處理技術提供一定的要求,這樣可以極大的提高挖掘的效率。通過實際的調查發現,西方國家的預處理技術水平之所以比較高,主要就是由于其重視,在實際的挖掘工作中,對于能夠提高工作效率的所有細節進行完善,并總結相關的經驗,方便下次的使用,正是這種供求雙方的重視,使得西方發達國家的預處理技術快速的發展。我國要想提高自身的數據挖掘預處理技術,必須根據自身的實際情況,借鑒外國一些先進的經驗,最大程度上完善預處理技術,要想達到這個目的,首先應該提高對預處理技術的重視程度,無論是實際的操作人員,還是管理人員和開發人員,都應該重視預處理技術的應用,然后從自身的工作角度出發,對其進行一定的完善。
4.2 提高工作人員自身的素質
數據挖掘預處理技術的應用,需要實際的操作人員,而不同工作人員,由于自身經驗等不同,工作的效率會有一定的差距,如剛畢業的大學生,即使在學校中的成績較好,掌握了足夠的預處理知識,還是無法很好的完成相應的工作,尤其是近些年信息技術的發展,互聯網上海量數據的挖掘,具有很大的難度。而且不同數據的挖掘,預處理方式等也應該具有一定的差異,通過實際的調查發現,目前我國的數據挖掘工作人員自身的素質普遍較低,無法根據實際的工作情況,針對性的選擇一種預處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個問題,必須提高工作人員自身的素質,在實際的招聘過程中,盡量聘請一些具有豐富經驗的人員。對于現有的工作人員,可以通過定期培訓等方式,讓其了解到最新的數據挖掘理念,以及預處理技術的重要性等,如果條件允許,還可以與一些先進的企業進行交流,學習先進的預處理技術,這樣在提高預處理技術水平的同時,還可以對數據庫的其他的技術,進行一定的優化。
4.3 采用針對性的預處理方式
經過了多年的發展和完善,數據挖掘的預處理技術已經非常普遍,目前的很大數據庫建設中,都會采用預處理技術,甚至在日常的數據搜索中,也開始使用預處理技術,但是通過實際的調查發現,根據實際需要數據的不同,數據挖掘的環境、方式等會具有較大的差異,而這些條件的變化,必然需要不同的預處理方式。而目前我國的數據挖掘中,顯然還沒有意識到這點,為了提高實際的工作效率,雖然會采用一定的預處理方式,但是預處理的方式,并不會根據數據挖掘的不同,進行針對性的變化,沒有真正的達到預處理的目的,在一些特殊的數據挖掘中,由于預處理方式的不當,甚至會降低工作的效率。由此可以看出,在實際的數據挖掘中,預處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對性的預處理方式,對目前已有的預處理方式進行總結、分類,根據需要數據的情況,針對性的選擇,如果人員的自身素質較高,還可以設計一個新的預處理方式,以此來最大程度上提高數據挖掘的效率。
5 結束語
通過全文的分析可以知道,隨著近些年計算機和互聯網的普及應用,數據的挖掘、存儲、調用等技術越來越重要,受到特殊的歷史因素影響,我國科技起步較晚,與西方發達國家相比,在數據挖掘等領域中,具有明顯的差異,雖然經過了多年改革開放的發展,這種差距在逐漸的減小,但是很難在短時間內趕上發達國家的技術水平,在這種背景下,要想快速的提高我國數據挖掘預處理技術,必須結合我國數據挖掘的實際情況,借鑒西方國家先進的經驗,完善目前的預處理技術。
參考文獻:
[1]鄭繼剛,謝芳.多媒體圖像挖掘的關聯規則挖掘[J].紅河學院學報,2009(05):44-47.
[2]謝邦昌,李揚.數據挖掘與商業智能的現況及未來發展[J].統計與信息論壇,2008(05):94-96.
[3]林建勤.數據挖掘主要問題的對策研究[J].貴陽學院學報(自然科學版),2007(02):1-4.
[4]陳娜.數據挖掘技術的研究現狀及發展方向[J].電腦與信息技術,2006(01):46-49.
[5]李菁菁,邵培基,黃亦瀟.數據挖掘在中國的現狀和發展研究[J].管理工程學報,2004(03):10-15.
[6]鄭斌祥,杜秀華,席裕庚.一種時序數據的離群數據挖掘新算法[J].控制與決策,2002(03):324-327.
[7]臧洌.人工神經網絡在混沌觀測時序數據處理中的應用[J].數據采集與處理,2001(04):486-489.
關鍵詞:數據挖掘;計算智能;應用領域
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0016-03
數據挖掘技術在當前是人工智能和數據庫研究的熱點問題,它是一門涉及面比較廣的學科,應用范圍非常廣泛。通常大家都比較清楚的是,人們可以用數據庫進行數據的存儲,還能夠借助計算機等工具進行數據的分析以及從大量數據中搜尋有用的知識,正是基于二者的結合才促成了數據挖掘技術的誕生。在當前日益激增的信息量中,傳統的搜索技術顯然不能滿足,通過數據挖掘技術,在海量的數據庫中提取有用的信息,以供人們使用,更加符合現實的需求。此外,數據挖掘技術能夠被廣泛應用于銷售、金融等多個領域,極大地推動了信息技術的發展以及現代化進程。
1 數據挖掘技術概述
1.1數據挖掘技術的產生
隨著科技的進步以及網絡技術的發展,計算機從硬件到軟件都有著極大的進步。隨著數據信息的迅猛增加,數據庫技術現在被廣泛用于各行各業之中,但是如果利用數據庫中的信息,利用其隱藏的信息價值,獲取更大的收益,成為技術工作者不斷探究的新課題。雖然信息數據迅猛增長,但是現有的數據分析工具卻無法實現在海量的數據中搜尋有用的信息,為決策者提供有價值的數據作出正確的決策和發展預測。為了解決此問題,數據挖掘技術便開始發展起來。在當前全球海量的數據資源以及各行各業巨大的需求,再加上技術工作者的不斷努力,數據挖掘技術的發展取得了巨大的成就,并被廣泛應用于商業管理、控制、分析、設計等領域。
20世紀60年代,數據庫技術從基本的文件處理發展為數據庫系統;70年代,關系數據庫系統、數據建模工具等迅速發展起來;80年代中期開始,關系數據庫被普遍采用,促進了新型數據庫系統等發展。但是,隨著數據庫系統等不斷發展,海量的數據成為數據庫的負累,如何從其中搜尋有用的數據已經成為非常困難的事,在不借助任何工具等情況下,人類已經無法進行數據的處理和分析,這樣不斷地存儲數據就像“墓地”,不能被人們利用,決策者不能從中提取有價值的數據進行決策的制定和發展的預測[1]。在此種背景下,數據挖掘技術便開始發展起來,并取得巨大的成就,現在人們已經能夠利用數據挖掘技術挖掘數據庫中有用的信息,幫助人們實現信息的利用和財富的轉化。
1.2 數據挖掘技術的概念
當前,隨著科技的發展和互聯網技術的發展,數據庫中各種信息不斷增多,數據庫技術也隨之進步。雖然數據庫管理系統被運用于各個行業,但因信息量的劇增,使得數據庫管理系統從中提取信息的難度非常大。許多重要的信息都包含在海量的數據里面,需要我們將它們從中提取出來,利用這些數據發揮更大的作用,創造出更多的價值,獲取更大的利益。而將這些信息從海量的數據庫中提取出來的技術,通常叫做數據挖掘技術[2]。
數據挖掘技術是從海量數據庫中搜索并挖掘有用信息的一種技術,幫助企業或個人通過數據之間的聯系和不容易引起注意的信息,作出正確的決策,并且通過挖掘的信息進行預測發展趨勢。數據挖掘技術能夠利用信息發現未知的東西,與先假設再驗證的數據處理技術不同,數據挖掘技術顯然更加真實準備,更加能夠被廣泛采用。目前,數據挖掘技術越來越被各行各業重視并運用,在未來也有巨大的發展前景。
1.3 數據挖掘技術的功能
數據挖掘技術的功能非常強大,能夠使用此技術在數據挖掘任務中尋找需要的信息。一般數據挖掘的任務分為描述和預測:簡單在數據庫中搜尋數據反映數據的一般特性即為描述;利用數據信息進行推算,進行預測即為預測。當前,數據挖掘技術的功能有以下幾種:
1)概念或者類描述
數據一般是與概念或者類聯系著的。能夠用總結的、簡單的、正確的方法進行概念或者類的描述就被稱為概念或類描述。通過此種描述方法能夠知道:一是任務數據的特征或者整體數據的特征,二是能夠將任務數據的特征與其他數據進行特征的對比,三是能夠利用前述二者進行概念或者類描述。
2)關聯分析
數據挖掘技術通過關聯分析能夠發現數據之間的關聯規則。這些規則比較固定地展示了數據之間的聯系。數據挖掘技術的這項功能在事務數據分析中應用較多。
3)分類和預測
分類是指在任務數據中找出不同類或者概念的數據,而后利用分類進行預測還沒有被發現的信息。預測是給建立一個模型來對不知道的數據進行預測或者給定一個數值區間,進行任務數據的預測。分類與預測的不同之處為:分類是利用分散的數值進行預測;而預測是利用連續數值進行預測。
4)聚類分析
聚類就是將任務數據進行同類的聚集,這些任務數據中有著非常高的相同點,但是不同聚類之間的差異非常大。與分類大區別在于,聚類是進行未知數據的類別。通過聚類,而后進行數據的分析預測。
5)孤立點分析
孤立點一般是度量或者系統執行失誤造成的,也有固定數值突變產生的孤立點。目前,很多數據挖掘技術希望通過孤立點分析將其影響變為最小。不過,一單操作很容易使重要信息損壞或者丟失,畢竟孤立點是非常重要的。
6)演變分析
數據不是固定不變的,而是會不斷地進行變化,利用數據挖掘技術進行任務數據演變分析,對其規律或者趨勢進行預測。演變分析包括對數據的時間序列、周期進行分析或者類似性地數據分析。
2 數據挖掘技術的分類
數據挖掘技術的分類能夠根據發現知識的種類、挖掘的數據庫種類、采用的技術等方法進行分類。根據采用的技術進行分類,則主要有七種。
2.1規則歸納
規則歸納就是利用設定的統計方法進行歸納對挖掘者有用的規則,關聯規則挖掘就是其中的一種。
2.2決策樹方法
所謂決策樹方法就是建立樹狀模型進行決策集合。利用已有信息挖掘數據庫中重要的有價值的信息,構建支點,再根據數據的不同取值進行分支構造,最后通過分析形成整個的決策樹。決策者可以根據此決策樹進行決策的制定或者預測發展趨勢。
2.3人工神經網絡
人工神經網絡的應用比較多,主要是模擬人腦進行數據的分析,建立非線性預測模型,從而完成分類、聚類等多種任務。
2.4遺傳算法
遺傳算法是模擬生物進化過程的算法。它是通過將一個問題分解為多個個體,然后在每個個體上進行取值,從而完成信息搜索、任務挖掘。
2.5模糊技術
顧名思義,模糊技術即是利用模糊集合理論對實際問題進行預測、推斷等。一般來說,數據庫數據具有模糊性,通過大概的數值估計,利用期望值、隨機值進行組合,使得信息挖掘能夠定性定量的轉換。
2.6粗集方法
1982年,Pawlak(波蘭)提出的數據分析方法。粗集方法是利用等價思想將數據分散,然后利用屬性的等價進行集合,形成決策集合。
2.7可視化技術
可視化技術即是利用最直觀的圖形方法把數據庫信息、數據的關聯等呈現出來,決策者能夠直觀地通過圖形進行發展趨勢的預測,作出正確的決策。
3基于計算智能的數據挖掘技術的具體技術探究
3.1關聯規則的挖掘
關聯規則挖掘是關聯分析中的一種數據挖掘技術,利用數據庫中海量的數據進行有用信息間的聯系的挖掘。當前關聯規則的挖掘已經取得巨大的成就,當前,關聯規則的挖掘技術有:1)多循環方式多挖掘算法,它是基本算法,包括AIS、DHP算法、分割算法等;2)并行挖掘算法,包括CD 算法、CaD算法、DD算法等;3)增量式更新算法,主要是在數據庫增加紀錄后關聯規則的挖掘算法,包括FUP、IUA、PIUA、NEWIUA算法等;4)基于約束條件的關聯規則挖掘,就是為了發現更多、有用、特別的關聯規則;5)挖掘多值屬性關聯規則,包括擴展布爾屬性的關聯規則算法、K度完全方法等 [3]。
3.2分類規則的挖掘
分類規則的挖掘就是在已有數據的基礎上建立分類模型,利用該模型將數據庫中的數據映射到分類中,從而進行數據預測。分類模型的構造方法有許多種,通常有決策樹法、神經網絡算法等。由于分類模型等正確率與數據、屬性等因素有關,因此在進行分類評估時需要采用以下方法:一是保留方法,將數據庫中的一部分數據保留,其他的用于數據分析評估;二是交叉糾錯方法,即是將分類中有重復的數據進行提取,而后進行測試,提高評估正確率[4]。
3.3聚類分析
聚類分析就是將特征相似的數據進行歸類,建立成一個集合。再聚類之時要保證數據相似性最大,而不同類別的數據相似性要最小。這些數據的特性在事前并不清楚,聚類分析就是要通過將數據進行歸類在進行分析,發現有價值的信息。聚類算法一般包括基于概率的聚類算法以及基于距離的聚類算法兩種。在實際應用中,基于概率的聚類算法因效率低下而采用較少,基于距離的聚類算法因效率高被廣泛采用。通過聚類分析,對數據進行挖掘分析,能夠更加準確地獲得更多地具有價值的信息,為決策者作出決策或者作出發展預測提供更加有力的數據支持。
3.4離群數據挖掘
離群數據就是指那些明顯跟其他數據不同的數據類型。離群數據的挖掘時數據挖掘技術中非常重要的內容,它通過發現離群數據與其他數據的區別,獲取比一般數據更有價值的信息。一般離群數據主要有以下發現方法:一是基于統計,即在已知的數據上進行離群數據的挖掘;二是基于距離,即通過計算數據間的距離進行離群數據的挖掘;三是基于偏離,即在事前知道數據的特性前提下對數據進行檢測發現離群數據;四是基于規則,即是根據已有規則發現明顯不同規則的離群數據;五是離群數據發現的多策略方法,即是對數據進行聚類,進行子集的劃分,再根據觀察發現明顯不同的離群數據。
4數據挖掘技術的應用領域
隨著數據挖掘技術的不斷發展,各行各業越來越意識到數據挖掘技術的巨大優勢,因此其應用前景非常廣泛。數據挖掘技術的應用主要在以下領域:
4.1科學研究領域
科學技術領域需要運用各種最新技術,利用最新技術進行科學領域的研究。隨著科學數據收集工具的運用,各種科學研究收集到了海量的數據,但是顯然依靠人力或者傳統的數據分析工具是不能夠應付的,因此必須要使用一種能夠從海量數據中自動搜尋分析提取的工具。正是科學技術領域的需求,推動了數據挖掘技術的發展以及在科學技術領域的應用,并為科學研究領域作出了巨大的貢獻。比如,在遺傳研究領域,涉及DNA的數據非常多,而且DNA的組合、順序等更不相同,如果想要從中找出致人疾病的基因組,依靠人力進行數據的排練組合顯然是不可能的,所以必須采用數據挖掘工具,對不同的基因組進行分析,剔除無害的基因組,選擇出有害的基因組,然后工作人員再根據提取的數據進行分析[5]。此外,數據挖掘技術還能運用于對歷史發展規律的預測、對人類行為規律的預測等等。
4.2商業零售業
眾所周知,零售業有著大量的數據,從進貨到銷售,都有大量的數據,尤其是隨著電子商業的發展,數據量也劇增,而處理這些數據就需要依靠數據挖掘技術。通過數據挖掘技術,對銷售數據進行分析,就能夠知道什么商品受到顧客喜愛,銷售得最快,而后有針對性地進貨[6]。利用數據挖掘技術進行分析,就能夠通過數據分析,制定有效銷售措施,獲取最大的利益。
【關鍵詞】搜索引擎 網絡數據挖掘相關技術 研究
在社會的發展之下,網絡已經成為人們生活與生產中必不可少的工具,但是網絡中充斥的大量繁雜信息也在一定程度上影響著人們的信息獲取速度,網絡信息檢索在檢準率與檢全率方面依然難以滿足人們的需求,而將網絡數據挖掘技術應用在其中即可很好的解決這一問題。
1 數據挖掘技術簡介
數據挖掘技術就是從大量模糊、隨機、不完全、有噪聲信息中提出有用信息的一個過程,與數據挖掘技術相關的技術還有數據分析技術、數據融合技術、知識發現技術等等,在技術水平的發展下,統計學方法、決策樹、關聯分析等一些新型數據挖掘技術也相繼出現。與數據挖掘不同,信息檢索實質上是一種信息發現任務,也是知識發展過程中的重要環節,信息檢索能夠幫助人們了解各項靜態信息,但是難以分析到數據間的關系及其未來發展趨勢。而應用數據挖掘技術則可以有效提升系統檢索能力,預測出未來的走勢,因此,將數據挖掘技術應用在搜索引擎中也是大勢所趨。
2 搜索引擎與網絡數據挖掘
網絡數據挖掘是一種將數據挖掘技術與網絡融合的一種新模式,網絡數據挖掘也能夠稱之為Web挖掘,網絡數據的頁面復雜、數據內容繁雜,文章也具有不規則性,將數據挖掘技術應用在數據挖掘中可以有效的解決上述問題,根據處理對象,網絡數據挖掘任務有三種類型,即網絡內容挖掘、網絡使用挖掘與網絡結構挖掘。
2.1 網絡內容的挖掘
網絡內容挖掘就是從網絡數據、網絡內容與網絡文檔中挖掘信息,很多網絡信息是能夠在網絡中過去的,但是依然有很大一部分數據難以采用該種方法獲取,如使用PHP、JSP與ASP的動態網頁,拒絕訪問的網站,商業數據庫中的數據。這些內容都能夠使用網絡內容挖掘法來獲取,這可以使用兩個方法:網絡頁面內容挖掘法與搜索結果再挖掘法。
2.2 網絡結構挖掘法
網絡結構挖掘法強調挖掘網頁中的鏈接結構,并從中推導相關的知識,這種挖掘法與引文分析有著密切的關系,網絡中的鏈接信息能夠為數據挖掘提供全面的支持,為了獲取到理想的效果,可以來分析網頁鏈接與鏈接數量,并建立起鏈接結構模式。其常用的算法有Propriteary算法、Google算法、HITS算法與PageRank算法四種。
2.3 網絡使用挖掘法
網絡使用挖掘法就是通過日志發現來訪問頁面的一種模式,與網絡內容挖掘模式和網絡結構挖掘模式不同,網絡使用挖掘法的挖掘對象非是網絡與用戶交互中的二手數據,這些數據大多來自Cookies或者Web服務器中的信息、系統交互信息與訪問記錄。
3 數據挖掘技術在網絡信息檢索中的應用作用
目前,人們已經進入了一個信息爆炸時代,雖然眾多搜索引擎網絡可以滿足人們對于信息檢索的基本需求,但是還是有很多地方不到位,目前,網絡挖掘技術已經開始在網絡領域中得到了應用,也取得了一定的成效。實踐顯示,將數據挖掘技術應用在網絡信息檢索中能夠取得如下的效用:
3.1 提升標引準確性
標引能夠準確選擇出文獻的檢索標示,網絡信息范圍廣、復雜性高、數量多,使用人工標引很難取得理想的檢索效果,因此,必須要使用自動標引。將網絡數據挖掘技術應用在其中能夠深刻的揭示出相關信息的聯系,幫助用戶在文檔中進行標注,提升信息攝取的準確性。而以此為基礎來應用加權算法則能夠得出具體的信息關聯,對于提升檢索效果有著十分積極的效用。
3.2 可以對檢索結果進行分類
在網絡世界中,各個網站之間的轉載情況嚴重,用戶在使用搜索引擎時必然會檢索出大量的重復信息,這不僅會降低檢索效率,也會浪費資源。將數據挖掘技術應用在檢索工作中就能夠挖掘出網頁中的語義內容,有效提升檢索效率。此外,數據挖掘技術也可以有效提升檢索質量,該種方法是建立在層次法與劃分法基礎上,如果檢索文檔相似性大,即可進行聚類處理,將處理后的信息用層次化方式提供給用戶,用戶可以根據自己的需要自行選擇,這就有效減少了瀏覽數量。
3.3 能夠提升自動摘要質量
自動摘要即利用網絡來分析文章結構、主題語句的方式,自動摘要可以有效幫助用戶來加工與整合信息,與自動摘要相比,人工編制摘要會浪費大量的時間,將網絡數據挖掘技術應用在搜索引擎中能夠提升自動摘要的質量,該種技術是通過文檔內容來總結文本信息,能夠將Web中的重要內容總結起來,并提取出摘要。這對于優化網絡信息資源的處理質量有著十分積極的意義。
4 結語
總而言之,將數據網絡挖掘技術應用在搜索引擎中已經成為了一個大勢所趨,采用該種技術可以有效提升標引、自動分類、自動摘要以及自動聚類的準確性,可以根據用戶的具體需求來建立模型,從而為用戶提供出更加針對性的信息支持。其中,最為常用的技術就是自由分類法,自由分類法能夠將難以用傳統方式細化的信息歸入熟悉類目中,并在排序檢索與信息組織上很好的彌補與了傳統搜索方法的缺陷,但是,該種方法也存在一些局限性,多應用在小范圍網絡中,相信在不久的將來,網絡數據挖掘技術定可以在搜索引擎中得到更加廣泛的使用。
參考文獻:
[1]狄浩林. 面向精確營銷基于數據挖掘的3G用戶行為模型及實證研究[D]. 北京郵電大學 2012
關鍵詞:大數據環境 數據挖掘 具體技術分析
中圖分類號:TP39 文獻標識碼:A 文章編號:1003-9082(2016)10-0004-02
技術在快速進步,現今時期內的網絡正在深入生活,網絡體現出重要的意義。從本質上看,大數據不僅代表了日益增長的數據量,同時也表現出更復雜的數據關系。增長的過程中,達到特定規模的數據量將會發生質變。大數據的具體類型包含了視頻和文本等信息[1]。對于信息搜集以及處理等,也應當確保更快的處理速度。大數據環境下,數據挖掘的相關技術具備了獨特的技術優勢,然而同時也面對新階段的技術挑戰。面對新階段的新環境,有必要給出數據挖掘的特定技術流程以及技術方式。結合現階段面臨的挑戰,給出完善思路。
一、數據挖掘在大數據環境下的重要價值
面對信息化的新時期,各行業都不可缺少數字化技術作為支持。最近幾年,互聯網正在快速普及,在這種基礎上也誕生了云計算和物聯網的相關技術。在當前形勢下,全球范圍內的網絡技術正在加快發展,爆炸式的數據增長趨勢也因此變得更明顯。信息化沖擊著各個行業,傳輸信息的方式也在相應改變。信息化形勢下,對于信息形成、信息運用以及信息共享都可以做到有效的整合[2]。在企業發展中,大數據起到了不可忽視的作用,同時也匯聚了各個層面的物力和人力。
從信息化角度看,企業在整合處理各類的數據時都需要借助電子化的方式。針對大量的資源和信息,應當符合交互式的處理方式和數據傳輸方式。數據化處理可以為企業提供精確的決策依據,因此也創造了更高層次的生產效能。云計算方式能夠用來處理實時的數據,從而減少了整體投入。
隨著技術進步,云計算技術正在變得更成熟。與此同時,云計算也配備了信息化的新式平臺。這樣做,在根本上確保了信息化的效能提高。在當前時期內,大數據代表著全新的發展階段。這是因為,大數據技術可以用來篩選數據、存儲數據或者調用數據,這些步驟和流程都不必耗費額外的資源。從行業本身來看,數據交換以及信息交易的總數都變得更大,因此也構建了規模更大的數據庫。針對存儲量很大的數據庫,應當經過篩選和分類,提取必需的信息數據。這樣做,就可以為各類用戶提供必需的信息。由此可見,大數據環境中的數據挖掘具備更高的價值,有必要深入探析數據挖掘的相關技術方式[3]。
二、現今階段的技術難點
從技術構架來看,數據庫表現出更復雜的技術架構,因而也增加了整體數據庫的管理難度。在傳統模式下,數據庫能夠用來處理較低層次的數據,然而針對較高層次的信息數據并不能給予很好的處理。最近幾年,數據總量正在增大,數據庫管理也相應改變了常用的流程和模式。近些年,分布式的全球數據庫也被創造出來,在這種形勢下亟待擴展整體的處理規模,以此來適應現今階段的數據處理。然而應該注意:傳統數據庫仍缺乏相應的分區和類型,非結構化的傾向十分明顯。
從實時性來看,數據處理中的實時性需求正在變得更強,用戶希望獲得實時的處理方式和技術。最近幾年,數據庫表現出智能性和商業化的整體趨勢,因此也相應提高了實時性的需求。針對各類型的信息,用戶都有必要給予實時的解析和處理。大數據的整體背景有別于傳統背景,這是因為智能式的商業處理方式正在被推廣采用。因此,如果仍沿用常用的處理流程,那么很難符合新階段的實時處理需要[4]。
從硬件和軟件的存儲方式看,傳統類型的軟硬件也不再滿足需求。現今時期內,數據處理達到了更大的總量。與此相應,在信息保存的過程中也應當符合更高層次的精確性需求。數據量不斷增大的狀態下,只有配備高性能的軟硬件,才能夠給予必要的保障。實際上,軟件更新的整體速度仍較慢,無法適應現有的形勢。
從技術分析的具體方式看,傳統方式的數據分析特指結構化的分析。經過分析之后,就可以歸納得到全面的體系,確保實效性的處理。然而,大數據形勢下的各行業數據總量都變得更大,因此也挑戰了常用的分析方式。
三、數據挖掘的技術優勢
首先,數據挖掘符合了更強的實效性,滿足實時的處理。信息技術的新時期內,不同類型的數據也蘊含了更多的知識價值。大數據環境下,數據分析更多表現為線性處理,這種趨勢符合了新階段的處理需求。如果選擇了大數據這種處理形式,那么優先選擇數據挖掘的相關技術方式。這是由于,數據挖掘可以運用于流處理的過程,從而也確保了批量式的處理。針對大數據而言,業務處理也在客觀上需要設置實時性的處理框架,以此來滿足實效性的新需要。
其次,在動態環境下,數據挖掘設置了特定的索引類型,能夠符合動態變化的環境。從關系數據庫的角度看,索引可以加快整體的檢索速度。然而,傳統類型的數據檢索只設置了較少的幾類索引[5]。近些年來,大數據的具體種類正在不斷增多,這種形勢下創建的索引就必須具備更簡潔的特征,同時也必須符合高效化的整體要求。在數據挖掘中,索引形式是多樣的,并且可以實時調整。因此,大數據環境中的索引形式應當更新,這樣做才能便于提高實時查詢的效率。
第三,大數據環境中的數據挖掘還具備豐富的先驗知識。傳統模式的數據分析通常選擇了關系型的信息存儲,這種模式隱含了先驗知識。具體而言,在探求特定對象的屬性時,首先就需要明確可以取到的數值范圍。在進入分析之前,有必要初步了解這種取值范圍。然而,大數據包含了更多的非結構性信息,因此在客觀上也要求構建與之匹配的內部數據關系。數據是實時性的,因此并不具備先驗知識。針對這種問題,數據挖掘也可以給予妥善的處理。
四、具體技術實現
在新的環境下,數據挖掘技術受到了更多行業的認可和接受,同時也逐漸擴展了應用范圍。大數據環境下,數據挖掘具體可以劃分為數據遺傳、神經網絡算法、粗糙集的算法、決策樹算法等類型。現今社會中的信息呈現爆炸的趨勢,數據挖掘因此也逐漸具備了獨立性,構成了獨立學科。用戶運用分類技術,就能夠針對特性類型的數據和信息予以分類,然后進入數據挖掘的過程中。由此可見,數據挖掘更加符合了大數據的特定環境和背景[6]。具體而言,數據挖掘的方式和技術手段包含了如下:
1.構建矩陣模型
存儲大數據過程中,應當構建精確的矩陣模型。在建模的基礎上,才能夠適當運用數據挖掘的方式。針對不同來源的數據,也需要給出各異的處理方式。傳統處理方式下,通常構建單一的數據庫,用來存儲信息并且分析信息。實際上,這種方式在具體落實時也很困難,因為不同類型的信息包含了繁雜的內容。大數據環境下,依照數據挖掘的思路,相關人員可以嘗試構建相關的數據模型。這樣做,就能夠在根本上確保通用性,數據模型也能夠容納更多的數據內容。矩陣模型屬于三維模型,模型具備立體性,因此更加便于數值分析。
2.設置關聯規則
如果要順利進行數據挖掘,那么先要挖掘關聯規則。從特定屬性來看,關聯規則通常是隱含在屬性內部的,是不可以預知的。對于此,只能依照選擇的統計方法來實現。從興趣度的角度看,關聯規則通常取決于置信度和支持度這兩個指標。為了達到平衡,用戶就應當給出最小的置信度和支持度數據。數據挖掘的具體方式可以用來實現可靠的關聯規則,建立必要的存儲模型,用這種方式來集中表達關聯規則。
3.聚類算法的運用
針對高維的空間,通常可以構建特定的聚類算法。為了詳細區分不同類型的超圖,數據挖掘選擇了區分投影的方式。選擇這種方式,能夠細化不同類型的算法,進而也提高了算法整體的精細度。利用數據挖掘,實現了更優的超圖劃分,聚類計算得到的結果也表現得更加精確[7]。
結論
大數據背景下,數據庫更需要數據挖掘作為支持。通過數據挖掘,能夠篩選并且獲得可利用的數據信息,滿足新階段的用戶需求。經濟在不斷增長,然而與此同時資源消耗的總量也相應變得更大。大數據可以用于多領域的數據挖掘,因此也在根本上改變了原有的處理過程和處理方式。面對劇烈的市場競爭,數據挖掘的新方式也可以用于更廣的領域,同時也起到了更大作用。未來的實踐中,相關人員還需要結合大數據的特定背景,不斷修正并完善現今階段的數據挖掘手段。只有這樣,才可以為各行業提供必要的決策依據,服務于數據挖掘的整體質量提高。
參考文獻
[1]朱東華,張嶷,汪雪鋒等. 大數據環境下技術創新管理方法研究[J]. 科學學與科學技術管理,2013(04):172-180.
[2]王蘭成,劉曉亮. 網上數字檔案大數據分析中的知識挖掘技術研究[J]. 浙江檔案,2013(10):14-19.
[3]李海林.大數據環境下的數據挖掘課程教學探索[J].計算機時代,2014(02):54-55.
[4]盧建昌,樊圍國. 大數據時代下數據挖掘技術在電力企業中的應用[J]. 廣東電力,2014(09):88-94.
[5]黃取治. 大數據環境下O2O電商用戶數據挖掘探討[J]. 湖南科技學院學報,2015(05):122-124.
[6]杜鋼虎. 大數據時代背景下數據挖掘技術芻議[J]. 電子技術與軟件工程,2015(14):221.