首頁 > 文章中心 > 數(shù)據(jù)分析方向

      數(shù)據(jù)分析方向

      前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)分析方向范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

      數(shù)據(jù)分析方向范文第1篇

      關鍵詞: 數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;相關分析

      中圖分類號:TP 311.3 文獻標志碼:A 文章編號:1672-8513(2011)03-0182-03

      The Application of Correlation Analysis Algorithms in the Data Invites Chien

      ZHANG Hanyun,DUAN Peng

      (School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)

      Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.

      Key words: data mining;data warehouse; correlation analysis

      相關分析法是在分析某個問題或指標時,將與該問題或指標相關的其他問題或指標進行對比,分析其相互關系或相關程度的一種分析方法,用少數(shù)幾對綜合變量來反映2組變量間的線性相關性質(zhì).目前它已經(jīng)在眾多領域的相關分析和預測分析中得到廣泛應用.本文主要研究如何利用相關分析技術產(chǎn)生計算機專業(yè)課之間的相關系數(shù),發(fā)現(xiàn)專業(yè)課程之間的相關度,對數(shù)據(jù)倉庫中的數(shù)據(jù)進行約簡[1].

      1 相關分析

      1.1 相關分析概述[2]

      相關分析(Correlation Analysis)是研究隨機變量之間的相關關系的一種統(tǒng)計方法.相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系.例如,教育投資與教育發(fā)展速度的關系、教師教學水平和學生的學習效果之間的關系等[3].

      相關系數(shù)值為-1(完全負相關關系)~+1(完全正相關關系)之間,相關系數(shù)為0時,表示不存在相關關系.例:

      正相關:學生的學習能力與學習成績的關系;

      負相關:教師的身體狀況與缺勤率的關系;

      零相關:教師的身高與教學能力的關系.

      Pearson相關用于雙變量正態(tài)分布的資料,其相關系數(shù)稱為積矩相關系數(shù)(Coefficient of Product-Moment Correlation).進行相關分析時,我們一般會同時對2變量繪制散點圖,以更直觀地考察2變量之間的相互變化關系[4].

      用Flag Significant Correlations 進行顯著性檢驗,標出有顯著性意義的相關系數(shù),用一個星號“*”標記在α=0.05水平上有顯著性意義的相關系數(shù);用2個星號“**”標記在α=0.01水平上有顯著性意義的相關系數(shù)[5].

      1.2 相關分析的表示方法

      進行相關分析的主要方法有圖示法和計算法.圖示法是通過繪制相關散點圖來進行相關分析,計算法則是根據(jù)不同類型的數(shù)據(jù),選擇不同的計算方法求出相關系數(shù)來進行相關分析.

      1.2.1 圖示法

      圖示法的具體做法就是繪制相關散點圖.相關散點圖是觀察2個變量之間關系的一種非常直觀的方法.具體繪制的方法是:以橫軸表示2個變量中的1個變量(作為自變量),以縱軸表示另一個變量(作為因變量).將2個變量之間相對應的變量值以坐標點的形式逐一標在直角坐標系中,通過點的分布形狀和疏密程度來形象描述2個變量之間的相關關系.

      相關散點圖可以通過手工繪制而得到.但如果面對的變量值比較多,手工繪制的過程既費時,又不夠精確.

      1.2.2 計算法

      相關系數(shù)也稱為相關量,是用來描述變量之間變化方向和密切程度的數(shù)字特征量,一般用r表示.它的數(shù)值范圍在-1到+1之間,它的正負號反映變量之間變化的方向;它的絕對值的大小反映變量之間關系的密切程度.

      根據(jù)2個變量變化的密切程度,我們把相關關系分為完全相關、高度相關、中度相關、低度相關、零相關[6].

      完全相關:│r│=1的相關;

      高度相關或強相關:0.7≤│r│<1的相關;

      中度相關:0.4≤│r│<0.7的相關;

      低度相關或弱相關:│r│<0.4的相關.

      1.3 Pearson相關

      Pearson相關也稱積差相關,積差相關也稱積矩相關,是英國統(tǒng)計學家Rearson提出的一種計算直線相關的方法,因而又稱為Rearson相關[6-7].

      積差相關系數(shù)是2列成對觀測值中各對觀測值的標準分數(shù)乘積之和除以觀測值對數(shù)所得之商[8].

      1.3.1 Pearson相關的使用條件

      1) 2個變量之間是線性關系,都是連續(xù)數(shù)據(jù);

      2) 2個變量的總體是正態(tài)分布,或接近正態(tài)的單峰分布;

      3) 2個變量的觀測值是成對的,每對觀測值之間相互獨立.

      1.3.2 Pearson相關的計算公式

      r=∑ZXZYn=∑X-Y-nσXσY.

      式中,[ZK(]n表示數(shù)據(jù)的對數(shù);σX,σY分別表示X和Y變量的樣本標準差;[JP],分別表示X和Y變量的樣本平均數(shù).[ZK)]

      對于學生成績,其課程總體分布接近正態(tài)分布,滿足Pearson相關的使用條件.在統(tǒng)計軟件SPSS中,可以很方便地得出2變量之間的Pearson相關系數(shù).[JP]

      2 用相關分析法進行數(shù)據(jù)約簡

      2.1 學生成績數(shù)據(jù)倉庫的建立

      數(shù)據(jù)選擇上,主要選擇了作者所在學校計算機專業(yè)3年來產(chǎn)生的專業(yè)基礎課成績,收集并整理了包含高等數(shù)學、C語言、數(shù)據(jù)結構和數(shù)據(jù)庫系統(tǒng)原理的504條學生成績數(shù)據(jù).并將具體的成績數(shù)據(jù)離散化為4個等級[9],即:

      成績>=80“A”; 70=

      2.2 用相關分析法進行數(shù)據(jù)約簡

      對大規(guī)模數(shù)據(jù)庫內(nèi)容進行復雜的數(shù)據(jù)分析通常需要耗費大量的時間,這就常常使得這樣分析變得不現(xiàn)實和不可行,尤其是需要交互式數(shù)據(jù)挖掘時.數(shù)據(jù)約簡技術正是用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進行數(shù)據(jù)挖掘,顯然效率更高,并且挖掘出來的結果與使用原有數(shù)據(jù)集所獲得結果基本相同[10].

      數(shù)據(jù)約簡并不是一個新的領域,現(xiàn)在已經(jīng)提出了很多理論和方法,如:層次分析法,主成分分析法,隨機抽樣、免疫算法等.本研究根據(jù)實際需要,提出將相關分析方法應用于學生成績的屬性約簡,即方便快捷又不失理論性.

      在SPSS軟件中,畫出計算機專業(yè)課高等數(shù)學成績的直方圖,如圖1.

      用同樣的方法,可以畫出其他計算機專業(yè)課如C語言、數(shù)據(jù)結構等的直方圖,可以看出,我們所建立的數(shù)據(jù)倉庫中,學生計算機專業(yè)課程成績基本上符合正態(tài)分布,滿足Pearson相關的使用條件.

      我們用雙變量相關分析技術來分析相關課程之間的關聯(lián)程度,并做出統(tǒng)計學推斷,以最少的數(shù)據(jù)量反映最大的信息量,進而對數(shù)據(jù)庫的屬性進行約簡.通過相關分析約簡相關性較弱的屬性,選擇相關性強的屬性而不直接利用數(shù)據(jù)庫中的所有屬性,從而減少大量冗余屬性,以提高算法的效率.

      在SPSS中進行課程間Pearson相關系數(shù)分析,得到計算機專業(yè)課程相關系數(shù)分析表如表1.

      1:表中數(shù)值為4門課程進行相關分析得到的皮爾遜相關系數(shù)(Pearson Correlation)、相伴概率(Sig.(2-tailed))、樣本個數(shù)(N).“*”標記在α=0.05水平上有顯著性意義的相關系數(shù);用兩個星號“**”標記在α=0.01水平上有顯著性意義的相關系數(shù);

      2:相伴概率用來判斷求解線性關系的兩變量之間是否有明顯的線性關系.一般將這個Sig值與0.05相比較,如果它大于0.05,說明平均值在大于5%的幾率上是相等的,而在小于95%的幾率上不相等;如果它小于0.05,說明平均值在小于5%的幾率上是相等的,而在大于95%的幾率上不相等;如C語言與數(shù)據(jù)結構的Sig是0,此數(shù)值說明C語言與數(shù)據(jù)結構有顯著的線性關系(因為Sig0.05,則說明兩變量之間沒有明顯的線性關系).

      由表1可以看出,同一門課程之間的Pearson相關系數(shù)為1,是完全相關關系.高等數(shù)學與C語言之間的Pearson相關系數(shù)為0.283,C語言與數(shù)據(jù)結構之間的Pearson相關系數(shù)為0.281,數(shù)據(jù)結構與數(shù)據(jù)庫系統(tǒng)原理之間的Pearson相關系數(shù)為0.565,并且都有“*”標記,由此可以推斷這4組課程之間有顯著性意義的相關性.

      3 結語

      用相關分析技術對數(shù)據(jù)庫進行約簡,結果表明:線性代數(shù)、計算機導論及Pascal語言等多個因素相關性較弱;而C語言、數(shù)據(jù)結構、高等數(shù)學及數(shù)據(jù)庫系統(tǒng)原理之間相關性較強,根據(jù)數(shù)據(jù)庫約簡原則,可將線性代數(shù)、計算機導論及Pascal語言等多個屬性項從數(shù)據(jù)庫中刪除,以便提高數(shù)據(jù)挖掘效率.

      參考文獻:

      [1]段西凌,甘開鵬.數(shù)據(jù)挖掘在人口普查信息系統(tǒng)中的應用[J].云南民族大學學報:自然科學版,2006,15(2):170-172.

      [2]茆詩松.統(tǒng)計手冊[M].北京:科學出版社,2003.

      [3]TANG Zhaohui,MACLENNAN J.數(shù)據(jù)挖掘原理與應用[M]. 鄺祝芳,焦賢龍,高升,譯.北京:清華大學出版社,2007.

      [4]王艷.數(shù)據(jù)挖掘中關聯(lián)規(guī)則的探討[J].成都信息工程學院學報,2004,19(2):173.

      [5]張儒良,王翰虎.論數(shù)據(jù)挖掘優(yōu)化教學管理[J].貴州民族學院學報,2004:133.

      [6]趙輝.數(shù)據(jù)挖掘技術在學生成績中分析中的應用[D].大連:大連海事大學,2007.

      [7]王月敏.基于遺傳算法的智能組卷系統(tǒng)研究[J].云南民族大學學報:自然科學版,2009,18(2):173-176.

      [8]劉利鋒,吳孟達. 關聯(lián)規(guī)則的快速提取算法 [J].計算機工程.2008,34(5):63-65.

      [9]李萍,段富.數(shù)據(jù)挖掘中數(shù)據(jù)約簡的研究與應用[J].微計算機應用.2009,25(2):58-60.[ZK)]

      [10][ZK(#]蔡勇,韓永國,劉自偉.數(shù)據(jù)挖掘技術在生源分析中的應用研究[J].計算機應用研究.2004,32(6):48-51.

      收稿日期:2010-09-06.

      數(shù)據(jù)分析方向范文第2篇

      Lin Mao

      (Xuzhou College of Industrial Technology,Xuzhou 221140,China)

      摘要:在虛擬現(xiàn)實項目制作中,由于種種原因,海量數(shù)據(jù)處理是一項艱巨而復雜的任務,本文主要論述了海量數(shù)據(jù)處理困難的原因,并提出了對海量數(shù)據(jù)進行處理的方法。

      Abstract: In the virtual reality project production, due to various reasons, mass data processing is a difficult and complex task. This paper discusses the reasons for massive data processing difficulties, and provides methods for massive data processing.

      關鍵詞:虛擬現(xiàn)實 海量數(shù)據(jù)

      Key words: virtual reality;massive data

      中圖分類號:TP39 文獻標識碼:A文章編號:1006-4311(2011)19-0158-02

      0引言

      虛擬現(xiàn)實項目制作過程中,由于虛擬現(xiàn)實包含的內(nèi)容豐富,需要載入的數(shù)據(jù)量有時會非常巨大,需要進行處理和查詢的內(nèi)容很多,然后還要以文字和圖像的形式進行表示出來,所以經(jīng)常會遇到海量數(shù)據(jù)處理的瓶頸,造成這種情況的原因是:

      ①數(shù)據(jù)量過大,數(shù)據(jù)中什么情況都可能存在。如果說有10條數(shù)據(jù),那么大不了每條去逐一檢查,人為處理,如果有上百條數(shù)據(jù),也可以考慮,如果數(shù)據(jù)上到千萬級別,甚至過億,那不是手工能解決的了,必須通過工具或者程序進行處理,尤其海量的數(shù)據(jù)中,什么情況都可能存在,例如,數(shù)據(jù)中某處格式出了問題,尤其在程序處理時,前面還能正常處理,突然到了某個地方問題出現(xiàn)了,程序終止了。

      ②軟硬件要求高,系統(tǒng)資源占用率高。對海量的數(shù)據(jù)進行處理,除了好的方法,最重要的就是合理使用工具,合理分配系統(tǒng)資源。一般情況,如果處理的數(shù)據(jù)過TB級,小型機是要考慮的,普通的機子如果有好的方法可以考慮,不過也必須加大CPU和內(nèi)存,就象面對著千軍萬馬,光有勇氣沒有一兵一卒是很難取勝的。

      ③要求很高的處理方法和技巧。這也是本文的寫作目的所在,好的處理方法是一位工程師長期工作經(jīng)驗的積累,也是個人的經(jīng)驗的總結。沒有通用的處理方法,但有通用的原理和規(guī)則。

      在多個虛擬現(xiàn)實項目的基礎上,尤其是通過與行內(nèi)多名專家進行項目經(jīng)驗交流,以下的方法都可以對海量數(shù)據(jù)在虛擬現(xiàn)實項目中的處理進行改善。

      1選用優(yōu)秀的數(shù)據(jù)庫工具

      現(xiàn)在的數(shù)據(jù)庫工具廠家比較多,對海量數(shù)據(jù)的處理對所使用的數(shù)據(jù)庫工具要求比較高,一般使用Oracle或者DB2,微軟公司最近的SQL Server 2005性能也不錯。另外在BI領域:數(shù)據(jù)庫,數(shù)據(jù)倉庫,多維數(shù)據(jù)庫,數(shù)據(jù)挖掘等相關工具也要進行選擇,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。筆者在實際數(shù)據(jù)分析項目中,對每天6000萬條的日志數(shù)據(jù)進行處理,使用SQL Server 2000需要花費6小時,而使用SQL Server 2005則只需要花費3小時。

      2編寫優(yōu)良的程序代碼

      處理數(shù)據(jù)離不開優(yōu)秀的程序代碼,尤其在進行復雜數(shù)據(jù)處理時,必須使用程序。好的程序代碼對數(shù)據(jù)的處理至關重要,這不僅僅是數(shù)據(jù)處理準確度的問題,更是數(shù)據(jù)處理效率的問題。良好的程序代碼應該包含好的算法,包含好的處理流程,包含好的效率,包含好的異常處理機制等。

      3對海量數(shù)據(jù)進行分區(qū)操作

      對海量數(shù)據(jù)進行分區(qū)操作十分必要,例如針對按年份存取的數(shù)據(jù),我們可以按年進行分區(qū),不同的數(shù)據(jù)庫有不同的分區(qū)方式,不過處理機制大體相同。例如SQL Server的數(shù)據(jù)庫分區(qū)是將不同的數(shù)據(jù)存于不同的文件組下,而不同的文件組存于不同的磁盤分區(qū)下,這樣將數(shù)據(jù)分散開,減小磁盤I/O,減小了系統(tǒng)負荷,而且還可以將日志,索引等放于不同的分區(qū)下。

      4建立廣泛的索引

      對海量的數(shù)據(jù)處理,對大表建立索引是必行的,建立索引要考慮到具體情況,例如針對大表的分組、排序等字段,都要建立相應索引,一般還可以建立復合索引,對經(jīng)常插入的表則建立索引時要小心,筆者在處理數(shù)據(jù)時,曾經(jīng)在一個ETL流程中,當插入表時,首先刪除索引,然后插入完畢,建立索引,并實施聚合操作,聚合完成后,再次插入前還是刪除索引,所以索引要用到好的時機,索引的填充因子和聚集、非聚集索引都要考慮。

      5建立緩存機制

      當數(shù)據(jù)量增加時,一般的處理工具都要考慮到緩存問題。緩存大小設置的好差也關系到數(shù)據(jù)處理的成敗,例如,筆者在處理2億條數(shù)據(jù)聚合操作時,緩存設置為100000條/Buffer,這對于這個級別的數(shù)據(jù)量是可行的。

      6加大虛擬內(nèi)存

      如果系統(tǒng)資源有限,內(nèi)存提示不足,則可以靠增加虛擬內(nèi)存來解決。筆者在實際項目中曾經(jīng)遇到針對18億條的數(shù)據(jù)進行處理,內(nèi)存為1GB,1個P4 2.4G的CPU,對這么大的數(shù)據(jù)量進行聚合操作是有問題的,提示內(nèi)存不足,那么采用了加大虛擬內(nèi)存的方法來解決,在6塊磁盤分區(qū)上分別建立了6個4096M的磁盤分區(qū),用于虛擬內(nèi)存,這樣虛擬的內(nèi)存則增加為4096*6+1024=25600M,解決了數(shù)據(jù)處理中的內(nèi)存不足問題。

      7分批處理

      海量數(shù)據(jù)處理難因為數(shù)據(jù)量大,那么解決海量數(shù)據(jù)處理難的問題其中一個技巧是減少數(shù)據(jù)量。可以對海量數(shù)據(jù)分批處理,然后處理后的數(shù)據(jù)再進行合并操作,這樣逐個擊破,有利于小數(shù)據(jù)量的處理,不至于面對大數(shù)據(jù)量帶來的問題,不過這種方法也要因時因勢進行,如果不允許拆分數(shù)據(jù),還需要另想辦法。不過一般的數(shù)據(jù)按天、按月、按年等存儲的,都可以采用先分后合的方法,對數(shù)據(jù)進行分開處理。

      8使用臨時表和中間表

      數(shù)據(jù)量增加時,處理中要考慮提前匯總。這樣做的目的是化整為零,大表變小表,分塊處理完成后,再利用一定的規(guī)則進行合并,處理過程中的臨時表的使用和中間結果的保存都非常重要,如果對于超海量的數(shù)據(jù),大表處理不了,只能拆分為多個小表。如果處理過程中需要多步匯總操作,可按匯總步驟一步步來,不要一條語句完成,一口氣吃掉一個胖子。

      9優(yōu)化查詢SQL語句

      在對海量數(shù)據(jù)進行查詢處理過程中,查詢的SQL語句的性能對查詢效率的影響是非常大的,編寫高效優(yōu)良的SQL腳本和存儲過程是數(shù)據(jù)庫工作人員的職責,也是檢驗數(shù)據(jù)庫工作人員水平的一個標準,在對SQL語句的編寫過程中,例如減少關聯(lián),少用或不用游標,設計好高效的數(shù)據(jù)庫表結構等都十分必要。筆者在工作中試著對1億行的數(shù)據(jù)使用游標,運行3個小時沒有出結果,這是一定要改用程序處理了。

      10使用文本格式進行處理

      對一般的數(shù)據(jù)處理可以使用數(shù)據(jù)庫,如果對復雜的數(shù)據(jù)處理,必須借助程序,那么在程序操作數(shù)據(jù)庫和程序操作文本之間選擇,是一定要選擇程序操作文本的,原因為:程序操作文本速度快;對文本進行處理不容易出錯;文本的存儲不受限制等。例如一般的海量的網(wǎng)絡日志都是文本格式或者csv格式(文本格式),對它進行處理牽扯到數(shù)據(jù)清洗,是要利用程序進行處理的,而不建議導入數(shù)據(jù)庫再做清洗。

      11定制強大的清洗規(guī)則和出錯處理機制

      海量數(shù)據(jù)中存在著不一致性,極有可能出現(xiàn)某處的瑕疵。例如,同樣的數(shù)據(jù)中的時間字段,有的可能為非標準的時間,出現(xiàn)的原因可能為應用程序的錯誤,系統(tǒng)的錯誤等,這是在進行數(shù)據(jù)處理時,必須制定強大的數(shù)據(jù)清洗規(guī)則和出錯處理機制。

      12建立視圖或者物化視圖

      視圖中的數(shù)據(jù)來源于基表,對海量數(shù)據(jù)的處理,可以將數(shù)據(jù)按一定的規(guī)則分散到各個基表中,查詢或處理過程中可以基于視圖進行,這樣分散了磁盤I/O,正如10根繩子吊著一根柱子和一根吊著一根柱子的區(qū)別。

      13避免使用32位機子

      目前的計算機很多都是32位的,那么編寫的程序?qū)?nèi)存的需要便受限制,而很多的海量數(shù)據(jù)處理是必須大量消耗內(nèi)存的,這便要求更好性能的機子,其中對位數(shù)的限制也十分重要。

      14考慮操作系統(tǒng)問題

      海量數(shù)據(jù)處理過程中,除了對數(shù)據(jù)庫,處理程序等要求比較高以外,對操作系統(tǒng)的要求也放到了重要的位置,一般是必須使用服務器的,而且對系統(tǒng)的安全性和穩(wěn)定性等要求也比較高。尤其對操作系統(tǒng)自身的緩存機制,臨時空間的處理等問題都需要綜合考慮。

      15使用數(shù)據(jù)倉庫和多維數(shù)據(jù)庫存儲

      數(shù)據(jù)量加大是一定要考慮OLAP的,傳統(tǒng)的報表可能5、6個小時出來結果,而基于Cube的查詢可能只需要幾分鐘,因此處理海量數(shù)據(jù)的利器是OLAP多維分析,即建立數(shù)據(jù)倉庫,建立多維數(shù)據(jù)集,基于多維數(shù)據(jù)集進行報表展現(xiàn)和數(shù)據(jù)挖掘等。

      16使用采樣數(shù)據(jù),進行數(shù)據(jù)挖掘

      基于海量數(shù)據(jù)的數(shù)據(jù)挖掘正在逐步興起,面對著超海量的數(shù)據(jù),一般的挖掘軟件或算法往往采用數(shù)據(jù)抽樣的方式進行處理,這樣的誤差不會很高,大大提高了處理效率和處理的成功率。一般采樣時要注意數(shù)據(jù)的完整性和,防止過大的偏差。筆者曾經(jīng)對1億2千萬行的表數(shù)據(jù)進行采樣,抽取出400萬行,經(jīng)測試軟件測試處理的誤差為千分之五,客戶可以接受。

      還有一些方法,需要在不同的情況和場合下運用,例如使用鍵等操作,這樣的好處是加快了聚合時間,因為對數(shù)值型的聚合比對字符型的聚合快得多。類似的情況需要針對不同的需求進行處理。

      海量數(shù)據(jù)是發(fā)展趨勢,對數(shù)據(jù)分析和挖掘也越來越重要,從海量數(shù)據(jù)中提取有用信息重要而緊迫,這便要求處理要準確,精度要高,而且處理時間要短,得到有價值信息要快,所以,對海量數(shù)據(jù)的研究很有前途,也很值得進行廣泛深入的研究。

      參考文獻:

      [1]何來坤,徐淵.虛擬現(xiàn)實建模語言VRML及其應用[J].杭州師范學院學報,2005,(2).

      數(shù)據(jù)分析方向范文第3篇

      【關鍵詞】民航氣象數(shù)據(jù)庫系統(tǒng);Oracle;宕機;inactive;LOCAL=NO

      【Abstract】Timely, accurate, standardized acquire meteorological data information of aviation is running an important basis to protect the safety of civil aviation. In this paper, we introduce a normal fault of civil aviation meteorological database system, process reach to maxProcessors led to process frequently down, so users cannot receive new message and data. We use “kill -9” command killed inactive process which have same keyword “LOCAL=NO” in Oracle database system, so we solved the error code ORA-0020 in no restart.

      【Key words】Civil aviation meteorological database system; Oracle; Down; inactive; LOCAL=NO

      0 引言

      民航氣象數(shù)據(jù)庫系統(tǒng)利用數(shù)據(jù)庫技術和商用數(shù)據(jù)庫管理系統(tǒng),對各類氣象資料進行有效的組織與管理,采用統(tǒng)一的數(shù)據(jù)模型和用戶界面,從而實現(xiàn)對氣象資料的有效存儲和快速檢索,并具有分布調(diào)用、高度共享和安全可靠等性能,為航空氣象服務、氣象業(yè)務與科研培訓提供有力的支持。航空氣象情報及氣象資料的及時、準確、標準化獲取是保障民航安全運行的重要基礎。本文介B了一起由數(shù)據(jù)庫進程數(shù)達到最大導致民航氣象數(shù)據(jù)庫進程頻繁宕機故障,并給出了故障問題處理方法。

      1 民航數(shù)據(jù)庫系統(tǒng)結構簡介

      民航氣象數(shù)據(jù)庫系統(tǒng)是具有飛行氣象情報及氣象資料的制作、交換、備供、存儲等功能的信息系統(tǒng),包括通信分系統(tǒng)、數(shù)據(jù)庫分系統(tǒng)、預報平臺及服務平臺四部分[1],如圖1所示。

      1.1 通信分系統(tǒng)

      通信分系統(tǒng)是民航氣象數(shù)據(jù)庫系統(tǒng)的基礎系統(tǒng),它主要實現(xiàn)各類氣象資料的接收、檢查、處理,并根據(jù)一定的規(guī)則向其它系統(tǒng)及地區(qū)中心進行資料分發(fā),同時實現(xiàn)氣象中心、地區(qū)中心與航站之間的數(shù)據(jù)交換。通信分系統(tǒng)將獲取的各種氣象數(shù)據(jù)發(fā)送給數(shù)據(jù)庫分系統(tǒng),數(shù)據(jù)庫分系統(tǒng)將這些數(shù)據(jù)進行分類、解析和處理后存儲在數(shù)據(jù)庫中。

      1.2 數(shù)據(jù)庫分系統(tǒng)

      數(shù)據(jù)庫分系統(tǒng)采根據(jù)存儲數(shù)據(jù)的用途及時間劃分為實時庫、歷史庫及臨時庫,分別滿足不同的業(yè)務與服務的要求。數(shù)據(jù)庫分系統(tǒng)又分為資料處理子系統(tǒng)和數(shù)據(jù)庫管理子系統(tǒng)。

      (1)資料處理子系統(tǒng)對服務器data目錄下接收到的氣象信息進行分析分解,質(zhì)量控制后入庫;

      (2)數(shù)據(jù)庫管理子系統(tǒng)采用C/S模式,對資料處理、數(shù)據(jù)庫等進行實時監(jiān)控與管理,預報平臺與服務平臺則通過獲取Oracle數(shù)據(jù)庫中的氣象資料,以不同的形式展現(xiàn)給用戶。數(shù)據(jù)庫管理子系統(tǒng)主要側(cè)重于對數(shù)據(jù)庫中氣象資料的管理。提供的主要功能有:系統(tǒng)登錄、資料處理、數(shù)據(jù)庫管理、數(shù)據(jù)庫恢復、日志和統(tǒng)計、告警、用戶管理、進程管理、系統(tǒng)配置、窗口、幫助等。

      1.3 預報平臺

      預報平臺(民航氣象信息綜合處理系統(tǒng))利用氣象實時數(shù)據(jù)庫資料,通過對數(shù)據(jù)庫中的氣象資料進行檢索、分析、處理,制作成文本、圖形等形式的氣象產(chǎn)品,為航空氣象預報人員提供服務。

      1.4 服務平臺

      氣象信息服務平臺從數(shù)據(jù)庫中提取相關產(chǎn)品,以WEB形式展示向航空氣象用戶提供航空氣象產(chǎn)品及服務。

      2 故障現(xiàn)象

      民航氣象數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)庫子系統(tǒng)運行環(huán)境:硬件環(huán)境為IBM服務器;操作系統(tǒng)為AIX5.2;數(shù)據(jù)庫系統(tǒng)為oracle 10g。

      數(shù)據(jù)庫運行一段時間后,資料處理子系統(tǒng)相關進程自動停止運行,導致621客戶端及相關協(xié)議單位無法檢索到最新資料,且重新啟動后再次停止運行或直接無法重新啟動。

      3 故障分析

      通過查看數(shù)據(jù)庫相應進程診斷文件方法檢查故障原因,數(shù)據(jù)庫診斷文件是獲取有關數(shù)據(jù)庫活動信息的一種方法,用于解決數(shù)據(jù)庫出現(xiàn)的一些問題,主要包含有關數(shù)據(jù)庫中出現(xiàn)的重要事件的一些信息,這些文件能更好的對數(shù)據(jù)庫進行日常的管理。

      5 結束語

      本文介紹了一起民航氣象數(shù)據(jù)庫常見故障,即達到進程最大連接數(shù)后導致相關用戶進程頻繁down機問題,造成用戶無法獲取最新報文和自觀數(shù)據(jù),一般較為普遍的處理方法為采用修改系統(tǒng)最大進程連接數(shù)后重新啟動數(shù)據(jù)庫,但是民航氣象數(shù)據(jù)庫對系統(tǒng)停機重啟要求較高,重啟數(shù)據(jù)庫將導致用戶無法及時獲取數(shù)據(jù),具有一定的安全風險。本文主要利用Oracle數(shù)據(jù)庫中遠程連接進程的共同特點,都含有關鍵字“LOCAL=NO”,然后經(jīng)根據(jù)關鍵字“LOCAL=NO”篩選出inactive進程使用“kill -9”強行殺掉[4],此方法可以實現(xiàn)在不重啟數(shù)據(jù)庫情況下解決ORA-0020問題。

      【參考文獻】

      [1]太極計算機股份有限公司,民航氣象衛(wèi)星傳真廣播系統(tǒng)用戶手冊[M].1-60.

      [2]李月軍.數(shù)據(jù)庫原理與設計(Oracle版)[M].北京:清華大學出版社,2012.

      數(shù)據(jù)分析方向范文第4篇

      〔關鍵詞〕科學數(shù)據(jù);開放數(shù)據(jù)政策;數(shù)據(jù)共享;研究動向

      DOI:10.3969/j.issn.1008-0821.2016.02.031

      〔中圖分類號〕G201 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)02-0167-04

      〔Abstract〕This paper systematically studied relevant research outputs and compared respective research status on open research data policy home and abroad.In order to provide references for promoting relevant research,this paper discussed the characteristics of relevant research home and abroad,pointed out the shortages of current research in China,and finally evaluated the future research trends on open research data policy in China.

      〔Key words〕research data;open data policy;research status;research trend

      科學數(shù)據(jù)(Scientific Data),也稱科研數(shù)據(jù)(Research Data),與科學論文一樣也被視為重要的科研產(chǎn)出,也是一種具有潛在經(jīng)濟價值的戰(zhàn)略資源。開放科學數(shù)據(jù)對數(shù)據(jù)驅(qū)動科學研究起到了關鍵作用,越來越多的研究是建立在對已有科學數(shù)據(jù)重用的基礎之上的。因此,完整保存并開放獲取先前研究的科學數(shù)據(jù),對于順利開展后續(xù)研究、推動科學進步具有重要意義。開放科學數(shù)據(jù)在國家科技創(chuàng)新中的戰(zhàn)略地位不斷提升,目前在開放規(guī)模和開放程度上均達到了前所未有的水平。通過開放科學數(shù)據(jù)改善社會生活受到眾多投資者、出版商、科學家和其他利益相關者的高度關注,歐洲、美國以及眾多國際組織與研究機構都積極建立開放科學數(shù)據(jù)的政策保障與管理機制。如美國已經(jīng)形成了以“完全與開放”為基本國策的科學數(shù)據(jù)開放共享法規(guī)體系;經(jīng)濟合作與發(fā)展組織(OECD)頒布了《公共資金資助的科學數(shù)據(jù)獲取原則與指南》,以指導成員國制定與完善科學數(shù)據(jù)開放共享政策;歐盟“地平線2020計劃”將科學數(shù)據(jù)新增為開放存取的對象并要求逐步達到開放性可獲取,并啟動了旨在促進科學數(shù)據(jù)獲取和再利用的“科學數(shù)據(jù)開放先導性計劃”[1]。

      我國早在2002年就已正式啟動科學數(shù)據(jù)共享工程,并先后在六大領域共計24個部門開展了科學數(shù)據(jù)共享工作。2006年以來,中國科學院國家科學圖書館提出并開展了科學數(shù)據(jù)與科技文獻跨界集成服務、數(shù)據(jù)融合技術的研究和開發(fā)。目前,我國在科學數(shù)據(jù)開放政策的制定和完善方面,與美國、英國、澳大利亞、日本、韓國、臺灣等國家和地區(qū)相比仍顯滯后。本文針對國內(nèi)外科學數(shù)據(jù)開放政策的研究現(xiàn)狀進行了比較分析,在此基礎上探討了國內(nèi)外相關研究的特點以及我國現(xiàn)有研究的不足,并對我國科學數(shù)據(jù)開放政策的未來研究動向進行了評判。

      1 國內(nèi)研究現(xiàn)狀分析

      對從CNKI和萬方數(shù)據(jù)兩大中文數(shù)據(jù)庫檢索到的相關文獻進行閱讀和梳理發(fā)現(xiàn),我國針對科學數(shù)據(jù)開放政策的相關研究可以概括為以下5個方面:

      1.1 建立開放科學數(shù)據(jù)政策保障機制的理論性研究

      目前已有較多成果是針對建立和完善科學數(shù)據(jù)開放共享政策法規(guī)的頂層設計展開論證,如劉細文(2009)指出,美國、英國以及眾多國際組織與研究機構都就科學數(shù)據(jù)開放獲取問題,積極建立政策保障與管理機制并廣泛推行相關服務與實踐,其政策舉措主要圍繞科學數(shù)據(jù)交流渠道各環(huán)節(jié),集中體現(xiàn)在數(shù)據(jù)開放資助、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)合法保護、數(shù)據(jù)保存以及數(shù)據(jù)共享利用五大方面[2]。王晴(2014)指出:國內(nèi)外20余個組織相繼制定或?qū)嵤┝?0余條旨在促進科學數(shù)據(jù)開放共享的政策法規(guī),根據(jù)制定主體和效力范圍可以分為宏觀、中觀和微觀3個層面,共同形成了一個較為完備并在不斷完善的制度體系[3]。

      1.2 針對國內(nèi)外各類科學數(shù)據(jù)開放共享政策的調(diào)查研究 目前已有部分成果針對多種政策主體(如高等院校、科研資助機構、信息服務機構等)的有關開放科學數(shù)據(jù)的聲明、指南以及政策法規(guī)等各類政策文本展開了調(diào)查分析,如司莉等(2013)考察了美國、英國、澳大利亞3個國家的科研管理機構、高校制定的數(shù)據(jù)管理政策以及政府制定的數(shù)據(jù)公開政策,并指出:發(fā)達國家的政府部門都制定了科學數(shù)據(jù)開放共享政策,對科學數(shù)據(jù)的保存與管理等均作了明確具體的規(guī)定。我國政府也應制定完善的科學數(shù)據(jù)開放共享政策,從政策層面對科學數(shù)據(jù)的開放共享進行指導和規(guī)范[4]。司莉等(2014)針對英美10所高校的科學數(shù)據(jù)開放共享政策,從一般政策、數(shù)據(jù)標準、數(shù)據(jù)訪問與保存、數(shù)據(jù)共享、數(shù)據(jù)安全與保護以及數(shù)據(jù)產(chǎn)權6個方面進行了調(diào)查與比較,揭示了英美兩國大學科學數(shù)據(jù)開放共享政策的特點與差異,指出通過借鑒國外大學科學數(shù)據(jù)開放共享政策的良好實踐,推動我國大學相關政策法規(guī)的制定和[5]。唐源等(2015)針對國外典型醫(yī)學相關機構的科學數(shù)據(jù)開放共享政策從科學數(shù)據(jù)開放資助、科學數(shù)據(jù)匯交、科學數(shù)據(jù)保存、數(shù)據(jù)共享利用4個方面的政策內(nèi)容進行文獻調(diào)研和網(wǎng)站調(diào)研,指出國外政策制定者從政府到機構自身以及期刊等具有多重身份,政策內(nèi)容集中于數(shù)據(jù)匯交和共享計劃。

      1.3 科學數(shù)據(jù)開放政策利益主體的開放共享行為研究 由于開放科學數(shù)據(jù)的利益主體一般要受到相關政策法規(guī)的制約,因此也可視為科學數(shù)據(jù)開放政策的利益主體。國內(nèi)的相關研究成果主要包括:①單一利益主體的開放共享行為的共享意愿及影響因素分析,如張晉朝(2013)通過問卷調(diào)查方法和結構方程模型,分析了我國高校科研人員科學數(shù)據(jù)共享意愿的影響因素,指出科學數(shù)據(jù)開放共享工作的順利開展不僅要關注技術維度,還要關注社會環(huán)境因素、內(nèi)在激勵、人際信任等人文維度[7]。②針對單一利益主體的開放共享行為的演化博弈分析,如莊倩等(2015)建立了參與科學數(shù)據(jù)開放共享的科研人員之間的演化博弈模型,揭示了科學數(shù)據(jù)開放共享博弈中存在的"公共品困境"及其原因,指出為促進我國科學數(shù)據(jù)開放共享健康有序發(fā)展,不能僅從國家層面制定和完善相關的戰(zhàn)略規(guī)劃,還要從政策法規(guī)層面建立相應的激勵機制[8]。

      1.4 制定開放科學數(shù)據(jù)相關知識產(chǎn)權政策法律問題的研究 雖然目前科學數(shù)據(jù)具有著作權已經(jīng)成為共識,但其使用存在著作權界定不清及其利益分配不當?shù)葐栴},尤其是科學數(shù)據(jù)二次研發(fā)過程中的著作權分配問題。司莉等(2015)從科學數(shù)據(jù)開放共享中的授權方式、數(shù)據(jù)出版及引用、技術措施、制度與法規(guī)、科學數(shù)據(jù)二次利用5個方面分別探討了科學數(shù)據(jù)著作權保護存在的問題及對策,指出我國應結合知識產(chǎn)權保護法、著作權法、專利法和中華人民共和國政府信息公開條例等已有法規(guī)條例,盡快建立完善的科學數(shù)據(jù)著作權保護體系[9]。

      1.5 基于政策文本分析的科學數(shù)據(jù)開放政策實證研究 目前國內(nèi)的相關研究成果非常有限,主要是通過內(nèi)容分析法進行政策文本分析,如裴雷(2013)通過內(nèi)容分析法構建了基于政策文本的上下位政策概念一致性的測算框架,并對我國12個領域的科學數(shù)據(jù)開放共享政策文本進行內(nèi)容編碼和實證分析,探討了當前我國科學數(shù)據(jù)開放共享政策在吸收、擴散和創(chuàng)新過程中的政策文本質(zhì)量[10]。

      2 國外研究現(xiàn)狀分析

      對從Springer、Emerald和Elsevier三大外文數(shù)據(jù)庫檢索到的相關文獻進行閱讀和梳理,可以發(fā)現(xiàn)國外科學數(shù)據(jù)開放政策研究所涉及的研究主題更為廣泛,可以大致概括為以下5個方面:

      2.1 制定科學數(shù)據(jù)開放政策的理論探討與實踐研究

      國外學者針對這一研究主題的研究成果也比較豐富,如Childs S等(2014)探討了作為實現(xiàn)開放科學數(shù)據(jù)的機制――科研數(shù)據(jù)管理(RDM)的作用以及它帶給記錄管理者的機遇,并指出開放科學數(shù)據(jù)議程的前提是盡可能公開可用的數(shù)據(jù),在開放科學數(shù)據(jù)的背景下仍然存在方法、倫理、政策和實踐等層面的問題[11]。Higman R等(2015)借鑒行動者網(wǎng)絡理論(Actor Network Theory)并結合政策分析過程和案例研究方法,考察了在英國高等教育機構中建立科學數(shù)據(jù)管理(RDM)政策與實踐的驅(qū)動因素,以及科學數(shù)據(jù)開放共享在科學數(shù)據(jù)管理過程中的關鍵作用[12]。

      2.2 科學數(shù)據(jù)開放政策利益主體的開放共享行為研究 國外學者針對科研人員的開放共享行為的共享意愿及其影響因素展開了較為系統(tǒng)的實證研究,如Wicherts J M等(2011)對心理學期刊中的統(tǒng)計結果顯著與數(shù)據(jù)共享意愿的相關性進行了實證研究,發(fā)現(xiàn)科研人員不愿意共享數(shù)據(jù)的主要原因在于:統(tǒng)計結果不構成充分的證據(jù)以及更有可能存在明顯的錯誤,并強調(diào)了建立科學數(shù)據(jù)的強制性歸檔政策的重要性[13]。Sayogo D S等(2013)指出科學數(shù)據(jù)開放共享存在多重障礙與挑戰(zhàn):①技術上的障礙;②社會、組織和經(jīng)濟上的障礙;③法律和政策上的障礙,并通過問卷調(diào)查得出影響科研人員開放共享意愿的幾個關鍵因素:數(shù)據(jù)管理技能、組織參與、法律與政策需求、向數(shù)據(jù)集提供者致謝[14]。

      2.3 面向科學數(shù)據(jù)開放政策利益主體的開放共享服務研究 國外學者針對高校圖書館、研究型圖書館、信息服務機構的科學數(shù)據(jù)開放共享服務實踐展開了廣泛的研究,國內(nèi)的相關研究主要是對國外科學數(shù)據(jù)服務實踐的案例研究及調(diào)查分析,如Nielsen H J等(2014)認為科學數(shù)據(jù)管理(RDM)是圖書館員和信息專業(yè)人員的潛在職責,研究型圖書館是選擇、保護、組織與利用科學數(shù)據(jù)的最佳場所,并應積極參與到其所在學科領域的特定領域的分析研究[15]。Tenopir C等(2014)指出數(shù)據(jù)密集型科學的出現(xiàn)和數(shù)據(jù)管理規(guī)范的制定,驅(qū)動高校圖書館為其教師和學生開展數(shù)據(jù)管理服務(RDS),并通過調(diào)查研究建立了圖書館員、圖書館、信息服務機構參與數(shù)據(jù)管理服務的評價基準[16]。

      2.4 針對專業(yè)領域科學數(shù)據(jù)開放政策的政策分析研究 國外學者針對天文、氣象、地球、生物、醫(yī)學等自然科學以及心理學、倫理學等社會科學專業(yè)領域的科學數(shù)據(jù)開放共享政策進行了政策分析研究,如Harris R等(2015)考察了參與開放地球觀測數(shù)據(jù)的八國集團、歐盟和國際組織的21個政策文本和法律文書――八國集團(G8)開放數(shù)據(jù)、全球綜合地球觀測系統(tǒng)(GEOSS)數(shù)據(jù)共享原則、經(jīng)濟合作與發(fā)展組織(OECD)科學數(shù)據(jù)原則與指南、歐洲環(huán)境信息指令等,指出地球觀測領域開放數(shù)據(jù)政策應更加明確、完整地說明開放獲取的條件,以期充分實現(xiàn)開放地球觀測數(shù)據(jù)的潛在利益[17]。

      2.5 基于政策文本分析的科學數(shù)據(jù)開放政策實證研究 國外學者進行政策文本分析時除了運用常規(guī)的內(nèi)容分析法以外,還創(chuàng)新性地引入了語義網(wǎng)分析、社會網(wǎng)絡分析等研究方法,如Jung K等(2015)對韓國《開放公共數(shù)據(jù)指令》(OPDD)的政策文本進行了語義網(wǎng)分析,并指出:利用語義網(wǎng)的概念模型及分析過程有助于確定各類公共政策針對的主要問題及解決視角的一致性[18]。

      3 國內(nèi)外研究現(xiàn)狀的比較分析

      對國內(nèi)外科學數(shù)據(jù)開放政策的相關研究進行對比,可以發(fā)現(xiàn)具有以下幾個特點:①總體來看,我國學者針對科學數(shù)據(jù)開放政策各研究主題的相關研究,目前大多處于對國外先進政策實踐的案例研究與調(diào)查分析階段。②國內(nèi)外針對科學數(shù)據(jù)開放政策的相關研究目前主要以英美兩國的政策實踐為主,原因在于英美兩國已經(jīng)建立起相對完善的科學數(shù)據(jù)開放政策法規(guī)體系,如經(jīng)濟合作與發(fā)展組織(OECD)于2007年頒布了《公共資助科學數(shù)據(jù)開放獲取的原則和指南》,提倡所有的獲公共資金支持得到的科學數(shù)據(jù)都應能被公眾獲取、共享。美國、英國等一些重要基金機構也提出了科學數(shù)據(jù)開放政策指南,如美國國家科學基金會(NSF)、美國國立衛(wèi)生研究院(NIH)、美國國家航空航天局(NASA)、英國研究理事會(RCUK)等,要求所有獲得資助的項目提交科學數(shù)據(jù)的開放共享計劃。美國科技政策辦公室(OSTP)于2013年簽署了關于“提高聯(lián)邦政府資助的科學研究結果的訪問”的備忘錄,要求由聯(lián)邦資金資助所產(chǎn)生的非保密的科學數(shù)據(jù),應該存儲并為公眾提供免費的最大化訪問[19]。③國內(nèi)外對于具體專業(yè)領域的科學數(shù)據(jù)開放政策的研究相對較多,但對于國家統(tǒng)一綜合層面的科學數(shù)據(jù)開放政策研究十分有限。

      對比國內(nèi)外開放數(shù)據(jù)政策研究的現(xiàn)狀不難看出,國內(nèi)相關研究主要存在以下不足:①目前的研究成果主要是針對國外高等院校、信息服務機構和科研資助機構的科學數(shù)據(jù)開放共享政策的調(diào)查研究與比較分析,但從整體來看這類研究成果的研究內(nèi)容比較分散、系統(tǒng)性不強;②已有研究針對參與科學數(shù)據(jù)開放的單一利益主體(如研究人員)的開放共享行為進行了演化博弈分析,尚未發(fā)現(xiàn)針對參與科學數(shù)據(jù)開放的多個利益主體之間的演化博弈分析的相關研究;③針對科學數(shù)據(jù)開放政策的政策文本分析目前主要采用內(nèi)容分析法,尚未展開借鑒多學科理論與方法的政策文本分析方法的探索性研究;④尚未展開針對科學數(shù)據(jù)開放政策群的政策協(xié)同研究,已有學者針對政府數(shù)據(jù)的開放數(shù)據(jù)政策與數(shù)據(jù)安全政策的協(xié)同關系展開研究[20],如黃道麗等(2015)分析了美國政府的開放數(shù)據(jù)政策與網(wǎng)絡安全政策之間的沖突與協(xié)調(diào)[21],但尚未發(fā)現(xiàn)有針對科學數(shù)據(jù)展開的類似研究;⑤尚未從政策科學的研究視角展開系統(tǒng)性的科學數(shù)據(jù)開放政策評估研究。

      4 我國未來研究動向評判

      通過以上的比較分析,筆者認為,我國圖書情報及相關學科領域研究者應展開協(xié)作研究,并從以下5個方面強化和拓展這一重要的跨學科研究領域。

      4.1 各類科學數(shù)據(jù)開放政策的調(diào)查與比較分析

      針對主要發(fā)達國家的政府部門、高等院校與科研機構以及各類國際組織的有關開放科學數(shù)據(jù)的聲明、指南以及政策法規(guī)等各類政策文本展開廣泛的調(diào)查分析,比較和分析各類政策文本中有關一般政策、數(shù)據(jù)標準、數(shù)據(jù)共享、數(shù)據(jù)保存、數(shù)據(jù)安全和數(shù)據(jù)產(chǎn)權等方面內(nèi)容的特點與差異,合理借鑒發(fā)達國家在政策的系統(tǒng)性、一致性、完善性方面的經(jīng)驗,為推進我國科學數(shù)據(jù)開放政策的制定與完善提供必要的參考借鑒。

      4.2 科學數(shù)據(jù)開放政策多個利益主體的博弈分析

      現(xiàn)有的研究成果主要是針對參與科學數(shù)據(jù)開放的單一利益主體(如研究人員)的博弈分析,在后續(xù)研究中可針對參與科學數(shù)據(jù)開放的多個利益主體(研究人員、科研機構、數(shù)據(jù)中心、資助者、出版者、第三方用戶等)之間的利益訴求關系展開研究,建立參與科學數(shù)據(jù)開放的多個利益主體之間的演化博弈模型,探索促進多個利益主體開放科學數(shù)據(jù)的激勵機制,為從微觀層面制定和完善科學數(shù)據(jù)開放政策提供演化博弈的理論框架。

      4.3 基于多學科方法的科學數(shù)據(jù)開放政策文本分析

      值得關注的研究方向包括:①借鑒多學科理論與方法對政策文本進行內(nèi)容分析,如借鑒扎根理論的“信息提取-歸納-概念化-重組”思想,對各類科學數(shù)據(jù)開放政策文本進行解構、分類和比較,提取科學數(shù)據(jù)開放政策的區(qū)分要素,確定政策文本結構化編碼體系和分類標準,將政策文本轉(zhuǎn)化為半結構化數(shù)據(jù),建立類定量化的政策文本分析框架。②基于知識單元的政策文本分析方法的探索性研究,如借助于語義網(wǎng)分析和社會網(wǎng)絡分析方法,探索政策文本的詞匯分析單元之間的語義關聯(lián)關系,并可通過軟件工具進行網(wǎng)絡結構分析及可視化展示。

      4.4 各類科學數(shù)據(jù)開放政策的政策協(xié)同研究

      值得關注的研究方向包括:①科學數(shù)據(jù)開放政策群內(nèi)部的政策協(xié)同研究。通過內(nèi)容分析法對各類科學數(shù)據(jù)開放政策進行政策文本分析,從政策連續(xù)性、政策互補性、政策交叉性、政策缺失性及政策矛盾性等多個維度考察科學數(shù)據(jù)開放政策群內(nèi)部的政策協(xié)同。②科學數(shù)據(jù)開放政策群與數(shù)據(jù)安全政策群的政策協(xié)同研究。借鑒協(xié)同論思想和政策協(xié)同理論及工具,設計科學數(shù)據(jù)開放政策群與《中華人民共和國保守國家秘密法》、《中華人民共和國科學技術保密規(guī)定》以及其他相關部門頒布的保密規(guī)定等數(shù)據(jù)安全政策群的政策協(xié)同機制,制定科學數(shù)據(jù)開放政策群與數(shù)據(jù)安全政策群的政策協(xié)同策略。

      4.5 科學數(shù)據(jù)開放政策的政策分析與評估研究

      將側(cè)重于定性分析的政策分析研究與側(cè)重于定量分析的政策評估研究相結合,針對科學數(shù)據(jù)開放政策,從政策科學的學科視角進行多角度的政策分析與評估研究,如針對科學數(shù)據(jù)開放政策完整的生命周期中的每一環(huán)節(jié)――政策提案、政策制定、政策實施、政策反饋和政策調(diào)整,綜合運用多種政策科學相關理論、方法與工具進行系統(tǒng)性的政策評估研究;運用層次分析法、模糊綜合評判法、數(shù)據(jù)包絡分析法和灰色關聯(lián)度法等政策評估方法,建立科學數(shù)據(jù)開放政策評估指標體系并進行指標權重分析,采用數(shù)學模型及軟件工具構建科學數(shù)據(jù)開放政策評估模型并進行模擬實驗。

      5 結 論

      通過CNKI和萬方數(shù)據(jù)兩大中文數(shù)據(jù)庫以及Springer、Emerald和Elsevier三大外文數(shù)據(jù)庫,筆者對國內(nèi)外現(xiàn)有的科學數(shù)據(jù)開放政策的相關研究成果進行了比較研究,并在此基礎上探討了國內(nèi)外相關研究的特點:目前國內(nèi)的相關研究基本處于對國外先進政策實踐的案例研究與調(diào)查分析階段,國內(nèi)外針對科學數(shù)據(jù)開放政策的相關研究目前主要以英美兩國的政策實踐為主。結合科學數(shù)據(jù)開放政策相關領域的學術研究與實踐進展,我國在這一跨學科研究領域未來可能出現(xiàn)五大研究動向:①各類科學數(shù)據(jù)開放政策的調(diào)查與比較分析;②科學數(shù)據(jù)開放政策多個利益主體的博弈分析;③基于多學科方法的科學數(shù)據(jù)開放政策文本分析;④各類科學數(shù)據(jù)開放政策的政策協(xié)同研究;⑤科學數(shù)據(jù)開放政策的政策分析與評估研究。從而推動我國開放科學數(shù)據(jù)的政策保障與管理機制的建立。

      參考文獻

      [1]韓纓.歐盟“地平線2020計劃”相關知識產(chǎn)權規(guī)則與開放獲取政策研究[J].知識產(chǎn)權,2015,(3):92-96.

      [2]劉細文,熊瑞.國外科學數(shù)據(jù)開放獲取政策特點分析[J].情報理論與實踐,2009,32(9):5-9.

      [3]王晴.論科學數(shù)據(jù)開放共享的運行模式、保障機制及優(yōu)化策略[J].國家圖書館學刊,2014,(1):3-9.

      [4]司莉,邢文明.國外科學數(shù)據(jù)管理與共享政策調(diào)查及對我國的啟示[J].情報資料工作,2013,(1):61-66.

      [5]司莉,辛娟娟.英美高校科學數(shù)據(jù)管理與共享政策的調(diào)查分析[J].圖書館論壇,2014,(9):80-85,65.

      [6]唐源,吳丹.國外醫(yī)學科學數(shù)據(jù)共享政策調(diào)查及對我國的啟示[J].圖書情報工作,2015,59(18):6-13.

      [7]張晉朝.我國高校科研人員科學數(shù)據(jù)共享意愿研究[J].情報理論與實踐,2013,36(10):25-30.

      [8]莊倩,何琳.科學數(shù)據(jù)共享中科研人員共享行為的演化博弈分析[J].情報雜志,2015,34(8):152-157.

      [9]司莉,賈歡,邢文明.科學數(shù)據(jù)著作權保護問題與對策研究[J].圖書與情報,2015,(4):118-122.

      [10]裴雷.我國科學數(shù)據(jù)共享政策概念一致性與政策質(zhì)量評估[J].情報理論與實踐,2013,36(9):28-31.

      [11]Childs S,McLeod J,Lomas E,et al.Opening research data:issues and opportunities[J].Records Management Journal,2014,24(2):142-162.

      [12]Higman R,Pinfield S.Research data management and openness:The role of data sharing in developing institutional policies and practices[J].Program:Electronic library and information systems,2015,49(4):364-381.

      [13]Wicherts J M,Bakker M,Molenaar D.Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results[J].PLoS ONE,2011,6(11):1-7.

      [14]Sayogo D S,Pardo T A.Exploring the determinants of scientific data sharing:Understanding the motivation to publish research data[J].Government Information Quarterly,2013,30(S1):19-31.

      [15]Nielsen H J,Hjrland B.Curating research data:the potential roles of libraries and information professionals[J].Journal of Documentation,2014,70(2):221-240.

      [16]Tenopir C,Sandusky R J,Allard S,et al.Research data management services in academic research libraries and perceptions of librarians[J].Library & Information Science Research,2014,36:84-90.

      [17]Harris R,Baumann I.Open data policies and satellite Earth observation[J].Space Policy,2015,32:44-53.

      [18]Jung K,Park H W.A semantic(TRIZ)network analysis of South Koreas“Open Public Data”policy[J].Government Information Quarterly,2015,32(3):353-358.

      [19]黃永文,張建勇,黃金霞,等.國外開放科學數(shù)據(jù)研究綜述[J].現(xiàn)代圖書情報技術,2013,(5):21-27.

      數(shù)據(jù)分析方向范文第5篇

      根據(jù)不完全統(tǒng)計,2016年1D6月,全球大數(shù)據(jù)領域共計發(fā)生157起投融資事件,其中中國發(fā)生了97起,超過總量的一半,其次為美國,發(fā)生41起,其他國家在大數(shù)據(jù)領域的投融資事件數(shù)量遠遠落后于中國和美國。

      2016年1D6月,中國大數(shù)據(jù)領域投融資金額規(guī)模達到503.70億元,排名第二的美國,投融資金額規(guī)模為111.38億元。其他上億元投資的國家分別為以色列5.35億元、英國4.32億元、德國2.24億元、加拿大1.06億元。

      中美大數(shù)據(jù)領域投融資對比

      從2016年上半年的整體投融資狀況來看,中國和美國的投融資事件占全球絕大多數(shù)的比例,中美兩國大數(shù)據(jù)業(yè)務的發(fā)展基本代表了大數(shù)據(jù)在全球的發(fā)展狀況。深入對比中美大數(shù)據(jù)領域的投資,對掌握大數(shù)據(jù)的應用方向和技術方向具有較大的意義。

      從圖3可以看出,在大數(shù)據(jù)行業(yè)應用方面,中美都有涉及的行業(yè)有醫(yī)療、營銷、物流、娛樂、體育和教育。其中,醫(yī)療領域是2016年上半年行業(yè)中發(fā)生投融資事件最多的領域,中國發(fā)生18起,美國發(fā)生5起;其次為營銷領域,中國發(fā)生6起,美國發(fā)生3起。

      相比美國,大數(shù)據(jù)的應用行業(yè)在中國更加廣泛和活躍,2016年上半年中國有大數(shù)據(jù)投資而美國尚未涉及的領域比較多,如媒體、交通、金融、汽車、物聯(lián)網(wǎng)、藝術、招聘、旅游、農(nóng)業(yè)和租房等領域。其中媒體行業(yè)發(fā)生10起投融資事件,交通行業(yè)發(fā)生6起,金融行業(yè)發(fā)生6起。

      在大數(shù)據(jù)技術應用方面,2016年上半年涉及的投融資方向有數(shù)據(jù)分析、數(shù)據(jù)應用、數(shù)據(jù)安全和數(shù)據(jù)工具。其中數(shù)據(jù)分析方向投融資事件最多,美國15起,中國14起;其次為數(shù)據(jù)工具方向,美國8起,中國5起;數(shù)據(jù)應用方向,中國6起,美國3起;數(shù)據(jù)安全方向,中國5起,美國3起。

      從投融資的金額規(guī)模上看,2016年上半年,中國和美國的側(cè)重點各不相同,中國偏重于大數(shù)據(jù)行業(yè)領域的應用,而美國側(cè)重于大數(shù)據(jù)技術領域的應用。2016年上半年中國在大數(shù)據(jù)行業(yè)應用的投資總規(guī)模達到485.1億元,在大數(shù)據(jù)技術應用領域只有18.6億元;美國在大數(shù)據(jù)行業(yè)應用領域的總投資規(guī)模為26.9億元,在大數(shù)據(jù)技術應用領域達到84.4億元。

      中國投融資規(guī)模的TOP3均為行業(yè)領域,分別為交通、物流和醫(yī)療,投融資規(guī)模分別為305.4億元、105.0億元和50.7億元。而美國投融資規(guī)模的TOP3中有兩個為技術領域,分別為數(shù)據(jù)工具44.2億元、數(shù)據(jù)分析31.3億元;有一個為行業(yè)領域――醫(yī)療16.6億元。在行業(yè)應用方面,中美投資事件最多的均為醫(yī)療領域。

      中美數(shù)據(jù)分析領域投融資市場對比

      可以看出,美國比較側(cè)重發(fā)展大數(shù)據(jù)的技術應用,而數(shù)據(jù)分析是大數(shù)據(jù)技術應用領域投融資最多的技術方向。2016年上半年,中國在數(shù)據(jù)分析方向的投融資事件達到14起,美國15起,高于中國。在金額方面美國更是遠遠超過中國,投融資金額高達31.3億元,而中國只有7.3億元。

      2016年上半年,數(shù)據(jù)分析領域的投融資事件主要集中在分析平臺、用戶分析和商業(yè)智能方向,分別發(fā)生投融資事件12起、10起和3起,各自占比為41%、35%和10%;其他幾個方向的占比都比較小。從金額分布上看,分析平臺占比最大,達到61%,其次為用戶分析16%,可視化分析13%。

      亚洲精品人成电影网| 亚洲精品视频免费看| 亚洲午夜AV无码专区在线播放| 亚洲∧v久久久无码精品| 亚洲一卡2卡4卡5卡6卡在线99| 亚洲国产aⅴ综合网| 亚洲视频精品在线| 爱爱帝国亚洲一区二区三区| 久久久青草青青国产亚洲免观| 国产成人精品日本亚洲专| 毛茸茸bbw亚洲人| 亚洲一区二区视频在线观看| 亚洲国产一区视频| 亚洲国产成人久久综合一区77| 亚洲综合伊人久久大杳蕉| 久久精品国产亚洲av麻豆| 亚洲男人在线无码视频| 亚洲AV香蕉一区区二区三区| 亚洲精品国产成人专区| 久久影视综合亚洲| 精品亚洲成α人无码成α在线观看| 国产成人综合亚洲一区| 亚洲男女性高爱潮网站| 亚洲图片一区二区| 亚洲国产成人五月综合网| 亚洲国产精品无码久久青草| 国产亚洲美女精品久久| 亚洲成a人片在线观看久| 亚洲日韩国产成网在线观看| 亚洲国产午夜福利在线播放| 亚洲婷婷国产精品电影人久久| 亚洲乱码日产精品一二三| 亚洲视频一区在线播放| 亚洲熟女少妇一区二区| 亚洲一区二区三区久久| 亚洲va乱码一区二区三区| 亚洲一卡2卡3卡4卡乱码 在线| 亚洲av无码潮喷在线观看| 国产亚洲人成在线播放| 亚洲国产精品激情在线观看| 亚洲一区二区女搞男|