時(shí)間:2023-09-05 16:32:12
序論:在您撰寫(xiě)數(shù)據(jù)分析分析技術(shù)時(shí),參考他人的優(yōu)秀作品可以開(kāi)闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
關(guān)鍵詞 數(shù)據(jù)挖掘技術(shù) 警務(wù)系統(tǒng) 數(shù)據(jù)分析 應(yīng)用
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
1數(shù)據(jù)挖掘技術(shù)在警務(wù)數(shù)據(jù)分析系統(tǒng)中的重要性
警務(wù)系統(tǒng)由于工作的特點(diǎn),要不斷地接受外來(lái)數(shù)據(jù)和有序存儲(chǔ)舊數(shù)據(jù),這就對(duì)警務(wù)系統(tǒng)的數(shù)據(jù)處理系統(tǒng)有越來(lái)越高的要求,傳統(tǒng)的警務(wù)數(shù)據(jù)處理系統(tǒng)在信息量巨大的現(xiàn)今社會(huì)已經(jīng)不能再有效的完善數(shù)據(jù)庫(kù)的運(yùn)行,這就需要新型的數(shù)據(jù)處理系統(tǒng)接替工作。新型的數(shù)據(jù)處理系統(tǒng)在案件的信息提取、視頻分析等方面都應(yīng)該有卓越的性能,將對(duì)案情有幫助的信息從大數(shù)據(jù)庫(kù)中有效的提取出來(lái)。數(shù)據(jù)挖掘技術(shù)是一項(xiàng)在能夠提高警務(wù)系統(tǒng)在數(shù)據(jù)的提取和挖掘效率的一項(xiàng)技術(shù),能在短時(shí)間內(nèi)將案件中的數(shù)據(jù)作為數(shù)據(jù)源,將其進(jìn)行分析和建模,從而從這些數(shù)據(jù)中獲得有力的線索。
2目前警務(wù)系統(tǒng)特點(diǎn)
現(xiàn)今的警務(wù)系統(tǒng)是跟隨時(shí)代不斷發(fā)展的一個(gè)工作效率高、工作素質(zhì)強(qiáng)的組織系統(tǒng),有案件處理速度快、案件分析效率高的特點(diǎn)。這些特點(diǎn),都需要警務(wù)系統(tǒng)中數(shù)據(jù)處理系統(tǒng)的有效應(yīng)用,通過(guò)對(duì)數(shù)據(jù)的處理分析、檢查對(duì)比得出較有價(jià)值的案件線索,從而提高效率。警務(wù)系統(tǒng)的正常運(yùn)行離不開(kāi)數(shù)據(jù)處理系統(tǒng),而數(shù)據(jù)挖掘技術(shù)更是數(shù)據(jù)處理系統(tǒng)的重要組成部分,它確保了整個(gè)系統(tǒng)的運(yùn)行速度,對(duì)案件的偵查有促進(jìn)作用。
3構(gòu)建警務(wù)系統(tǒng)數(shù)據(jù)存儲(chǔ)器
基于警務(wù)系統(tǒng)的數(shù)據(jù)特點(diǎn),警務(wù)系統(tǒng)應(yīng)該建立一個(gè)高速運(yùn)行的警務(wù)系統(tǒng)數(shù)據(jù)存儲(chǔ)器。“數(shù)據(jù)存儲(chǔ)器”在結(jié)構(gòu)上分為三個(gè)部分,分別是關(guān)系系統(tǒng)、OLAP服務(wù)器以及客戶處理系統(tǒng)。這三個(gè)部分的作用效果如下:
3.1關(guān)系系統(tǒng)
關(guān)系系統(tǒng)是這三個(gè)組成部分的基礎(chǔ)部分,這個(gè)系統(tǒng)負(fù)責(zé)對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行整理和提取、刷新,將數(shù)據(jù)在整個(gè)系統(tǒng)中的存儲(chǔ)位置有序的排列好,防止數(shù)據(jù)丟失和數(shù)據(jù)殘缺的現(xiàn)象發(fā)生。關(guān)系系統(tǒng)在運(yùn)行的過(guò)程中通過(guò)警務(wù)系統(tǒng)不斷的收集新的信息,將其整理保存,始終將數(shù)據(jù)系統(tǒng)中的有效信息得到較完好的保護(hù)。
3.2 OLAP服務(wù)器
OLAP是聯(lián)機(jī)處理的縮寫(xiě),是將多角度的信息共享并由一個(gè)關(guān)鍵的出發(fā)點(diǎn)而聯(lián)機(jī)進(jìn)行數(shù)據(jù)處理分析的一個(gè)軟件技術(shù),在警務(wù)系統(tǒng)中可將需要處理的信息進(jìn)行聯(lián)機(jī)處理分析,將信息較快的處理出來(lái),得到有效的結(jié)論。
3.3客戶處理系統(tǒng)
客戶處理系統(tǒng)是將數(shù)據(jù)進(jìn)行分析處理以及檢索和報(bào)告的一個(gè)系統(tǒng),通過(guò)對(duì)數(shù)據(jù)之間的聯(lián)系將數(shù)據(jù)的信息整理和挖掘出來(lái),形成有用的線索,供警務(wù)系統(tǒng)人員進(jìn)行案件的偵破和處理,是數(shù)據(jù)存儲(chǔ)器的重要部分,特別是數(shù)據(jù)挖掘技術(shù)的應(yīng)用時(shí)整個(gè)系統(tǒng)的運(yùn)作重心。
4數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行采集、集成以及分析的一項(xiàng)技術(shù),其應(yīng)用到警務(wù)系統(tǒng)中可以對(duì)案件相關(guān)信息進(jìn)行檢索和分析,應(yīng)用了多維數(shù)據(jù)分析處理及關(guān)聯(lián)規(guī)則的應(yīng)用、聚類分析方法的實(shí)際處理等數(shù)據(jù)挖掘分析處理模式將警務(wù)系統(tǒng)中的數(shù)據(jù)有效的聯(lián)系起來(lái),形成一個(gè)較為完整的數(shù)據(jù)挖掘模式。
在挖掘出境數(shù)據(jù)時(shí),數(shù)據(jù)挖掘技術(shù)的決策樹(shù)技術(shù)有效應(yīng)用,與縣贏得算法技術(shù)相互應(yīng),將數(shù)據(jù)較為完整的從警務(wù)系統(tǒng)中巨大的信息庫(kù)中挖掘出來(lái),實(shí)現(xiàn)了數(shù)據(jù)挖掘的分級(jí)處理模式的有效應(yīng)用。
5數(shù)據(jù)挖掘技術(shù)在現(xiàn)代警務(wù)系統(tǒng)中的應(yīng)用
在警務(wù)系統(tǒng)中,數(shù)據(jù)挖掘系統(tǒng)在案件的相關(guān)數(shù)據(jù)中整理生成了一個(gè)多維數(shù)據(jù)模型,使信息可視化、將案件信息的關(guān)系更加清楚的展現(xiàn)在警務(wù)系統(tǒng)的工作人員面前,通過(guò)多角度、多方面的分析和挖掘,將系統(tǒng)中的有用信息全部呈現(xiàn)在報(bào)告中,實(shí)現(xiàn)了信息的有效用。
6結(jié)語(yǔ)
警務(wù)系統(tǒng)中的信息有多樣化、復(fù)雜化、信息量巨大的特點(diǎn),使用傳統(tǒng)的數(shù)據(jù)庫(kù)是不能按照現(xiàn)代的社會(huì)發(fā)展速度生存的,對(duì)數(shù)據(jù)進(jìn)行高效的分析處理和采集,是現(xiàn)代警務(wù)數(shù)據(jù)處理系統(tǒng)應(yīng)該具有的一項(xiàng)特點(diǎn)。在數(shù)據(jù)處理速度快的前提下,數(shù)據(jù)處理系統(tǒng)的管理能力和聯(lián)系能力也應(yīng)該是突出的,本文中提到的數(shù)據(jù)挖掘技術(shù)就是解決數(shù)據(jù)處理問(wèn)題的有效解決辦法,其運(yùn)行通過(guò)對(duì)數(shù)據(jù)的建模、分析、采集等手段強(qiáng)化了數(shù)據(jù)處理系統(tǒng)的能力,為警務(wù)系統(tǒng)中案件處理效率的提升做出了一定的貢獻(xiàn)。目前社會(huì)的高速發(fā)展離不開(kāi)大數(shù)據(jù)的支持,大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)的處理系統(tǒng)要求越來(lái)越高,數(shù)據(jù)挖掘技術(shù)近些年在警務(wù)信息系統(tǒng)中的引用為警務(wù)系統(tǒng)的發(fā)展提供了技術(shù)上的有效支持,警務(wù)系統(tǒng)未來(lái)的發(fā)展肯定也離不開(kāi)數(shù)據(jù)的有效處理工作,數(shù)據(jù)挖掘系統(tǒng)在未來(lái)的警務(wù)數(shù)據(jù)分析系統(tǒng)中也會(huì)有不斷地改善和提高。
參考文獻(xiàn)
[1] 劉敏,朱鵬,方有軒.面向市場(chǎng)分析人員的經(jīng)分模型庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦與電信,2016(09) .
[關(guān)鍵詞]數(shù)據(jù)倉(cāng)庫(kù)聯(lián)機(jī)分析處理多維數(shù)據(jù)分析
中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)1110077-01
一、引言
聯(lián)機(jī)分析處理(Online Analytical Processing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd于1993年提出的,OLAP是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析。通過(guò)對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入地觀察。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。
二、OLAP的多維數(shù)據(jù)結(jié)構(gòu)
數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很大。因此,OLAP系統(tǒng)的開(kāi)發(fā)者要設(shè)法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問(wèn)題。事實(shí)上,有許多方法可以構(gòu)造多維數(shù)據(jù)。
(一)超立方結(jié)構(gòu)。超立方結(jié)構(gòu)指用三維或更多的維數(shù)來(lái)描述一個(gè)對(duì)象,每個(gè)維彼此垂直。數(shù)據(jù)的測(cè)量值發(fā)生在維的交叉點(diǎn)上,數(shù)據(jù)空間的各個(gè)部分都有相同的維屬性。
這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫(kù)和面向關(guān)系數(shù)據(jù)庫(kù)的OLAP系統(tǒng)中,其主要特點(diǎn)是簡(jiǎn)化終端用戶的操作。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。
(二)多立方結(jié)構(gòu)。在多立方結(jié)構(gòu)中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個(gè)多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集,面向某一特定應(yīng)用對(duì)維進(jìn)行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強(qiáng)的靈活性,提高了數(shù)據(jù)的分析效率。
一般來(lái)說(shuō),多立方結(jié)構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。超立方結(jié)構(gòu)可以提供高水平的報(bào)告和多維視圖。多立方結(jié)構(gòu)具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲(chǔ)稀疏矩陣的一個(gè)更有效方法,并能減少計(jì)算量。因此,復(fù)雜的系統(tǒng)及預(yù)先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu),以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整,滿足常用的應(yīng)用需求。
許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu),它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu),但卻利用超立方結(jié)構(gòu)來(lái)進(jìn)行計(jì)算,結(jié)合了超立方結(jié)構(gòu)的簡(jiǎn)化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲(chǔ)特性。
三、OLAP的多維數(shù)據(jù)分析
多維數(shù)據(jù)分析是指對(duì)以多維形式組織起來(lái)的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)和鉆取等各種分析動(dòng)作,以求剖析數(shù)據(jù),使最終用戶能從多個(gè)角度、多側(cè)面地觀察數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人們的思維模式,因:
(一)切片。定義1:在多維數(shù)組的某一維上選定一維成員的動(dòng)作成為切片,即在多維數(shù)組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設(shè)為“維成員vi”),所得的多維數(shù)組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個(gè)切片。
按照定義1,一次切片一定是原來(lái)的維數(shù)減1。所以,所得的切片并不一定是二維的“平面”,其維數(shù)取決于原來(lái)的多維數(shù)據(jù)的維數(shù),這樣的切片定義不通俗易懂。下面給出另一個(gè)比較直觀的定義。
定義2:選定多維數(shù)組的一個(gè)二維子集的動(dòng)作叫做切片,既選定多維數(shù)組(維1、維2、....維n,變量)中的兩個(gè)維:維i和維j,在這兩個(gè)維上取某一區(qū)間或者任意維成員,而將其余的維都取定一個(gè)維成員,則得到的就是多維數(shù)組在維i和維j上的一個(gè)二維子集,稱這個(gè)二維子集為多維數(shù)組在維i和維j上的一個(gè)切片,表示為(維i和維j,變量)。
按照定義2,不管原來(lái)的維數(shù)有多少,數(shù)據(jù)切片的結(jié)果一定是一個(gè)二維的“平面”。從另一個(gè)角度來(lái)講,切片就是在某個(gè)或某些維上選定一個(gè)維成員,而在某兩個(gè)維上取一定區(qū)間的維成員或全部維成員。從定義2可知:
1.一個(gè)多維數(shù)組的切片最終是由該數(shù)組中除切片所在平面的兩個(gè)維之外的其它維的成員值確定的。
2.維是觀察數(shù)據(jù)的角度,那么切片的作用或結(jié)果就是舍棄一些觀察角度,使人們能在兩個(gè)維上來(lái)集中觀察數(shù)據(jù),因?yàn)槿说目臻g想象力有限,所以,對(duì)于維數(shù)較多的多維數(shù)據(jù)空間,進(jìn)行數(shù)據(jù)切片是十分有意義的。比照定義1,我們可以將切片的這兩個(gè)定義聯(lián)系起來(lái),對(duì)于一個(gè)n維數(shù)組,按定義1進(jìn)行的n-2切片的結(jié)果,就必定對(duì)應(yīng)于按定義2進(jìn)行的某一次切片的結(jié)果。
(二)切塊。定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動(dòng)作稱為切塊,即限制多維數(shù)組在某一維的取值區(qū)間。顯然,當(dāng)這一區(qū)間只取一個(gè)維成員時(shí),即得到一個(gè)切片。
定義2:選定多維數(shù)組的一個(gè)三維子集的動(dòng)作稱為切塊,即選定多維數(shù)組(維1、維2、....維n,變量)中的三個(gè)維:維i、維j、維r,在這三個(gè)維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個(gè)維成員,則得到的就是多維數(shù)組在維i、維j、維r上的三維子集,我們稱這個(gè)三維子集為多維數(shù)組在維i、維j、維r上的一個(gè)切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。
(三)旋轉(zhuǎn)。旋轉(zhuǎn)既是改變一個(gè)報(bào)告或者頁(yè)面的維方向。例如:旋轉(zhuǎn)可能包含了交換行與列;或是把某一個(gè)行維移到列維,或是把頁(yè)面顯示中的一個(gè)維和頁(yè)面外的維進(jìn)行交換(令其成為新的行或者列的一個(gè))。
(四)鉆取。
鉆取處理是使用戶在數(shù)據(jù)倉(cāng)庫(kù)的多層數(shù)據(jù)中,能夠通過(guò)導(dǎo)航信息而獲得更多的細(xì)節(jié)性數(shù)據(jù),鉆取一般是指向下鉆取。大多數(shù)的OLAP工具可以讓用戶鉆取至一個(gè)數(shù)據(jù)集中有更好細(xì)節(jié)描述的數(shù)據(jù)層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。
(五)多視圖模式。人們發(fā)現(xiàn),獲取相同的信息,圖形顯示所帶來(lái)的直觀性有時(shí)是簡(jiǎn)單的數(shù)據(jù)表所無(wú)法提供的。一個(gè)OLAP系統(tǒng),應(yīng)當(dāng)采取多種不同的格式顯示數(shù)據(jù),使用戶能夠獲得最佳的觀察數(shù)據(jù)的視角。
四、結(jié)語(yǔ)
隨著數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展,OLAP也得到了迅猛的發(fā)展。數(shù)據(jù)倉(cāng)庫(kù)側(cè)重于存儲(chǔ)和管理面向決策主題的數(shù)據(jù),而OLAP則側(cè)重于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。OLAP的一個(gè)重要特點(diǎn)是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補(bǔ)充的關(guān)系。將有助于我們解決數(shù)據(jù)處理中的復(fù)雜問(wèn)題。
參考文獻(xiàn):
[1]彭木根,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與實(shí)現(xiàn),電子工業(yè)出版社,2002.9.
1計(jì)算機(jī)大數(shù)據(jù)分析中云計(jì)算技術(shù)作用分析
云計(jì)算技術(shù)可以給提供計(jì)算機(jī)數(shù)據(jù)傳遞與共享的條件,融合軟硬件數(shù)據(jù)保存,促進(jìn)計(jì)算機(jī)處理工作更好的開(kāi)展。云計(jì)算技術(shù)可以給用戶提供良好的網(wǎng)絡(luò)環(huán)境與保存空間,處理數(shù)據(jù)傳遞環(huán)節(jié)的各項(xiàng)問(wèn)題。與傳統(tǒng)大數(shù)據(jù)分析技術(shù)相比,云計(jì)算計(jì)算可以提高大數(shù)據(jù)分析質(zhì)量。人們借助云計(jì)算技術(shù)獲得云終端的數(shù)據(jù),切實(shí)滿足人們對(duì)于數(shù)據(jù)的需求?,F(xiàn)階段計(jì)算機(jī)市場(chǎng)形成完善的結(jié)構(gòu)體系,圍繞云計(jì)算技術(shù)推動(dòng)計(jì)算機(jī)大數(shù)據(jù)分析工作的開(kāi)展,奠定后期云計(jì)算技術(shù)發(fā)展的基礎(chǔ)。目前,人們生活中全面運(yùn)用云計(jì)算技術(shù),基于云計(jì)算技術(shù)研發(fā)的服務(wù)器及操作系統(tǒng)方便人們處理各類信息技術(shù)。同時(shí),云計(jì)算技術(shù)數(shù)據(jù)保存有著較強(qiáng)的安全性,極小可能出現(xiàn)數(shù)據(jù)丟失情況,滿足人們的實(shí)際需求,直接體現(xiàn)出云計(jì)算技術(shù)的優(yōu)勢(shì)。優(yōu)化云計(jì)算環(huán)境下計(jì)算機(jī)的數(shù)據(jù)處理中心,就可以不斷提升計(jì)算機(jī)的云計(jì)算能力,讓云計(jì)算不僅為網(wǎng)絡(luò)信息所用,還在計(jì)算機(jī)網(wǎng)絡(luò)安全中發(fā)揮極為重要的作用。目前,計(jì)算機(jī)的使用人群更為注重的是在高速發(fā)達(dá)的信息社會(huì),自己的信息,也就是使用計(jì)算機(jī)網(wǎng)絡(luò)的安全性能是否能得到保障,這時(shí)候考驗(yàn)的就是云計(jì)系統(tǒng)的完善性。目前存在的最主要計(jì)算機(jī)安全問(wèn)題就是黑客問(wèn)題和系統(tǒng)漏洞問(wèn)題。系統(tǒng)漏洞這一人為因素可以通過(guò)不斷檢索進(jìn)行漏洞的發(fā)現(xiàn)和修補(bǔ),面對(duì)黑客的攻擊,能夠做的就是防患于未然,不斷地升級(jí)和優(yōu)化系統(tǒng),最終達(dá)到完善的數(shù)據(jù)處理效果。
2云計(jì)算技術(shù)下計(jì)算機(jī)大數(shù)據(jù)分析面臨的問(wèn)題
2.1網(wǎng)絡(luò)技術(shù)安全
由于相關(guān)技術(shù)的不斷發(fā)展,云計(jì)算環(huán)境下的網(wǎng)絡(luò)安全技術(shù)正在朝著穩(wěn)定和成熟的方向發(fā)展,但在具體的應(yīng)用過(guò)程中依然表現(xiàn)出一定的網(wǎng)絡(luò)安全問(wèn)題,因此用戶在使用過(guò)程中應(yīng)該做好相關(guān)的應(yīng)對(duì)工作。網(wǎng)絡(luò)安全問(wèn)題具體表現(xiàn)在用戶在使用信息傳輸?shù)倪^(guò)程中,一旦出現(xiàn)服務(wù)性中斷問(wèn)題,難以保證數(shù)據(jù)的安全性,啟動(dòng)被動(dòng)保護(hù)模式的情況使信息的安全性更加難以保障,這也成為云計(jì)算模式下的網(wǎng)絡(luò)技術(shù)安全中的重點(diǎn)問(wèn)題,一旦得不到及時(shí)有效的解決,用戶在使用過(guò)程中就會(huì)受到不同程度的威脅。
2.2網(wǎng)絡(luò)環(huán)境安全
網(wǎng)絡(luò)環(huán)境安全是保證網(wǎng)絡(luò)正常使用,信息傳輸質(zhì)量有保證的重要前提,一旦網(wǎng)絡(luò)環(huán)境存在不安全因素,將會(huì)引發(fā)病毒的入侵和黑客的攻擊。因此網(wǎng)絡(luò)環(huán)境安全也是云計(jì)算技術(shù)價(jià)值得以發(fā)揮的重要前提。計(jì)算機(jī)在使用過(guò)程中如果長(zhǎng)期受到病毒的困擾和黑客的威脅,將會(huì)降低人們對(duì)計(jì)算機(jī)的信賴性,甚至在工作和生活中將會(huì)在網(wǎng)絡(luò)環(huán)境安全方面投入更多的成本。
3計(jì)算機(jī)大數(shù)據(jù)分析中云計(jì)算技術(shù)的具體應(yīng)用
3.1數(shù)據(jù)傳輸安全分析
在云計(jì)算的作用下,云安全含義逐漸形成,具體來(lái)說(shuō),云安全主要指在用戶借助云計(jì)算技術(shù)來(lái)實(shí)現(xiàn)計(jì)算機(jī)大數(shù)據(jù)分析時(shí),讓數(shù)據(jù)安全性得到了保證。用戶端數(shù)據(jù)和數(shù)據(jù)安全往往呈現(xiàn)出正比關(guān)系,隨著應(yīng)用群體數(shù)量的增多,涉及的計(jì)算機(jī)數(shù)據(jù)范疇將不斷擴(kuò)充,假設(shè)計(jì)算機(jī)遭受病毒的攻擊,可以在云計(jì)算技術(shù)的作用下實(shí)現(xiàn)病毒的攔截,以此讓計(jì)算機(jī)數(shù)據(jù)安全性得到保證。從云計(jì)算技術(shù)自身角度來(lái)說(shuō),其提供的各個(gè)服務(wù)均是由IaaS基礎(chǔ)設(shè)施級(jí)服務(wù)以及PaaS平臺(tái)級(jí)服務(wù)兩項(xiàng)內(nèi)容構(gòu)建而成。首先,IaaS基礎(chǔ)設(shè)施級(jí)服務(wù)其作用在于,可以給用戶提供對(duì)應(yīng)的服務(wù),也就是對(duì)各個(gè)計(jì)算機(jī)基礎(chǔ)設(shè)備進(jìn)行操作和應(yīng)用,其中包含了CPU處理、數(shù)據(jù)保存、數(shù)據(jù)傳遞等。其次,PaaS平臺(tái)級(jí)服務(wù)則是指,把云計(jì)算中各個(gè)服務(wù)器及開(kāi)發(fā)環(huán)境當(dāng)作服務(wù),通過(guò)PaaS平臺(tái)用戶能夠結(jié)合自身需求實(shí)現(xiàn)對(duì)應(yīng)操作流程的部署和應(yīng)用。
3.2監(jiān)督數(shù)據(jù)資源共享
網(wǎng)絡(luò)資源在傳輸過(guò)程中遭遇到的安全威脅是用戶時(shí)時(shí)刻刻關(guān)注的問(wèn)題,因此在具體的工作和管理中,需要提高云計(jì)算網(wǎng)絡(luò)安全技術(shù)的應(yīng)用程度,通過(guò)不斷創(chuàng)新安全模式,完善相應(yīng)的防護(hù)體系,從而有效消除安全性問(wèn)題,提升數(shù)據(jù)傳輸?shù)陌踩院头€(wěn)定性。具體在應(yīng)用過(guò)程中,可以借助云計(jì)算技術(shù)的優(yōu)勢(shì),對(duì)數(shù)據(jù)傳輸?shù)恼麄€(gè)路徑進(jìn)行監(jiān)控,保證傳輸通道環(huán)境的安全性,一旦出現(xiàn)問(wèn)題及時(shí)進(jìn)行預(yù)警,有效預(yù)防黑客的攻擊,降低網(wǎng)絡(luò)安全事故發(fā)生的概率。對(duì)此,有關(guān)部門(mén)應(yīng)該提高重視程度,同時(shí)完善相應(yīng)的監(jiān)督管理制度,采用科學(xué)的管理方式,實(shí)現(xiàn)預(yù)期的監(jiān)測(cè)目標(biāo)。
3.3提高數(shù)據(jù)使用安全
計(jì)算機(jī)用戶本身的安全意識(shí)也是當(dāng)前需要關(guān)注的重要方面,為了進(jìn)一步提升用戶數(shù)據(jù)信息和計(jì)算機(jī)系統(tǒng)的安全系數(shù),需要重視身份認(rèn)證工作的提升,具體可以使用實(shí)名制的方式進(jìn)行認(rèn)證處理,從而不斷提升整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的安全性。對(duì)于網(wǎng)絡(luò)應(yīng)用過(guò)程中涉及到的安全問(wèn)題,可以通過(guò)實(shí)名追蹤的方式進(jìn)行可疑目標(biāo)鎖定,從而有效控制惡意攻擊情況的發(fā)生。但在應(yīng)用過(guò)程中也需要重視假人名情況的出現(xiàn),提高網(wǎng)絡(luò)數(shù)據(jù)信息竊取的預(yù)防水平。計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境算是一種相對(duì)開(kāi)放的環(huán)境,在使用過(guò)程中會(huì)面向大量的用戶,通過(guò)重視用戶的身份認(rèn)證,可以有效避免用戶對(duì)數(shù)據(jù)的非法訪問(wèn)。同時(shí)在使用者進(jìn)行計(jì)算機(jī)登錄和使用的時(shí)候,需要對(duì)用戶名和密碼進(jìn)行核實(shí)。按照權(quán)限的不同,確保數(shù)據(jù)庫(kù)信息的安全有效性。通過(guò)對(duì)數(shù)據(jù)庫(kù)信息加密處理,可以確保數(shù)據(jù)庫(kù)信息的安全性。這種加密處理可以在原有數(shù)據(jù)信息的基礎(chǔ)上進(jìn)行算法的處理改進(jìn),使用者可以通過(guò)自身的權(quán)限獲取想要了解的信息,如果沒(méi)有解密方式,不法分子將會(huì)難以獲取數(shù)據(jù)的原始信息。
3.4網(wǎng)絡(luò)安全等級(jí)防護(hù)
在云計(jì)算環(huán)境下的安全管理中心具備系統(tǒng)管理、安全管理和安全審計(jì)等功能,能夠滿足不同云計(jì)算環(huán)境下不同安全等級(jí)的保護(hù)要求,并且通過(guò)服務(wù)層的安全保護(hù)框架,實(shí)現(xiàn)對(duì)不同等級(jí)云服務(wù)客戶端的安全保護(hù),為使用者提供安全可靠的資源訪問(wèn)服務(wù)。在訪問(wèn)云服務(wù)商時(shí),用戶可通過(guò)通信網(wǎng)絡(luò)、API接口和Web服務(wù)方式訪問(wèn)云服務(wù)器,但是用戶終端系統(tǒng)的安全防護(hù)不在網(wǎng)絡(luò)安全等級(jí)保護(hù)框架體系內(nèi)。在保護(hù)框架體系內(nèi),資源層和服務(wù)層安全是云計(jì)算環(huán)境安全保護(hù)的重點(diǎn),資源層包括物理資源安全和虛擬資源安全,應(yīng)按照安全設(shè)計(jì)要求構(gòu)建資源層安全保護(hù)框架。云計(jì)算環(huán)境下的網(wǎng)絡(luò)安全等級(jí)保護(hù)要針對(duì)不同等級(jí)云計(jì)算平臺(tái)確定不同的安全目標(biāo),一般情況下安全保護(hù)等級(jí)最低為二級(jí),并根據(jù)安全目標(biāo)和等級(jí)要求實(shí)施安全設(shè)計(jì)步驟,具體包括:第一步,根據(jù)云平臺(tái)的租戶數(shù)量和業(yè)務(wù)系統(tǒng)情況確定云計(jì)算安全保護(hù)標(biāo)準(zhǔn),制定云計(jì)算平臺(tái)的安全保護(hù)策略,以避免在云計(jì)算平臺(tái)上發(fā)生安全事件;第二步,細(xì)化安全技術(shù)要求,針對(duì)安全計(jì)算環(huán)境、安全區(qū)域邊界、安全通信網(wǎng)絡(luò)以及安全管理中心制定出相應(yīng)的安全保護(hù)策略;第三步,根據(jù)云計(jì)算功能框架中的各層功能和保護(hù)要求,制定安全技術(shù)機(jī)制,使其滿足云計(jì)算功能框架的安全保護(hù)要求。在完成云計(jì)算環(huán)境下的網(wǎng)絡(luò)安全等級(jí)保護(hù)設(shè)計(jì)之后,還應(yīng)增加虛擬化安全、鏡像安全、接口安全等安全控制點(diǎn),并采用訪問(wèn)控制技術(shù)、身份識(shí)別技術(shù)等安全防護(hù)技術(shù),實(shí)現(xiàn)與云計(jì)算平臺(tái)上各功能層次的對(duì)接,提出各層的安全保護(hù)措施。
3.5重視相應(yīng)程序開(kāi)發(fā)
網(wǎng)絡(luò)安全應(yīng)用程序需要隨著技術(shù)的進(jìn)步和人們生活和工作的需要進(jìn)行逐步提升,從而及時(shí)對(duì)病毒程序進(jìn)行開(kāi)發(fā)和處理,確保計(jì)算機(jī)系統(tǒng)可以敏銳捕捉到病毒的活動(dòng)跡象,提升自身的防御能力。通常情況下,對(duì)于計(jì)算機(jī)的服務(wù),內(nèi)網(wǎng)隱蔽處理,可以提升網(wǎng)站平臺(tái)的訪問(wèn)速度,可以避免不安全網(wǎng)址帶來(lái)的不良效應(yīng),從而為計(jì)算機(jī)的安全防御提供一定的屏障。在計(jì)算機(jī)數(shù)據(jù)的使用中,由于安全性威脅導(dǎo)致的數(shù)據(jù)丟失問(wèn)題,可以通過(guò)備份和恢復(fù)改善。這種恢復(fù)性功能也可以保證數(shù)據(jù)的一致性和完整性。通常由邏輯備份、動(dòng)態(tài)備份以及靜態(tài)備份等幾種情況。計(jì)算機(jī)黑客數(shù)量增多,凈化網(wǎng)絡(luò)環(huán)境顯然存在較大難度,但通過(guò)必要的防范措施依然可以在數(shù)據(jù)庫(kù)信息的保護(hù)中起到關(guān)鍵作用。而使用防火墻保護(hù)工具就能很好的為計(jì)算機(jī)網(wǎng)絡(luò)提供一種安全保障。通過(guò)防火墻,可以在一定程度上防止黑客的侵害。
關(guān)鍵詞 數(shù)據(jù)挖掘 基因序列 生物信息學(xué) 遺傳疾病 患病家族連鎖分析
在生物信息學(xué)的成果的理論基礎(chǔ)之上,通過(guò)統(tǒng)計(jì)的方法查找未知的生物化學(xué)功能的疾病基因的位置。這個(gè)方法預(yù)先通過(guò)患病家族連鎖分析,再推斷包含這些基因的染色體區(qū)域片段,然后檢查該區(qū)域來(lái)尋找基因[1]。
數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析的發(fā)展?fàn)顩r
現(xiàn)今所采用的是分子生物學(xué)與微電子技術(shù)相結(jié)合的核酸分析檢測(cè)技術(shù)[2]。DNA芯片技術(shù)的基本原理是將cDNA或寡核昔酸探針以105~106位點(diǎn)/cm2>/sup>的密度結(jié)合在固相支持物(即芯片)上,每個(gè)位點(diǎn)上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標(biāo)記的待測(cè)樣品DNA,RNA或cDNA在芯片上進(jìn)行雜交,然后用激光共聚焦顯微鏡對(duì)芯片進(jìn)行掃描,并配合計(jì)算機(jī)系統(tǒng)對(duì)雜交信號(hào)做出比較和檢測(cè),從而迅速得出所需的信息。
基因數(shù)據(jù)挖掘常用的方法:①核酸與蛋白質(zhì)比較的預(yù)測(cè)分析:蛋白質(zhì)序列之間或核酸序列之間的兩兩比對(duì),通過(guò)比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的比對(duì)是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和profile,從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來(lái)探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。②針對(duì)核酸序列的預(yù)測(cè)方法:針對(duì)核酸序列的預(yù)測(cè)就是在核酸序列中尋找基因,找出基因的位置和功能位點(diǎn)的位置,以及標(biāo)記已知的序列模式等過(guò)程。在此過(guò)程中,確認(rèn)一段DNA序列是一個(gè)基因需要有多個(gè)證據(jù)的支持。一般而言,在重復(fù)片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DN段的假想產(chǎn)物與某個(gè)已知的蛋白質(zhì)或其他基因的產(chǎn)物具有較高序列相似性的話,那么這個(gè)DN段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現(xiàn)統(tǒng)計(jì)上的規(guī)律性,即所謂的“密碼子偏好性”,也是說(shuō)明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其他的證據(jù)包括與“模板”序列的模式相匹配、簡(jiǎn)單序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段內(nèi)的某個(gè)位置存在或發(fā)生改變而引起的,也就是發(fā)生突變。能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正?;??這都需要數(shù)據(jù)挖掘技術(shù)的支持。對(duì)基因的數(shù)據(jù)挖掘,就是對(duì)這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關(guān)系。
方法的選擇:筆者在設(shè)計(jì)中選用單純的DNA序列進(jìn)行比較,基因在計(jì)算機(jī)的表示和存儲(chǔ)時(shí),可以使用一條很長(zhǎng)的字符串來(lái)表示基因的某一條序列,使用文件的形式進(jìn)行對(duì)基因工作者的提取成果創(chuàng)建一級(jí)數(shù)據(jù)庫(kù),使用文件修整的方法進(jìn)行數(shù)據(jù)的清洗,以滿足數(shù)據(jù)在二級(jí)數(shù)據(jù)庫(kù)中的一致性。同時(shí)在文件比較過(guò)程中,生成某兩個(gè)數(shù)據(jù)文件的差異狀況,保存在二級(jí)數(shù)據(jù)庫(kù)庫(kù)中,進(jìn)一步的操作是對(duì)差異的位置的某個(gè)類型所占的比例。最后通過(guò)事先的對(duì)患者患病信息的統(tǒng)計(jì)得到的某種疾病在群中所占的比例,與其相比較,如果這兩個(gè)比例相等,則可以認(rèn)為這個(gè)位置的某個(gè)類型引起疾病的發(fā)生。從醫(yī)學(xué)院得到一些基因片段文件信息和患者(所有者)患病情況。
系統(tǒng)的實(shí)現(xiàn):基因片段在計(jì)算機(jī)中以文件形式存儲(chǔ),用文件名標(biāo)識(shí)其所有者(源體)。片段起始地址和長(zhǎng)度信息和所有患者患病情況保存在本機(jī)數(shù)據(jù)庫(kù)中。在程序測(cè)試過(guò)程中,將片段復(fù)制成40份,對(duì)其中部分文件的序列進(jìn)行稍作修改,對(duì)所有患者的患病狀況進(jìn)行稍作修改,以創(chuàng)造測(cè)試環(huán)境。顯示在與基因數(shù)據(jù)挖掘軟件同在一根目錄下的序列文件的集合。
其中一個(gè)文件所存儲(chǔ)的基因信息,見(jiàn)圖1。
啟動(dòng)統(tǒng)計(jì)程序界面,單擊清空數(shù)據(jù)庫(kù)中的臨時(shí)用表數(shù)據(jù),將數(shù)據(jù)庫(kù)中有可能的雜音信息去掉。并對(duì)其中的所有文件進(jìn)行統(tǒng)計(jì)前片段剪切,使所有片段的起始地址和長(zhǎng)度都相同,避免發(fā)生序列移位。
沒(méi)有進(jìn)行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設(shè)置進(jìn)行比較操作的甲、乙組的文件添加,因?yàn)楸敬螠y(cè)試只檢驗(yàn)片段中的一塊區(qū)域(文件中片段的所有信息),所以在起始序號(hào)那里添加為0,終止序號(hào)那里添加為175。這樣則可以保證統(tǒng)計(jì)文件的所有信息都被統(tǒng)計(jì)。
單擊結(jié)果顯示按鈕,可以見(jiàn)到程序以表格和條形圖標(biāo)方式??梢钥吹?、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說(shuō)明在這些接受統(tǒng)計(jì)的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關(guān)聯(lián)的可能性就越大。
如果用戶想要在初步統(tǒng)計(jì)結(jié)果的基礎(chǔ)上,按照數(shù)據(jù)庫(kù)中所有者的疾病狀況進(jìn)行詳細(xì)統(tǒng)計(jì)的話,單擊菜單欄的詳細(xì)統(tǒng)計(jì)按鈕,選擇按疾病詳細(xì)統(tǒng)計(jì),則將彈出窗口。
選擇弱視,輸入,則在文本框中顯示與其關(guān)聯(lián)的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用戶可以根據(jù)本系統(tǒng)所給出的預(yù)測(cè)對(duì)弱視遺傳疾病與序列中的特定位置,選擇適當(dāng)算法進(jìn)行進(jìn)一步的計(jì)算及檢驗(yàn),證明預(yù)測(cè)結(jié)果是否符合關(guān)聯(lián)理論。數(shù)據(jù)挖掘方法體系中的智能聚類的相關(guān)技術(shù)則可較好的解決類別數(shù)判定、結(jié)果驗(yàn)證等問(wèn)題。
結(jié) 論
對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無(wú)論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,需要一些新的和好的算法;但技術(shù)和軟件還遠(yuǎn)沒(méi)有達(dá)到成熟的地步,因此需要不斷探索及研究。
參考文獻(xiàn)
1 黃詒森.生物化學(xué)[M].北京:人民衛(wèi)生出版社,2002:29-37.
關(guān)鍵詞:告警數(shù)據(jù) Hadoop Spark
1 引言
隨著電信網(wǎng)絡(luò)的不斷演進(jìn),全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過(guò)網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬(wàn)條,但一些對(duì)網(wǎng)絡(luò)可能造成隱患的告警信息被過(guò)濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標(biāo)、運(yùn)維效率相關(guān)的有價(jià)值的數(shù)據(jù),對(duì)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)架構(gòu)而言,似乎是一個(gè)不可能完成的任務(wù)。
在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當(dāng)告警分析量上升到億級(jí),如果采用傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,一方面數(shù)據(jù)量過(guò)大,表的管理、維護(hù)開(kāi)銷(xiāo)過(guò)大,要做到每個(gè)字段建索引,存儲(chǔ)浪費(fèi)巨大;另一方面計(jì)算分析過(guò)程耗時(shí)過(guò)長(zhǎng),無(wú)法滿足實(shí)時(shí)和準(zhǔn)實(shí)時(shí)分析需求。因此必須采用新的技術(shù)架構(gòu)來(lái)分析處理海量告警信息,支撐主動(dòng)維護(hù)工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。
2 分析目標(biāo)
(1)數(shù)據(jù)源:電信運(yùn)營(yíng)商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。
(2)數(shù)據(jù)分析目標(biāo):完成高頻翻轉(zhuǎn)類(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過(guò)濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。
(3)分析平臺(tái)硬件配置:云計(jì)算平臺(tái)分配8臺(tái)虛擬機(jī),每臺(tái)虛機(jī)配置CPU16核;內(nèi)存32 G;硬盤(pán)2 T。
3 制定方案
進(jìn)入大數(shù)據(jù)時(shí)代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價(jià)值。Google、Facebook等公司提供可行的思路是通過(guò)類似Hadoop[2]的分布式計(jì)算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價(jià)值信息。
Hadoop是Apache基金會(huì)用JAVA語(yǔ)言開(kāi)發(fā)的分布式框架,通過(guò)利用計(jì)算機(jī)集群對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分布式計(jì)算分析。Hadoop框架最重要的兩個(gè)核心是HDFS和MapReduce,HDFS用于分布式存儲(chǔ),MapReduce則實(shí)現(xiàn)分布式任務(wù)計(jì)算。
一個(gè)HDFS集群包含元數(shù)據(jù)節(jié)點(diǎn)(NameNode)、若干數(shù)據(jù)節(jié)點(diǎn)(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲(chǔ)數(shù)據(jù)塊文件。HDFS將一個(gè)文件劃分成若干個(gè)數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲(chǔ)DataNode節(jié)點(diǎn)上。
MapReduce是Google公司提出的針對(duì)大數(shù)據(jù)的編程模型。核心思想是將計(jì)算過(guò)程分解成Map(映射)和Reduce(歸約)兩個(gè)過(guò)程,也就是將一個(gè)大的計(jì)算任務(wù)拆分為多個(gè)小任務(wù),MapReduce框架化繁為簡(jiǎn),輕松地解決了數(shù)據(jù)分布式存儲(chǔ)的計(jì)算問(wèn)題,讓不熟悉并行編程的程序員也能輕松寫(xiě)出分布式計(jì)算程序。MapReduce最大的不足則在于Map和Reduce都是以進(jìn)程為單位調(diào)度、運(yùn)行、結(jié)束的,磁盤(pán)I/O開(kāi)銷(xiāo)大、效率低,無(wú)法滿足實(shí)時(shí)計(jì)算需求。
Spark是由加州伯克利大學(xué)AMP實(shí)驗(yàn)室開(kāi)發(fā)的類Hadoop MapReduce的分布式并行計(jì)算框架,主要特點(diǎn)是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤(pán)I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)外,還支持多次迭代計(jì)算,特別適合流計(jì)算和圖計(jì)算。
基于成本、效率、復(fù)雜性等因素,我們選擇了HDFS+Spark實(shí)現(xiàn)對(duì)告警數(shù)據(jù)的挖掘分析。
4 分析平臺(tái)設(shè)計(jì)
4.1 Hadoop集群搭建
基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數(shù)設(shè)置[6]
Spark參數(shù)設(shè)置如表2所示。
4.3 數(shù)據(jù)采集層
數(shù)據(jù)采集:由于需采集的告警設(shè)備種類繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過(guò)IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進(jìn)行采集,采集周期5分鐘一次。采集機(jī)先將采集到的告警日志文件,通過(guò)FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對(duì)文件進(jìn)行校驗(yàn),通過(guò)Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程
先將海量告警進(jìn)行初步刪選,通過(guò)數(shù)量、位置和時(shí)間三個(gè)維度的分析,得出高頻翻轉(zhuǎn)類告警清單列表,最后由專業(yè)工程師甄別確認(rèn),對(duì)某類告警進(jìn)行重點(diǎn)關(guān)注和監(jiān)控。
(2)差異化定制方案
按組網(wǎng)架構(gòu)細(xì)分,針對(duì)核心重要節(jié)點(diǎn)的所有告警均納入實(shí)時(shí)監(jiān)控方案;
按業(yè)務(wù)網(wǎng)絡(luò)細(xì)分,針對(duì)不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計(jì)個(gè)性化的監(jiān)控方案;
按客戶業(yè)務(wù)細(xì)分,針對(duì)客戶數(shù)字出租電路設(shè)計(jì)個(gè)性化的監(jiān)控方案。
4.5 數(shù)據(jù)分析層
Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進(jìn)行SQL統(tǒng)計(jì)分析。Spark SQL模K在進(jìn)行分析時(shí),將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊(cè)為臨時(shí)表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊(cè)成臨時(shí)表,就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對(duì)告警工單做的一個(gè)簡(jiǎn)單分析:
5 平臺(tái)實(shí)踐應(yīng)用
探索運(yùn)維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實(shí)現(xiàn)主動(dòng)維護(hù)的工作目標(biāo)。
5.1 高頻翻轉(zhuǎn)類告警監(jiān)控
首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警,并基于大數(shù)據(jù)平臺(tái)開(kāi)發(fā)了相應(yīng)的分析腳本,目前已實(shí)現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。
5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控
目前以設(shè)備廠商或?qū)<医?jīng)驗(yàn)評(píng)定告警監(jiān)控級(jí)別往往會(huì)與實(shí)際形成偏差,主要表現(xiàn)在以下幾個(gè)方面:監(jiān)控級(jí)別的差異化設(shè)定基于已知的告警類型,一旦網(wǎng)絡(luò)重大故障上報(bào)未知的告警類型就無(wú)法在第一時(shí)間有效監(jiān)控到;同一類型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級(jí)別的客戶對(duì)故障告警監(jiān)控的實(shí)時(shí)性要求也是不同的。
通過(guò)大數(shù)據(jù)分析平臺(tái)對(duì)差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專業(yè)、地市、網(wǎng)管、機(jī)房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實(shí)現(xiàn)日、周、月、某個(gè)時(shí)間區(qū)等統(tǒng)計(jì)分析。
應(yīng)用案例:省NOC通過(guò)大數(shù)據(jù)分析出一條編號(hào)為CTVPN80113的中國(guó)平安大客戶電路在一段時(shí)間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預(yù)警給政企支撐工程師,政支工程師與用戶溝通后,派維護(hù)人員至現(xiàn)場(chǎng)處理,發(fā)現(xiàn)線路接頭松動(dòng),緊急處理后告警消除、業(yè)務(wù)恢復(fù)。
5.3 被過(guò)濾告警分析
全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬(wàn)條~500萬(wàn)條,其中99%都會(huì)根據(jù)告警過(guò)濾規(guī)則進(jìn)行過(guò)濾篩選,把過(guò)濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過(guò)濾規(guī)則的準(zhǔn)確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來(lái)說(shuō)告警過(guò)濾規(guī)則可以從具有豐富運(yùn)維經(jīng)驗(yàn)的網(wǎng)絡(luò)維護(hù)人員獲得,但是這個(gè)過(guò)程非常繁瑣,而且通過(guò)人工途徑獲得的告警過(guò)濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無(wú)法滿足網(wǎng)絡(luò)維護(hù)的整體需要。采用大數(shù)據(jù)技術(shù)對(duì)被過(guò)濾的告警進(jìn)行分析可以很好地完善過(guò)濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護(hù)人員及時(shí)處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動(dòng)環(huán)專業(yè)被過(guò)濾的告警情況分布。
5.4 動(dòng)環(huán)深放電分析
動(dòng)環(huán)網(wǎng)管通過(guò)C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過(guò)計(jì)算這一放電過(guò)程的持續(xù)時(shí)間,記為深放電時(shí)長(zhǎng),該時(shí)長(zhǎng)可以初步反映電池的放電性能。一個(gè)局站每天產(chǎn)生幾十萬(wàn)條電壓等動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)。
在告警數(shù)據(jù)分析的基礎(chǔ)上,實(shí)現(xiàn)對(duì)蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過(guò)多和放電時(shí)長(zhǎng)過(guò)短的局站,核查蓄電池、油機(jī)配置、發(fā)電安排等,并進(jìn)行整治。利用Spark SQL統(tǒng)計(jì)了一個(gè)月內(nèi)撫州、贛州、吉安三分公司幾十億條動(dòng)環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。
6 結(jié)論
本文利用HDFS+Spark技術(shù),實(shí)驗(yàn)性地解決告警數(shù)據(jù)存儲(chǔ)和分析等相關(guān)問(wèn)題:一是通過(guò)數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專業(yè)的告警,最終為用戶提供綜合預(yù)警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過(guò)數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴(kuò)展到對(duì)動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)、信令數(shù)據(jù)進(jìn)行分析。
從實(shí)際運(yùn)行效果來(lái)看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,滿足電信運(yùn)營(yíng)商主動(dòng)運(yùn)維的需求。
參考文獻(xiàn):
[1] 中國(guó)電信股份有限公司. 中國(guó)電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊(cè)[Z]. 2015.
[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學(xué)出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
[9] 員建廈. 基于動(dòng)態(tài)存儲(chǔ)策略的數(shù)據(jù)管理系統(tǒng)[J]. 無(wú)線電工程, 2014,44(11): 52-54.
關(guān)鍵詞:大數(shù)據(jù) 智能 數(shù)據(jù)分析
中圖分類號(hào):F503 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(a)-0021-01
對(duì)于數(shù)據(jù)分析來(lái)說(shuō),其主要的目的就是通過(guò)對(duì)數(shù)據(jù)的分析去發(fā)現(xiàn)問(wèn)題或預(yù)測(cè)趨勢(shì)。從數(shù)據(jù)鉆取、大規(guī)模分析的技術(shù)手段、以及算法執(zhí)行上來(lái)說(shuō),大規(guī)模分析是和小規(guī)模數(shù)據(jù)在技術(shù)上是有很大差異的。想要探究大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù),首先要對(duì)數(shù)據(jù)分析這一概念進(jìn)行深入研究。
1 數(shù)據(jù)分析
數(shù)據(jù)分析的過(guò)程其實(shí)簡(jiǎn)單的說(shuō)就是做報(bào)告,做什么樣的報(bào)告反映什么樣的指標(biāo)。最開(kāi)始的時(shí)候基本上是data processing。例如零售行業(yè)來(lái)說(shuō),最主要的指標(biāo)就是庫(kù)存、銷(xiāo)售同比增長(zhǎng)情況、利潤(rùn)同比增長(zhǎng)情況、促銷(xiāo)率等等。對(duì)于不同的行業(yè)會(huì)有不同的相關(guān)的KPI需要跟蹤,所以報(bào)告的內(nèi)容也會(huì)有所側(cè)重,但是只要你一個(gè)行業(yè)做久了,熟悉了套路之后,基本上就是以同樣的方法開(kāi)展。
對(duì)于數(shù)據(jù)分析,如果公司部門(mén)分的比較細(xì)的(例如可能有建模組),那么做數(shù)據(jù)分析可能永遠(yuǎn)都是做data processing了。對(duì)于模型的分析,需要你對(duì)業(yè)務(wù)有了深入的了解就可以建立一些模型出來(lái)(例如推薦模型)等等。
數(shù)據(jù)分析主要涉及的技能:
(1)數(shù)據(jù)庫(kù)的能力。越全面越好,如果不是理工科的,最起碼要會(huì)select那些簡(jiǎn)單的查詢語(yǔ)句。
(2)EXCEL、PPT的能力。報(bào)告的呈現(xiàn)一般都是Excel+PPT的形式,最好VBA,這樣就可以將很多人工的工作轉(zhuǎn)化為自動(dòng)化的能力,提高工作效率,領(lǐng)導(dǎo)也對(duì)你刮目相看,自己也有更多空余的時(shí)間準(zhǔn)備其他方面的知識(shí)。
(3)市場(chǎng)分析能力。學(xué)會(huì)觀察市場(chǎng)的走向和關(guān)注的內(nèi)容,例如零售行業(yè),現(xiàn)在大家都對(duì)CRM很熱衷,那相關(guān)的分析方法和方式是怎么樣的,你要自己去了解。從來(lái)不會(huì)有人手把手的將所有東西都告訴你,你必須自己學(xué)會(huì)去增長(zhǎng)知識(shí)。
(4)一些會(huì)計(jì)的知識(shí)。因?yàn)橥ㄟ^(guò)以上分析,就是會(huì)計(jì)管理的一部分內(nèi)容,最后還是公司盈利問(wèn)題。有興趣的也可以去看看戰(zhàn)略管理方面的,對(duì)于做數(shù)據(jù)分析也很有好處的說(shuō)。
綜合來(lái)看,可以說(shuō)數(shù)據(jù)分析=技術(shù)+市場(chǎng)+戰(zhàn)略。
2 如何培養(yǎng)數(shù)據(jù)分析能力
理論:
基礎(chǔ)的數(shù)據(jù)分析知識(shí),至少知道如何做趨勢(shì)分析、比較分析和細(xì)分,不然拿到一份數(shù)據(jù)就無(wú)從下手;
(2)基礎(chǔ)的統(tǒng)計(jì)學(xué)知識(shí),至少基礎(chǔ)的統(tǒng)計(jì)量要認(rèn)識(shí),知道這些統(tǒng)計(jì)量的定義和適用條件,統(tǒng)計(jì)學(xué)方法可以讓分析過(guò)程更加嚴(yán)謹(jǐn),結(jié)論更有說(shuō)服力;
(3)對(duì)數(shù)據(jù)的興趣,以及其它的知識(shí)多多益善,讓分析過(guò)程有趣起來(lái)。
實(shí)踐:
(1)明確分析的目的。如果分析前沒(méi)有明確分析的最終目標(biāo),很容易被數(shù)據(jù)繞進(jìn)去,最終自己都不知道自己得出的結(jié)論到底是用來(lái)干嘛的;
(2)多結(jié)合業(yè)務(wù)去看數(shù)據(jù)。數(shù)據(jù)從業(yè)務(wù)運(yùn)營(yíng)中來(lái),分析當(dāng)然要回歸到業(yè)務(wù)中去,多熟悉了解業(yè)務(wù)可以使數(shù)據(jù)看起來(lái)更加透徹;
(3)了解數(shù)據(jù)的定義和獲取。最好從數(shù)據(jù)最初是怎么獲取的開(kāi)始了解,當(dāng)然指標(biāo)的統(tǒng)計(jì)邏輯和規(guī)則是必須熟記于心的,不然很容易就被數(shù)據(jù)給坑了;
(4)最后就是不斷地看數(shù)據(jù)、分析數(shù)據(jù),這是個(gè)必經(jīng)的過(guò)程,往往一個(gè)工作經(jīng)驗(yàn)豐富的非數(shù)據(jù)分析的運(yùn)營(yíng)人員要比剛進(jìn)來(lái)不久的數(shù)據(jù)分析師對(duì)數(shù)據(jù)的了解要深入得多,就是這個(gè)原因。
3 大數(shù)據(jù)
大數(shù)據(jù)就是通過(guò)統(tǒng)計(jì)分析計(jì)算機(jī)收集的數(shù)據(jù),在人們可能不知道“為什么”的前提下,了解到事物的狀態(tài)、趨勢(shì)、結(jié)果等“是什么”。
對(duì)于大數(shù)據(jù),一直來(lái)說(shuō),數(shù)據(jù)規(guī)模導(dǎo)致的存儲(chǔ)、運(yùn)算等技術(shù)問(wèn)題從來(lái)不是最重要的瓶頸。瓶頸只在于前端數(shù)據(jù)的收集途徑,以及后端商業(yè)思想引領(lǐng)的模型和算法問(wèn)題。早期的各類OLAP工具已經(jīng)足夠了,后來(lái)類似海杜普這樣的研究則徹底降低了分布式數(shù)據(jù)的架構(gòu)成本和門(mén)檻,就徹底將大數(shù)據(jù)帶入了一個(gè)普及的領(lǐng)域。
從技術(shù)層面說(shuō),大數(shù)據(jù)和以前的數(shù)據(jù)時(shí)代的最大差異在于,以前是數(shù)據(jù)找應(yīng)用/算法的過(guò)程(例如各大銀行的大集中項(xiàng)目,以及數(shù)據(jù)建倉(cāng)),而大數(shù)據(jù)時(shí)代的重要技術(shù)特征之一,是應(yīng)用/算法去找數(shù)據(jù)的過(guò)程,因?yàn)閿?shù)據(jù)規(guī)模變成了技術(shù)上最大的挑戰(zhàn)。
大數(shù)據(jù)的特點(diǎn):
(1)大數(shù)據(jù)不等同于數(shù)據(jù)大,我們處理問(wèn)題是根據(jù)這個(gè)問(wèn)題的所有數(shù)據(jù)而非樣本數(shù)據(jù),即樣本就是總體;不是精確性而是混雜性;不是因果關(guān)系而是相關(guān)關(guān)系。
(2)大數(shù)據(jù)應(yīng)用的幾個(gè)可能:當(dāng)文字變成數(shù)據(jù),此時(shí)人可以用之閱讀,機(jī)器可以用之分析;當(dāng)方位變成數(shù)據(jù),商業(yè)廣告,疫情傳染監(jiān)控,雅安地震時(shí)的谷歌尋人;當(dāng)溝通變成數(shù)據(jù),就成了社交圖譜。一切都可以量化,將世界看作可以理解的數(shù)據(jù)的海洋,為我們提供了一個(gè)從來(lái)未有過(guò)的審視現(xiàn)實(shí)的視角。
(3)數(shù)據(jù)創(chuàng)新的價(jià)值:數(shù)據(jù)的再利用。例如重組數(shù)據(jù):隨著大數(shù)據(jù)出現(xiàn),數(shù)據(jù)的總和比部分更有價(jià)值,重組總和和本身價(jià)值也比單個(gè)總和更大;可擴(kuò)展數(shù)據(jù):在設(shè)計(jì)數(shù)據(jù)收集時(shí)就設(shè)計(jì)好了它的可擴(kuò)展性,可以增加數(shù)據(jù)的潛在價(jià)值;數(shù)據(jù)的折舊值:數(shù)據(jù)會(huì)無(wú)用,需淘汰更新;數(shù)據(jù)廢氣:比如語(yǔ)音識(shí)別,當(dāng)用戶指出語(yǔ)音識(shí)別程序誤解了他的意思,實(shí)際上就有效的訓(xùn)練了這個(gè)系統(tǒng)。
總之,大數(shù)據(jù)是因?yàn)閷?duì)它的分析使用,才產(chǎn)生和體現(xiàn)它的價(jià)值,而不是因?yàn)槠溆玫搅送怀龅募夹g(shù)和算法才體現(xiàn)了它的價(jià)值。
4 大數(shù)據(jù)下的智能數(shù)據(jù)分析
在大數(shù)據(jù)的背景下,必須考慮數(shù)據(jù)之間的關(guān)聯(lián)性。一個(gè)單獨(dú)的數(shù)據(jù)是沒(méi)有意義的,實(shí)際中,選擇處在兩個(gè)極端的數(shù)據(jù)往往更容易找出它們之間的聯(lián)系,把它們放在一個(gè)框架中看才能發(fā)現(xiàn)問(wèn)題。因此,可以用以下四種方法在大數(shù)據(jù)背景下進(jìn)行智能數(shù)據(jù)分析:
(1)從解決問(wèn)題的角度出發(fā)收集數(shù)據(jù);
(2)把收集的數(shù)據(jù)整理好,放入一個(gè)框架內(nèi),并利用這個(gè)框架幫助決策者做出決定;
(3)評(píng)估決定與行動(dòng)的效果,這將告訴我們框架是否合理;
(4)如果有新的數(shù)據(jù)出現(xiàn),我們將考察能否利用它對(duì)前面三步做出改進(jìn),以及我們今天是否還需要收集更多種類的數(shù)據(jù)。
5 結(jié)語(yǔ)
數(shù)據(jù)分析的最終目的是幫助業(yè)務(wù)發(fā)現(xiàn)問(wèn)題并解決問(wèn)題,提升公司價(jià)值,而這些是從數(shù)據(jù)發(fā)覺(jué)的,而不是盲目下結(jié)論。每家公司都有自己業(yè)務(wù)生產(chǎn)的數(shù)據(jù),通過(guò)數(shù)據(jù)分析、同比環(huán)比、漏斗分析及模型等,發(fā)現(xiàn)業(yè)務(wù)上存在的問(wèn)題,幫助公司業(yè)務(wù)的優(yōu)化。
參考文獻(xiàn)
[1] 李貴兵,羅洪.大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究[J].科技資訊,2013(30).
關(guān)鍵詞:聯(lián)機(jī)數(shù)據(jù)分析;處理數(shù)據(jù);分析和轉(zhuǎn)換數(shù)據(jù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)03-0006-03
為了提升大學(xué)物理公共課程的教學(xué)水平,更好地了解學(xué)生的學(xué)習(xí)情況,需要引用聯(lián)機(jī)數(shù)據(jù)技術(shù),通過(guò)科學(xué)建立模型對(duì)教學(xué)數(shù)據(jù)進(jìn)行處理和分析。維度模型的建立是為了能夠全方位地剖析數(shù)據(jù)。
1 建立數(shù)據(jù)模型
建立模型是為了更加直觀地表達(dá)數(shù)據(jù)和事實(shí)。對(duì)于同一批數(shù)據(jù),人們總是會(huì)以不同的角度對(duì)其進(jìn)行觀察,這就是維度。維度模型從不同的角度分析數(shù)據(jù),最終得出一張事實(shí)表。
如圖1所示,維度模型包括了教材維度表,學(xué)期維度表,教師維度表,學(xué)生維度表和教學(xué)事實(shí)表。為了更好地分析教學(xué)效果,維度模型從四個(gè)不同的角度進(jìn)行分析,每一張維度表上都注明了詳細(xì)的數(shù)據(jù)內(nèi)容。最后,在總結(jié)四張維度表的基礎(chǔ)上,概括了最終的教學(xué)事實(shí)表。
2 OLAP技術(shù)
2.1 數(shù)據(jù)的采集
原有的Visual和SQL數(shù)據(jù)庫(kù)上儲(chǔ)存了學(xué)生的信息,教師的信息以及教學(xué)的數(shù)據(jù)等等。如圖二所示,教務(wù)數(shù)據(jù)庫(kù)中包含了課程信息表,學(xué)生信息表以及選課成績(jī)表。DTS工具能夠從不同的數(shù)據(jù)庫(kù)中自動(dòng)抽取需要進(jìn)行分析的數(shù)據(jù),并且將其全部集中在一個(gè)新的數(shù)據(jù)庫(kù)中。新的SQL數(shù)據(jù)庫(kù)既可以儲(chǔ)存信息,還能夠?qū)π畔⑦M(jìn)行管理。聯(lián)機(jī)分析處理技術(shù)從不同的角度分析數(shù)據(jù),有助于全面了解學(xué)生的學(xué)習(xí)情況和教師的教學(xué)質(zhì)量。
2.2 數(shù)據(jù)分析的結(jié)構(gòu)
從圖2中可以看出,數(shù)據(jù)分析的結(jié)構(gòu)包括了四層,其中最底層的是各種信息數(shù)據(jù)庫(kù)和文本文件,在此基礎(chǔ)上建立數(shù)據(jù)ETL,然后建立相應(yīng)的維度模型,最后利用聯(lián)機(jī)分析技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析。采集數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)是使用聯(lián)機(jī)分析技術(shù)的基礎(chǔ),也是必不可少的一步。多維度分析是該結(jié)構(gòu)中的最后一步,最終的結(jié)果將會(huì)把數(shù)據(jù)轉(zhuǎn)換成圖表的形式呈現(xiàn)出來(lái)。
2.3 轉(zhuǎn)換數(shù)據(jù)
由于不同數(shù)據(jù)的語(yǔ)法可能存在差異,因此,把不同的數(shù)據(jù)轉(zhuǎn)換成相同的結(jié)構(gòu)顯得尤為必要。在聯(lián)機(jī)分析技術(shù)應(yīng)用的過(guò)程中,轉(zhuǎn)換數(shù)據(jù)是關(guān)鍵的一步,能否成功轉(zhuǎn)換數(shù)據(jù),決定了維度模型的建立是否具有科學(xué)性與全面性。轉(zhuǎn)換數(shù)據(jù)是為了解決語(yǔ)法,語(yǔ)義結(jié)構(gòu)不同引起的問(wèn)題。
和數(shù)據(jù)語(yǔ)義不同相比,處理不同語(yǔ)法的數(shù)據(jù)顯得更為簡(jiǎn)單。如果數(shù)據(jù)本身和目標(biāo)數(shù)據(jù)之間存在語(yǔ)法結(jié)構(gòu)不同的問(wèn)題,那么只需要通過(guò)函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換即可。一般來(lái)說(shuō),數(shù)據(jù)本身的內(nèi)容并不會(huì)影響轉(zhuǎn)換過(guò)程,只要建立原數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,就能解決數(shù)據(jù)名稱存在沖突的問(wèn)題。例如,學(xué)生數(shù)據(jù)庫(kù)本身的信息包括了學(xué)生的ID和班級(jí),這就相當(dāng)于最終目標(biāo)數(shù)據(jù)中學(xué)生對(duì)應(yīng)的名稱和班別。如果數(shù)據(jù)類型不同,可以運(yùn)用相應(yīng)的函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換,例如trim()函數(shù)就能完成數(shù)據(jù)的轉(zhuǎn)換。下面是利用函數(shù)對(duì)原數(shù)據(jù)中學(xué)生的ID,專業(yè)以及院名進(jìn)行轉(zhuǎn)換的過(guò)程,其轉(zhuǎn)換代碼如下:
Function Main()
DTSDestination(“ID”)=trim(DTSSourse(“名稱”))
DTSDestination(“專業(yè)”)=cstr(DTSSourse(“專業(yè)”))
DTSDestination(“院名”)=trim(DTSSourse(“學(xué)院”))
Main=DTSTransformStat_OK
End Function
轉(zhuǎn)換不同語(yǔ)義結(jié)構(gòu)的數(shù)據(jù)是一個(gè)復(fù)雜的過(guò)程,它需要重視數(shù)據(jù)本身的信息和內(nèi)容。因此,僅僅通過(guò)一步完成數(shù)據(jù)轉(zhuǎn)換的過(guò)程是幾乎不可能的,它需要將原數(shù)據(jù)進(jìn)行一次次轉(zhuǎn)換,才能得到最終的目標(biāo)數(shù)據(jù)。例如每一個(gè)教師都有以及開(kāi)展項(xiàng)目,在原數(shù)據(jù)中只能看到項(xiàng)目的名稱和論文的名稱,如果需要將其轉(zhuǎn)換成教師的論文數(shù)量和項(xiàng)目數(shù)量,則需要經(jīng)過(guò)兩步的數(shù)據(jù)轉(zhuǎn)換。
2.4 數(shù)據(jù)結(jié)果分析
原數(shù)據(jù)從SQL中提取出來(lái),然后通過(guò)函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換,最后利用聯(lián)機(jī)分析技術(shù)進(jìn)行數(shù)據(jù)管理和分析,從不同的角度研究數(shù)據(jù),從而全面分析學(xué)生的學(xué)習(xí)情況和教師的教學(xué)情況。數(shù)據(jù)分析的方法有很多種,其目的都是為了全方位地剖析數(shù)據(jù)。
2.4.1 高校教師教學(xué)質(zhì)量的對(duì)比分析
在教師維度表中,我們已經(jīng)按照教師的從業(yè)年齡,學(xué)歷以及職稱對(duì)其進(jìn)行劃分,不同職稱的教師,其教學(xué)質(zhì)量有著明顯的區(qū)別。教師的學(xué)歷不同,教齡有所差異,這都和教學(xué)效果息息相關(guān)。
2.4.2 不同時(shí)期對(duì)教學(xué)質(zhì)量的影響分析
聯(lián)機(jī)分析處理技術(shù)能夠從多角度分析數(shù)據(jù),教學(xué)質(zhì)量不可能是一成不變的,它與多個(gè)因素密不可分,時(shí)間也是其中一個(gè)因素。在不同的時(shí)期,由于政策的變動(dòng)和外界因素的影響,教師的教學(xué)質(zhì)量也會(huì)隨之而受到不同程度的影響。
2.4.3 教學(xué)質(zhì)量和其他因素息息相關(guān)
除了時(shí)間和教師的水平會(huì)對(duì)教學(xué)質(zhì)量造成一定的影響,還有其他因素同樣會(huì)影響教學(xué)效果,例如:學(xué)生的學(xué)習(xí)能力,學(xué)校選用的課本等。綜合考慮各個(gè)因素對(duì)教學(xué)效果的影響,有利于教育部門(mén)更好地作出相應(yīng)的政策調(diào)整。
3 計(jì)算機(jī)分析處理技術(shù)中的數(shù)據(jù)處理方法分析
無(wú)可置疑,計(jì)算機(jī)技術(shù)的出現(xiàn)顛覆了人們傳統(tǒng)的思想和工作模式。如今,計(jì)算機(jī)技術(shù)已經(jīng)全面滲透到我們生活中和工作中的各個(gè)方面。不管是在工業(yè)生產(chǎn)還是科研數(shù)據(jù)處理中,計(jì)算機(jī)技術(shù)都發(fā)揮著不可替代的作用。如今我們需要處理的數(shù)據(jù)正與日俱增,這就意味著傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)無(wú)法滿足人們的需求了。儀表生產(chǎn)和系統(tǒng)控制要求數(shù)據(jù)具有高度精確性,這些數(shù)字在顯示之前,都必須經(jīng)過(guò)一系列的轉(zhuǎn)換,計(jì)算以及處理。首先,數(shù)據(jù)會(huì)以一種形式經(jīng)過(guò)轉(zhuǎn)換器,然后變成另一種新的形式,只有這樣計(jì)算機(jī)才能對(duì)數(shù)據(jù)進(jìn)行處理和分析。處理數(shù)據(jù)是一個(gè)復(fù)雜多變的過(guò)程,它的方法并不是單一的,根據(jù)數(shù)據(jù)處理的目標(biāo)不同,需要選擇不同的數(shù)據(jù)處理方法。例如,有的數(shù)據(jù)需要進(jìn)行標(biāo)度轉(zhuǎn)換,但有些數(shù)據(jù)只需要進(jìn)行簡(jiǎn)單計(jì)算即可,計(jì)算機(jī)技術(shù)的不斷進(jìn)步是為了更好地應(yīng)對(duì)人們對(duì)數(shù)據(jù)處理新的需要。
計(jì)算機(jī)數(shù)據(jù)處理技術(shù)的應(yīng)用離不開(kāi)系統(tǒng),它比傳統(tǒng)的系統(tǒng)更加具有優(yōu)越性:
1)自動(dòng)更正功能,計(jì)算機(jī)系統(tǒng)在處理數(shù)據(jù)時(shí),對(duì)于計(jì)算結(jié)果出現(xiàn)的誤差能夠及時(shí)修正,確保結(jié)果的準(zhǔn)確度。
2)傳統(tǒng)模擬系統(tǒng)只能進(jìn)行數(shù)據(jù)的簡(jiǎn)單計(jì)算,而計(jì)算機(jī)系統(tǒng)則能夠處理復(fù)雜多變的數(shù)據(jù),其適用范圍和領(lǐng)域更加廣。
3)計(jì)算機(jī)系統(tǒng)不需要過(guò)多的硬件,只需要編寫(xiě)相應(yīng)的程序就能夠完成數(shù)據(jù)的處理,在節(jié)省空間的同時(shí)也降低了數(shù)據(jù)處理的成本。
4)計(jì)算機(jī)系統(tǒng)特有的監(jiān)控系統(tǒng),能夠隨時(shí)監(jiān)測(cè)系統(tǒng)的安全性,從而確保數(shù)據(jù)的準(zhǔn)確度。
對(duì)于不同的數(shù)據(jù),往往需要采用不同的處理方式,處理數(shù)據(jù)的簡(jiǎn)單方法包括查表,計(jì)算等。除此之外,標(biāo)度轉(zhuǎn)換,數(shù)字濾波同樣是應(yīng)用十分廣的處理技術(shù)。
3.1 數(shù)據(jù)計(jì)算
在各種數(shù)據(jù)處理方法中,計(jì)算法是最為簡(jiǎn)單的一種,利用現(xiàn)有的數(shù)據(jù)設(shè)置程序,然后直接通過(guò)計(jì)算得出最終的目標(biāo)數(shù)據(jù)。一般來(lái)說(shuō),利用這種方法處理數(shù)據(jù)需要遵循一個(gè)過(guò)程:首先,求表達(dá)式,這是計(jì)算法最基本的一步;其次,設(shè)計(jì)電路,在此之前必須將轉(zhuǎn)換器的位數(shù)確定下來(lái);最后,利用第一步已經(jīng)求出的表達(dá)式運(yùn)算數(shù)據(jù)。
3.2 數(shù)據(jù)查表
3.2.1 按順序查表格
當(dāng)需要搜索表格中的數(shù)據(jù)時(shí),往往需要按照一定的順序和步驟。首先,明確表格的地址和長(zhǎng)度,然后再設(shè)置關(guān)鍵詞,最后按照順序進(jìn)行搜索。
3.2.2 通過(guò)計(jì)算查表格
這是一種較為簡(jiǎn)單的方法,適用范圍并不廣。只有當(dāng)數(shù)據(jù)之間表現(xiàn)出明顯的規(guī)律或者數(shù)據(jù)之間存在某種關(guān)系時(shí),才能夠使用這種方法查表格。
3.2.3 利用程序查表格
相比于上述的兩種方法,利用程序查表格是一種相對(duì)復(fù)雜的方法,但是這種方法的優(yōu)點(diǎn)在于查找效率高,并且準(zhǔn)確度高。
3.3 數(shù)據(jù)濾波處理
采集數(shù)據(jù)并不難,但是確保每一個(gè)數(shù)據(jù)的真實(shí)性卻十分困難,尤其是在工業(yè)系統(tǒng)中,數(shù)據(jù)的測(cè)量難以確保絕對(duì)準(zhǔn)確,因?yàn)樵跍y(cè)量的過(guò)程中,外界環(huán)境對(duì)數(shù)據(jù)的影響往往是難以預(yù)估的。為了提高數(shù)據(jù)處理的精確度和準(zhǔn)確率,需要借助檢測(cè)系統(tǒng)對(duì)采集的數(shù)據(jù)進(jìn)行深加工。盡可能地讓處理的數(shù)據(jù)接近真實(shí)的數(shù)據(jù),并且在數(shù)據(jù)采集的過(guò)程中最大限度地減少外界因素對(duì)其的影響,從而提高計(jì)算結(jié)果的準(zhǔn)確度。
濾波處理技術(shù)的應(yīng)用首先要確定數(shù)據(jù)的偏差,一般來(lái)說(shuō),每?jī)蓚€(gè)測(cè)量數(shù)據(jù)之間都會(huì)存在一定的誤差,首先需要計(jì)算數(shù)據(jù)與數(shù)據(jù)之間可能出現(xiàn)的最大誤差。一旦超出這一數(shù)值,可以認(rèn)定數(shù)據(jù)無(wú)效,只有符合偏差范圍內(nèi)的數(shù)據(jù),才能進(jìn)行下一步的處理。
為了減少由于外界影響導(dǎo)致數(shù)據(jù)失真的情況,利用程序過(guò)濾數(shù)據(jù)是很有必要的。濾波技術(shù)有幾種,根據(jù)不同的需要可以選擇相應(yīng)的數(shù)據(jù)處理技術(shù),每一種數(shù)據(jù)濾波技術(shù)都有其適用范圍和優(yōu)點(diǎn)。數(shù)據(jù)濾波技術(shù)包括算術(shù)平均值濾波,加權(quán)平均值濾波,中值濾波,限幅濾波,限速濾波以及其他類型的濾波技術(shù)。
3.4 轉(zhuǎn)換量程和標(biāo)度
在測(cè)量數(shù)據(jù)的過(guò)程中,每一種參數(shù)都有相應(yīng)的單位,為了方便數(shù)據(jù)處理,需要使用轉(zhuǎn)換器把數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的信號(hào)。標(biāo)度轉(zhuǎn)換是必不可少的,為了加強(qiáng)系統(tǒng)的管理和監(jiān)測(cè),需要不同單位的數(shù)字量。轉(zhuǎn)換方法包括非線性參數(shù)標(biāo)度變換,參數(shù)標(biāo)度變換,量程轉(zhuǎn)換,這幾種轉(zhuǎn)換方法在數(shù)據(jù)處理的過(guò)程中較為常見(jiàn)。當(dāng)計(jì)算過(guò)程遇到困難,可以結(jié)合其他的標(biāo)度轉(zhuǎn)換方法進(jìn)行數(shù)據(jù)處理。
3.5 非線性補(bǔ)償計(jì)算法
3.5.1 線性插值計(jì)算方法
信號(hào)的輸入和輸出往往會(huì)存在一定的關(guān)系。曲線的斜率和誤差之間存在正相關(guān)關(guān)系,斜率越大,誤差越大。由此可見(jiàn),這一計(jì)算方法僅僅適用于處理變化不大的數(shù)據(jù)。當(dāng)曲線繪制選用的數(shù)據(jù)越多,曲線的準(zhǔn)確程度越高,偏差越小。
3.5.2 拋物線計(jì)算方法
拋物線計(jì)算方法是一種常用的數(shù)據(jù)處理方法,只需要采集三組數(shù)據(jù),就可以連成一條拋物線。相比于直線,拋物線更加接近真實(shí)的曲線,從而提高數(shù)據(jù)的準(zhǔn)確度。拋物線計(jì)算法的過(guò)程,只需要求出最后兩步計(jì)算中的M值,就能夠直接輸入數(shù)據(jù)得出結(jié)果。
3.6 數(shù)據(jù)長(zhǎng)度的處理
當(dāng)輸入數(shù)據(jù)和輸出數(shù)據(jù)的長(zhǎng)度不一,需要對(duì)其進(jìn)行轉(zhuǎn)換,使數(shù)據(jù)長(zhǎng)度達(dá)到一致。由于采集數(shù)據(jù)所使用的轉(zhuǎn)換器和轉(zhuǎn)換數(shù)據(jù)所選擇的轉(zhuǎn)換器不同,因此,當(dāng)輸入位數(shù)大于輸出位數(shù),可以通過(guò)移位的方法使位數(shù)變成相同。相反,當(dāng)輸入位數(shù)少于輸出位數(shù)時(shí),可以使用填充的方法將其轉(zhuǎn)換成相同的位數(shù)。
4 結(jié)語(yǔ)
本文對(duì)聯(lián)機(jī)分析技術(shù)進(jìn)行了詳細(xì)的論述,該技術(shù)的應(yīng)用對(duì)于評(píng)價(jià)教學(xué)效果有著重要的意義。在物理公共課程中,教學(xué)數(shù)據(jù)數(shù)量巨大,如果利用傳統(tǒng)的方法對(duì)其進(jìn)行分析,將會(huì)耗費(fèi)大量的人力物力,而采用OLAP技術(shù)則能更加快速準(zhǔn)確地分析處理數(shù)據(jù)。數(shù)據(jù)分析是評(píng)估教學(xué)質(zhì)量必經(jīng)的過(guò)程,而使用QLAP技術(shù)是為了能夠多層次,全方位地分析各個(gè)因素對(duì)教學(xué)質(zhì)量的影響,從而更好地改進(jìn)高校教育中存在的不足。除了分析物理課程數(shù)據(jù),聯(lián)機(jī)分析技術(shù)同樣適用于其他課程的數(shù)據(jù)處理和分析。
參考文獻(xiàn):
[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:電子工業(yè)出版社,2003.