近年來,隨著公安大情報體系的建設(shè),以及互聯(lián)網(wǎng)技術(shù)的發(fā)展,一個以信息爆炸為特征的大數(shù)據(jù)時代正在到來。各種數(shù)據(jù)處理的技術(shù)層出不窮,這為"數(shù)字警務(wù)"、"智慧警務(wù)"帶來了新的手段。對此,公安部門必須以創(chuàng)新的理念和思維,把深入實施科技強警戰(zhàn)略,大力推進科技創(chuàng)新擺上更加重要的位置,努力提升公安工作的信息化、科學(xué)化和現(xiàn)代化水平。全警采集,內(nèi)外聯(lián)動,高度共享,綜合應(yīng)用。
隨著大數(shù)據(jù)技術(shù)的普及和應(yīng)用,"大情報體系"建設(shè)需要對數(shù)據(jù)的大開發(fā),通過使用挖掘算法對海量數(shù)據(jù)進行分析和建模,挖掘出各類數(shù)據(jù)背后所蘊含的內(nèi)在的、必然的因果關(guān)系,進而判斷出某一事件發(fā)生的概率、科學(xué)預(yù)測其發(fā)展趨勢,以此來服務(wù)打防管控等警務(wù)工作。
一、需求分析
當(dāng)前公安的業(yè)務(wù)系統(tǒng)多樣,但大多業(yè)務(wù)系統(tǒng)與實際的業(yè)務(wù)結(jié)合不夠緊密,產(chǎn)生了技術(shù)與業(yè)務(wù)"兩張皮"的現(xiàn)象,進而信息化難以有效支撐業(yè)務(wù)的進展,而業(yè)務(wù)的演變難以對業(yè)務(wù)系統(tǒng)的進化形成促進,造成信息化與業(yè)務(wù)脫節(jié)。
公安大情報體系建設(shè)需要大數(shù)據(jù)存儲技術(shù)、管理技術(shù)、挖掘技術(shù)為契機,能夠建立海量的公安數(shù)據(jù)資源庫,不斷挖掘公安情報,實現(xiàn)信息化隨著業(yè)務(wù)的發(fā)展而快速變化,真正實現(xiàn)業(yè)務(wù)與信息化的融合,形成業(yè)務(wù)與信息化互相促進的格局。
(一) 建立大數(shù)據(jù)采集平臺
大數(shù)據(jù)采集平臺大小取決于所獲取的數(shù)據(jù)的廣度與深度,所以我們要采集現(xiàn)有的各種數(shù)據(jù),公安數(shù)據(jù)具體可以分為以下幾類:一是公安基礎(chǔ)工作數(shù)據(jù)信息。主要包括:人員信息、案件信息、物品信息、線索信息、場所信息等。二是公安內(nèi)網(wǎng)共享的數(shù)據(jù)信息。主要包括公安部及各省市公安內(nèi)網(wǎng)中的在逃人員信息、盜搶汽車信息、違法犯罪人員信息、法輪功信息、通緝令、預(yù)警信息、研判指令等。三是外部社會信息。主要包括互聯(lián)網(wǎng)刊載的違法犯罪信息、商業(yè)網(wǎng)站的一些異常信息、保險理賠信息、個人資信信息、中介機構(gòu)信息、檢察機關(guān)案件信息、審判機關(guān)案件信息、信用卡組織信息、公證機構(gòu)信息等。
(二) 建立大數(shù)據(jù)組織平臺
大數(shù)據(jù)采集平臺的構(gòu)建,解決了海量數(shù)據(jù)的統(tǒng)一存放問題,但是這些來自不同來源的公安數(shù)據(jù)仍然是散亂的、不規(guī)則的原始數(shù)據(jù)。對原始數(shù)據(jù)進行清洗、整合,建立規(guī)范、統(tǒng)一、完整的基礎(chǔ)數(shù)據(jù)視圖。然后在此基礎(chǔ)上,針對業(yè)務(wù)部門提出的具體業(yè)務(wù)需求,進一步的進行數(shù)據(jù)的加工和處理,形成面向主題的數(shù)據(jù)集市,供業(yè)務(wù)部門使用。
(三) 建立大數(shù)據(jù)分析平臺
大數(shù)據(jù)分析是公安信息化應(yīng)用的重要環(huán)節(jié),也是情報信息再利用的基礎(chǔ)。公安機關(guān)對大數(shù)據(jù)的分析解讀是一個去偽存真、去粗取精的過程。分析解讀的方法和內(nèi)容主要是:一是對大數(shù)據(jù)信息真實性分析。違法犯罪活動大多處于隱蔽狀態(tài),所反映信息往往缺乏明朗性,有的甚至具有偽裝性,對初期收集到的信息必須甄別其真?zhèn)危?strong>二是對大數(shù)據(jù)信息的比對查詢分析。這是公安工作特別是偵查工作中運用較為廣泛的分析解讀手段,通過同類信息比對查詢,擴展信息量,串并同類信息;三是量化比較分析。對某個區(qū)域、時段、案件、涉案人員、財物、場所以及線索等的數(shù)量與前期、上年同期、周邊同期進行比較分析等等,例如包括信息查詢、人員甄別、串并、碰撞比對,重大案件特點分析預(yù)警,各類數(shù)據(jù)的統(tǒng)計分析、規(guī)律提煉及情報收集,可疑人員身份鎖定及人員控制,生物信息檔案管理和證件鑒別研究等功能。
二、解決方案
睿帆科技基于對公安系統(tǒng)需求的深刻理,以大數(shù)據(jù)科學(xué)平臺Baymax為數(shù)據(jù)采集處理管理的基礎(chǔ),以NLP中文智慧文本平臺為紙質(zhì)檔案結(jié)構(gòu)化的處理引擎,以分布式分析型數(shù)據(jù)庫雪球DB為交互式查詢的核心,構(gòu)建了一整套圍繞警務(wù)易搜、自助比對、綜合查詢、信息布控、專題研判、預(yù)警分析等多種業(yè)務(wù)場景的刑偵大數(shù)據(jù)解決方案。
(一) 大數(shù)據(jù)科學(xué)平臺Baymax,為警務(wù)人員提供高性能一體化大數(shù)據(jù)存儲分析平臺
大數(shù)據(jù)科學(xué)平臺Baymax是一款圍繞多源異構(gòu)的海量數(shù)據(jù)入、存、管、出四個核心場景,集數(shù)據(jù)集成、數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)監(jiān)控及系統(tǒng)配置等功能為一體的大數(shù)據(jù)平臺,能有效支撐刑偵過程中各個環(huán)節(jié)的數(shù)據(jù)需求,幫助警務(wù)人員對海量數(shù)據(jù)進行采集、存儲、治理、分析和挖掘,發(fā)現(xiàn)案件中的關(guān)鍵信息。
其支持1000個節(jié)點以上的分布式處理,數(shù)據(jù)處理規(guī)??蛇_PB級別以上,記錄文檔數(shù)據(jù)可支持萬億規(guī)模以上,支持對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一的存儲管理及一體化查詢,幫助警務(wù)人員快速從身份證、交易日志、卡口視頻、案件照片錄音等多種數(shù)據(jù)類型中,快速發(fā)現(xiàn)有效信息。
(二)NLP中文智慧文本平臺,歷史案卷信息讀取的小幫手
NLP中文智慧文本平臺是一款圍繞中文文本的模型自動識別、文本結(jié)構(gòu)化、文本數(shù)據(jù)應(yīng)用、關(guān)鍵信息提取四個核心場景,集自動標注、人工標注、模型訓(xùn)練以及API部署等功能為一體的NLP平臺,能快速準確處理大量復(fù)雜文本,滿足不同場景下的文本處理需求,幫助警務(wù)人員對大量歷史文本案卷進行預(yù)處理、存儲、識別、提取關(guān)鍵信息和挖掘,發(fā)現(xiàn)其中包含的價值。
(三)分布式分析型數(shù)據(jù)庫雪球DB,高效信息交互的核心
分布式分析型數(shù)據(jù)庫雪球DB是一款用于聯(lián)機分析處理(OLAP)的MPP列式數(shù)據(jù)庫管理系統(tǒng)(DBMS)。提供PB級別大數(shù)據(jù)集的在線多維查詢和分布式存儲,特別適用于海量結(jié)構(gòu)化數(shù)據(jù)存儲、高并發(fā)點查詢、高吞吐即席查詢(Ad-hoc)、多維分析和實時查詢場景。
在刑偵大數(shù)據(jù)場景中,由于數(shù)據(jù)量大、查詢?nèi)藛T多,所以對于數(shù)據(jù)庫性能的要求極為苛刻。分布式分析型數(shù)據(jù)庫雪球DB在萬億規(guī)模數(shù)據(jù),進行高并發(fā)即席查詢可實現(xiàn)秒級響應(yīng),這極大的提升了刑偵破案的效率,降低了破案周期。
公安大數(shù)據(jù)平臺的建設(shè),實現(xiàn)了公安局對各類內(nèi)部及外部數(shù)據(jù)資源的系統(tǒng)整合、資源共享、互聯(lián)互通。通過統(tǒng)一資源服務(wù)總線的建立,使大數(shù)據(jù)平臺能夠?qū)ν馓峁┙y(tǒng)一化、標準化、規(guī)范化的信息資源服務(wù),業(yè)務(wù)系統(tǒng)效率獲得極大的提升;基于平臺建立多種業(yè)務(wù)分析應(yīng)用,對多類資源進行關(guān)聯(lián)分析、深度挖掘,建立多種專題研判、預(yù)測分析,為公安提供可靠的、全面的實戰(zhàn)支撐,為案件偵辦、反恐維穩(wěn)提供有效的數(shù)據(jù)保障,助力實現(xiàn)“智慧公安”。