關(guān)于“大數(shù)據(jù)出版”的一些體會和猜想
“大數(shù)據(jù)時代”一詞,足顯大數(shù)據(jù)意義之大、影響之深。在PB級尺度下,十億分之一PB的一本書非常渺小。如果互聯(lián)網(wǎng)還像現(xiàn)在這樣無序,它的被發(fā)現(xiàn)概率和影響力之小便可想而知。由此引發(fā)一個問題:出版社和圖書館將如何面對大數(shù)據(jù)時代?過去,我們只有一個思路,就是“大數(shù)據(jù)有序化”,希望通過對海量文獻(xiàn)數(shù)據(jù)的規(guī)范化、自動化加工,以及對相應(yīng)檢索技術(shù)的改進(jìn)完善,解決海量文獻(xiàn)的內(nèi)容發(fā)現(xiàn)問題。但這樣做的結(jié)果,就是將文獻(xiàn)資源變成“數(shù)據(jù)孤島”,獨立于互聯(lián)網(wǎng)大數(shù)據(jù)這一虛擬社會之外,內(nèi)容價值得不到充分的發(fā)掘和利用,整體的影響力也不足以支撐內(nèi)容產(chǎn)業(yè)的大發(fā)展。所以,就“大數(shù)據(jù)時代對出版和圖書館的機(jī)遇和挑戰(zhàn)”這一話題來講,就是要不要搞“大數(shù)據(jù)出版”和“大數(shù)據(jù)圖書館”?
“大數(shù)據(jù)出版”的可能性。以同方知網(wǎng)出版的《中國統(tǒng)計年鑒數(shù)據(jù)庫》(CSYD)為例,CSYD收錄了1949年以來中國正式出版的全部統(tǒng)計年鑒和年報,以及由國家統(tǒng)計局以月份和季度為單位發(fā)布的全部統(tǒng)計數(shù)據(jù),反映全國各鄉(xiāng)鎮(zhèn)以上地區(qū)和各行各業(yè)的經(jīng)濟(jì)、社會、文化基本情況及其變化。通過挖掘分析,像產(chǎn)值、產(chǎn)量、人口這樣的基本統(tǒng)計指標(biāo)約1200萬個,但數(shù)據(jù)量卻只有1.5%PB。
基本統(tǒng)計指標(biāo)是國家統(tǒng)計局等有關(guān)統(tǒng)計部門,根據(jù)相關(guān)法律法規(guī)制定的可以獨立反映我國各方面基本情況的數(shù)據(jù),但人們在研究分析過程中關(guān)心的是大量有意義的數(shù)據(jù),姑且稱之為“衍生指標(biāo)”,其并沒有在統(tǒng)計年鑒或月度統(tǒng)計報告中直接呈現(xiàn)(出版)出來,但可以由基本統(tǒng)計指標(biāo)通過某種運(yùn)算得到,其量級估計有基本指標(biāo)數(shù)的10倍。如果我們出版了這些衍生指標(biāo),CSYD將達(dá)到0.15PB,接近大數(shù)據(jù)尺度。
發(fā)布統(tǒng)計數(shù)據(jù)的一個重要意義,就是產(chǎn)生對數(shù)據(jù)的評價。但是,現(xiàn)有的統(tǒng)計數(shù)據(jù)不包含評價數(shù)據(jù)的數(shù)據(jù)。加上必要的評價數(shù)據(jù),CSYD將可能達(dá)到PB量級。從這個例子來看,如果我們出版者真正理解內(nèi)容,不斷地深入挖掘各種用戶和讀者研究和學(xué)習(xí)的需求,把出版看成是對讀者提供知識服務(wù)的過程,出版大數(shù)據(jù)是有可能的。現(xiàn)在人們議論的“碎片化出版”“動態(tài)出版”“重組出版”,其實就有“大數(shù)據(jù)出版”的一些寓意,只不過缺乏“知識服務(wù)”這個市場概念的統(tǒng)領(lǐng),而失去了明確的動機(jī)和目的。
“大數(shù)據(jù)出版”將產(chǎn)生怎樣的應(yīng)用價值?“大數(shù)據(jù)出版”不應(yīng)當(dāng)是為大而大,“碎片化出版”也不能為碎而碎,大數(shù)據(jù)的本質(zhì)特征,是因為其本身具有極大的知識挖掘價值,而成為一種極為重要的研究對象和資源。還說CSYD,它不僅是一個經(jīng)濟(jì)社會統(tǒng)計指標(biāo)數(shù)據(jù)的大集合,更重要的它將是研究真實中國社會、經(jīng)濟(jì)發(fā)展變化規(guī)律的“社會科學(xué)實驗室”。通過CSYD,發(fā)現(xiàn)“數(shù)據(jù)關(guān)系”,特別是因果關(guān)系,是人們對這一出版物最大的期望和追求。為此,我們?yōu)镃SYD提供了各種計算軟件,讓人們可以隨意利用數(shù)據(jù)去發(fā)現(xiàn)“數(shù)據(jù)關(guān)系”,并配置了協(xié)同研究平臺、協(xié)同創(chuàng)作平臺,在這個平臺上發(fā)表的研究成果,可以發(fā)布研究的全過程,其他人可以重復(fù)、驗證他的工作。可見“大數(shù)據(jù)出版”,不僅改變了出版方式,更可以改變認(rèn)識方式和研究方式,成為人們探索世界的一種全新的觀念和手段。
“大數(shù)據(jù)出版”需要觀念創(chuàng)新。還以統(tǒng)計年鑒為例,實現(xiàn)“大數(shù)據(jù)出版”,首要的是出版觀念轉(zhuǎn)變。
從出版統(tǒng)計年鑒圖書,轉(zhuǎn)變?yōu)槌霭娼y(tǒng)計數(shù)據(jù)。應(yīng)該把有意義的每一條數(shù)據(jù)及其數(shù)據(jù)關(guān)系,都看成是一個出版產(chǎn)品,才能使每個數(shù)據(jù)體現(xiàn)其自身的價值。
從發(fā)布統(tǒng)計數(shù)據(jù)信息,轉(zhuǎn)變?yōu)榛卮鹱x者的問題。發(fā)布本身不是唯一目的,更重要的是使這些內(nèi)容產(chǎn)生價值,滿足讀者發(fā)現(xiàn)、理解、解決問題的需要。
從提供數(shù)據(jù),轉(zhuǎn)變?yōu)樘峁?shù)據(jù)服務(wù)。提供數(shù)據(jù)屬于信息服務(wù),而數(shù)據(jù)服務(wù)還包括數(shù)據(jù)使用目的、使用方式的服務(wù)。因為,只有做好這些服務(wù),才能充分實現(xiàn)數(shù)據(jù)的使用價值和經(jīng)濟(jì)價值。
“大數(shù)據(jù)出版”如何營銷?一個大數(shù)據(jù)出版物一片“云”,還是一個孤云,營銷模式和以往的數(shù)據(jù)庫差不多,市場不易做大。如果把“大數(shù)據(jù)出版”的概念再加以拓展,將其中每一條數(shù)據(jù)“出版”到互聯(lián)網(wǎng)上更大的大數(shù)據(jù)云層之中,就是使微數(shù)據(jù)與云層中的微數(shù)據(jù)發(fā)生“強(qiáng)耦合”,那么,大數(shù)據(jù)的內(nèi)容將與整個互聯(lián)網(wǎng)虛擬社會融合到一起,而無處不在。比如統(tǒng)計數(shù)據(jù)和新聞、論文、圖書、博客中相應(yīng)內(nèi)容關(guān)聯(lián)起來,就可以用來正確地解釋種種撲朔迷離的現(xiàn)象和千奇百怪的問題。
在這樣的“大數(shù)據(jù)出版”概念下,出版物不需要營銷,出版本身就是最重要的營銷。這個場景的出現(xiàn),難道不是我們很多出版人夢寐以求的嗎?
以上討論,一己之體會,供大家批評。
(作者系中國學(xué)術(shù)期刊電子雜志社社長、同方知網(wǎng)技術(shù)公司總經(jīng)理。本文系作者在研討會上的發(fā)言,刊登時略去“大數(shù)據(jù)圖書館”部分。)