既然陳豎已經睡下,林果決定自己去調查。
“要證明《我的紫色芳香小說》是陳豎的作品,而不是衛勝男的,最快的方式當然是使用數據分析。統計出這兩位作者早期作品中的高頻詞彙,語法習慣,以及標點符號等使用方式,再跟昨天在第二期短名單公示的作品進行比對——”
“等等,你這倒是方便了,要找人開發系統,誰知道要多長時間。”
說這話的同時,李帶想到了萬物皆可盤的技術達人趙盤,他倒是可以幫忙定製,但無論是文本的錄入還是後續的統計,都要不少時間吧。
正想着怎麼加快進度的時候,林果說。
“沒關係,我這裡有現成的系統。是開卷數據的內部服務。”
聽到這裡,李帶一驚。
衆所周知,開卷數據是華夏圖書市場不可忽視的巨頭之一。
在出版行業裡,有的公司靠原創內容掙錢,有的公司靠版權貿易掙錢,有的公司靠發行渠道掙錢,但是開卷數據這家公司不一樣,它靠收集整理服務器裡的數據掙錢。
作爲國內最大的圖書市場零售數據連續監測系統的建立者,開卷數據擁有890多個地縣城市,2000多家實體書店,1500多萬種圖書的3200多萬條元數據信息,而且上面的數字每個月都在有條不紊地增加、整理、沉澱着。
所以簡單來說,它是全球最快、最全、最權威的華語出版書目信息庫。
有了這些信息以後,開卷數據既可以爲出版業上游四百多家出版單位提供編輯選題、營銷發行相關的數據支持,又可以幫助下游各個書店在採購、配貨、上架、銷售以及退貨等環節,實現全方位、流程化和精細化管理。
除此之外,他們還製作各種榜單,諸如《全國出版企業市場競爭力年度分析報告》《地區分類新書銷售排行榜》等,報告是免費向全社會公開的,所以無論在行業主管部門,在業內各個同行,還是在廣大普通讀者中間,這家公司的口碑都很好。
最令人訝異的是,這麼家佔據了行業龍頭地位的公司,他們總部的員工,如果不算外包和實習員工的話,只有四十二個人。
“這都能弄到,你路子還真是夠野的。”
“之前的服務器裡用來運算的數據,都只是針對書籍的描述數據,也就是所謂的元數據,譬如書籍的標題、副標題、第一作者、第二作者(合著者)、第三作者(譯者)、出版時間、出版方等等。這些數據雖然也很重要,在很多地方都能派上用場,但是開卷覺得它們的顆粒度還不夠細,所以決定再進一步,深入到文本中,選擇近十年內,出版的五十五萬本重點圖書,配合出版方做了電子版的錄入工作,內部稱之爲「方舟中臺」。僅對內部員工開放,使用公司配發的代理服務器才能登陸。我恰好有權限就查了查,裡面就包括陳豎和衛勝男的書。”
“業務也太熟練了吧,你這是到開卷數據他們總部潛伏去了嗎?!”
“那倒沒有,只不過公司有我認識的人而已。”
“我天你認識的是哪位大佬。”
“林遠興。”
“開卷數據……執行董事長?”
“是我爸。”
林果連忙補充道,“不過這不重要,我是新知集團的員工。”
“……”
“總而言之,言而總之,回到之前的問題。昨天晚上,我把陳豎的三本舊作《椴花茶方法論》《逃逸線》以及《超無用的超能力》,還有衛勝男的近五年出版的十一本書都在方舟平臺裡面運算了一遍,發現《我的紫色芳香小說》更可能是陳豎的作品。”
“此話怎講?”
“首先,從語法習慣上來講,在開卷對全世界公認的十五位偉大作家的一百六十七部作品進行量化分析後,偉大作家的傳世之作,跟從論壇上抓取下來的長篇同人小說——它們通常是業餘作家不爲盈利寫出來的興趣之作——相比顯著特徵是,好作家使用副詞的頻率更低。”
“舉個例子,「他威脅地低吼」「她悽慘地哀求」,這裡「威脅地」和「悽慘地」就是副詞,而這兩個詞完全沒有必要。如果低吼出來的話足夠有威脅性,讀者自然能感覺到,沒必要特意告訴他,同理哀求這個動詞已經表現出角色的悽慘,非要說出來就很囉嗦,濫用副詞就是在低估讀者的智商。再舉個例子,同樣是表現角色的憤怒,與其說「他用力地關上門走了」,就不如說,「他摔門而去」。”
“還有個顯著特徵是,好作家會有意識避免使用被動語態。不要說「會議將於七點鐘被舉行」,直接說七點開會,不要說「我家裡被財富充滿了」,直接說我家發了大財。”
“這個理論有點道理,不過我猜測,你們選擇的偉大作品,應該有不少來自西方國家。像這些語法規則的微妙之處,也是在西方國家中會更適用些,中文的語法比較隨意。”
“是的,數據不能代表全部。但我這邊的結論是,陳豎的作品符合少用副詞,少用被動語態的要求,而衛勝男不符合。我還沒說完,你姑且先聽着。”
“其次,從標點符號的使用習慣上,偉大作品的感嘆號使用率較低。在沒有必要的情況下大量的感嘆號,會沖淡文字本身的力量,感嘆號和其他的特殊標點符號,如破折號、省略號要用在格外需要讀者注意的場面和描寫裡面。有些寫作指導書裡還專門規定了比例,說是每十萬個字中感嘆號不要出現超過三個。”
“有點誇張。但聽起來似乎也不無道理。”
“如果按照這個標準,她們肯定是都超標了。兩個人相比較的話,陳豎使用的感嘆號比例明顯小於衛勝男。”
“最後是詞頻,常用詞語頻率,這個是最容易分辨出不同作家的風格差異的地方。”
“兩個人使用最多的都是助詞,陳豎使用最多的助詞是「的」,衛勝男是「了」。”
“這說明不了什麼。”
“再看代詞,陳豎使用最多的代詞是「我」,衛勝男則是「她」。”
“還是很迷啊。只能說明一個喜歡用第一人稱寫作,另一個喜歡第三人稱視角吧。”
“排除掉這些虛詞後,關鍵的來了。在名詞中我主要統計了地名、交通工具、動物、顏色等常見的分類。”
“陳豎最常用的顏色是「紫」,衛勝男卻不是。”