第十一章 數據海洋和爬蟲

數據分析模塊是股神1.0的大腦,除了這個大腦之外它還需要其他幾個關鍵性模塊。既然做大數據分析,那麼這個數據來源就需要有一個功能模塊來解決,它專門負責數據的收集。

這個數據收集模塊就像是股神的手腳,負責從網絡上收集對應的數據,這個模塊一個關鍵的組成部分就是爬蟲。

國際互聯網發展到今天,變成了體系龐雜內容浩繁的網狀系統,這個系統上的信息節點規模數以十億計,這些節點可能包括臺式機、筆記本、服務器、大規模羣組、智能手機、平板、智能導航終端、各類信息採集終端、信息發射終端等等等等。

只要能夠鏈接上互聯網,能夠與互聯網進行數據交互的,都可以視爲一個信息節點,比如遍佈城市的各類監控探頭,各類通訊基站,嚴格來說都屬於節點之一。

這些節點爲互聯網提供的數據類型也各種各樣,有文字,有數據,有圖表,有文檔,有視頻,有音頻,有數據庫;它們的表現形式各式各樣,有通用格式,有專用格式;所有這些信息加在一起,共同組成了沉積在國際互聯網中浩瀚的數據海洋。

這個數據海洋是動態的,它時刻處在在運動和更新之中,就好像各種洋流和浪濤一樣,永不停息。

整個數據海洋分散在無數個信息節點之中,這些信息節點被各種通訊協議鏈接起來,讓它們可以相互通訊。各種通訊協議中,有我們最熟悉的一種,就是url,也就是我們總會遇到的網站鏈接。

如果將整個數據海洋比喻成我們的地球,那麼每個數據節點就是一個房間,而節點內的數據信息就是我們人類,所有的信息節點組合起來,構成了地球上的無數個城市,無數個大廈,無數個房屋。

各種各類的數據鏈接模式,就是承載人們出行的道路,而url不過是道路的一種,算是各個城市之間,各個主要的商業大廈之間互通的鐵路和公路。它主要出現在公共服務器之間,就是說只要有了url,理論上來說它對所有數據訪客都是開放的,任何人都可以抵達這個服務器,只不過它有沒有門禁就是另外一回事了。

既然有公共空間,那相對應的肯定有非公共空間,除了url,還有很多鏈接模式,這些鏈接模式裡,信息節點就像是私人住宅或者軍事禁區一樣,它並不是開放給公衆的,雖然它同樣存在於數據海洋中,但你是無法隨便訪問的。

當面對如此龐大浩繁的數據海洋時就存在一個問題了,世界這麼大,我該如何找到目標,比如我想找感冒藥相關的數據信息,我該怎麼辦?

正是這種需求催生了搜索引擎,搜索引擎可以幫助你快速找到目標,它就像一個找路指南一樣,你只要告訴它想去哪,這個目的地大概什麼特徵,它就會幫助你找到無數個可能合適的目的地,並且把對方的url提供給你。

搜索引擎每天的訪問量都是海量的,每一秒同時併發的搜索請求都是數以十萬計的,在這麼多請求面前,如果來一個請求它搜一遍互聯網,這肯定是不現實的,不僅速度慢效率低,而且僅僅這類搜索請求就足讓整個國際互聯網陷入擁堵狀態。

爲了解決這個問題,搜索引擎就有了它特有的工作模式,它先儘可能多的將數據海洋裡的信息全部找出來,然後存儲在自己的服務器羣組中,一旦有了搜索請求,它只要在自己的服務器裡進行檢索就行了。

而幫助搜索引擎完成找這個動作的就是爬蟲。

因爲國際互聯網中的信息節點都是相互關聯的,是網狀聯繫的,每個節點上都會有很多個url。所以爬蟲的工作模式就是遍歷,當它開始工作時,它會以一個信息節點爲起點,然後挨個訪尋與這個節點相連的所有節點,當下一層節點還有url鏈接時,它就不斷訪問下去,直到將所有url遍歷一次纔算完。

因爲整個互聯網的網狀結構,使它具備網狀互通性,所以等爬蟲將所有url遍歷了,一般來說它就已經將整個國際互聯網所有鏈接全部訪問了一遍,這注定是一個比環球旅行更加令人歎爲觀止的行爲。

而莫回既然想弄這個股神1.0,他想要蒐集海量數據,那麼他要做的事情其實和搜索引擎要做的事情很像,只不過搜索引擎是所有信息都要蒐集,而莫回只需要關注股票相關的信息就行了。

這樣的話,莫回的爬蟲就必須在具備遍歷能力的同時,還得具備篩選的能力。

遍歷的能力解釋起來很簡單,就是你不能走回頭路和冤枉路,遊歷過的url就犯不着再走第二遍了。一條新的url被發現,首先需要判斷這條url是否已經走過,其次需要判斷這條url被安排在什麼次序去走。一個是重複性問題,一個是最優化問題,這就需要獨特的遍歷算法來解決。

而篩選功能就是通用爬蟲和專用爬蟲之間的主要區別,莫回的爬蟲需要具備一定的識別能力,能夠辨別某個url中的內容是否具備相關性,如果不具備那麼就跳過,如果具備就將其中的內容複製回來待用。

這個篩選功能同樣需要一大堆的算法來解決,不僅如此,它還需要具備自然語言處理能力,就是說它得具備對語言文字的理解和解析的能力,它得能夠識別哪些文字內容是與股票相關的,哪些是無用的。

僅僅識別文字還是不夠的,它還得能夠識別其他格式的數據,比如它得能夠識別圖案,像是股票相關的各種k線圖、柱狀圖之類的,爬蟲必須能夠將其與風景畫或者自拍照區別開。

除了圖片,其他的像是視頻、音頻、各類數據庫之類的,爬蟲都需要一一辨別出來,確定是否屬於相關內容。

這裡面將會有無數個技術難題需要解決,如果這個工作讓莫回一個人來完成,幾乎是不可想象的。

第152章 一次悲哀的大選!第二十八章 生命的過客第二十六章 女人的事業第128章 正能量偏多第105章 價值8億的誠意第170章 推衍1.0的瓶頸第166章 報復第127章 和我無關第129章 VR--虛擬現實第236章 意念科技、機器人、智能的軍事化第167章 蘇青姬的種族觀第166章 報復第137章 我們正在培養自己的掘墓人第167章 蘇青姬的種族觀第105章 價值8億的誠意第209章 不協調第117章 阿朱第152章 一次悲哀的大選!第七十二章 冤家對頭第三十五章 我給你加工資第六十六章 祝福你!第九十一章 王子蒙難記第103章 恩,這是一個巧合!第238章 科技樹長歪了第四十三章 事發了!第186章 美女愛英雄的生物解釋第十六章 戀愛~~項目組第150章 光着照風波第八十八章 你想做上帝都做不到的事情嗎?第五十一章 天網第三十四章 他們是專業的第三十一章 時代的印記第226章 錢不是錢第七十五章 童年有陰影~~~第199章 工業4.0第八十章 時間性預感第154章 電視辯論賽第207章 數據聯盟第142章 爲了公司我們需要一個總統第104章 利潤的味道第179章 玩現實世界的玩家第101章 轉變第101章 轉變第178章 平行世界第182章 上帝之聲第七十六章 制信息權~~第121章 平安是福~~~第213章 天生的一對!第151章 黨爭亡國第七十六章 制信息權~~第235章 虛擬世界第203章 商業1.0第218章 VR和AR第128章 正能量偏多第九十八章 人是可以被調教的!第175章 死神來了!第111章 軌跡2.0上線第三十六章 有房還得有車第234章 虛擬倉第九十八章 人是可以被調教的!第171章 數字紐約和數字人第126章 404第一百章 定製模式開始~~第196章 多層邏輯的現實第207章 數據聯盟第145章 幸運和厄運第161章 間諜第206章 沒有誰能夠了解整個行業第九十一章 王子蒙難記第六十七章 決策體系第118章 熟人的近況第217章 機器人時代第102章 我有個提議第十五章 愛情~~捕獵?第156章 最後的絕望第227章 結構化失業潮第二章 雙飛?第148章 我們在討論量子物理學第八章 比特幣第118章 熟人的近況第151章 黨爭亡國第181章 意念機械第228章 要生存!不要機器人!第233章 外骨骼第三十四章 他們是專業的第七十五章 童年有陰影~~~第九十八章 人是可以被調教的!第132章 敲骨吸髓第193章 信息的侵蝕作用第十六章 戀愛~~項目組第222章 秩序1.0第174章 潘多拉魔盒被打開了!第229章 無條件最低收入法案第三十三章 兩個維度的生物第220章 智能化時代第161章 間諜第164章 阿瑞斯第一章 改變第170章 推衍1.0的瓶頸
第152章 一次悲哀的大選!第二十八章 生命的過客第二十六章 女人的事業第128章 正能量偏多第105章 價值8億的誠意第170章 推衍1.0的瓶頸第166章 報復第127章 和我無關第129章 VR--虛擬現實第236章 意念科技、機器人、智能的軍事化第167章 蘇青姬的種族觀第166章 報復第137章 我們正在培養自己的掘墓人第167章 蘇青姬的種族觀第105章 價值8億的誠意第209章 不協調第117章 阿朱第152章 一次悲哀的大選!第七十二章 冤家對頭第三十五章 我給你加工資第六十六章 祝福你!第九十一章 王子蒙難記第103章 恩,這是一個巧合!第238章 科技樹長歪了第四十三章 事發了!第186章 美女愛英雄的生物解釋第十六章 戀愛~~項目組第150章 光着照風波第八十八章 你想做上帝都做不到的事情嗎?第五十一章 天網第三十四章 他們是專業的第三十一章 時代的印記第226章 錢不是錢第七十五章 童年有陰影~~~第199章 工業4.0第八十章 時間性預感第154章 電視辯論賽第207章 數據聯盟第142章 爲了公司我們需要一個總統第104章 利潤的味道第179章 玩現實世界的玩家第101章 轉變第101章 轉變第178章 平行世界第182章 上帝之聲第七十六章 制信息權~~第121章 平安是福~~~第213章 天生的一對!第151章 黨爭亡國第七十六章 制信息權~~第235章 虛擬世界第203章 商業1.0第218章 VR和AR第128章 正能量偏多第九十八章 人是可以被調教的!第175章 死神來了!第111章 軌跡2.0上線第三十六章 有房還得有車第234章 虛擬倉第九十八章 人是可以被調教的!第171章 數字紐約和數字人第126章 404第一百章 定製模式開始~~第196章 多層邏輯的現實第207章 數據聯盟第145章 幸運和厄運第161章 間諜第206章 沒有誰能夠了解整個行業第九十一章 王子蒙難記第六十七章 決策體系第118章 熟人的近況第217章 機器人時代第102章 我有個提議第十五章 愛情~~捕獵?第156章 最後的絕望第227章 結構化失業潮第二章 雙飛?第148章 我們在討論量子物理學第八章 比特幣第118章 熟人的近況第151章 黨爭亡國第181章 意念機械第228章 要生存!不要機器人!第233章 外骨骼第三十四章 他們是專業的第七十五章 童年有陰影~~~第九十八章 人是可以被調教的!第132章 敲骨吸髓第193章 信息的侵蝕作用第十六章 戀愛~~項目組第222章 秩序1.0第174章 潘多拉魔盒被打開了!第229章 無條件最低收入法案第三十三章 兩個維度的生物第220章 智能化時代第161章 間諜第164章 阿瑞斯第一章 改變第170章 推衍1.0的瓶頸