林奇有了量子生物計算機,就想開發一些適合量子生物計算機使用的軟件。
人們在電腦上接觸到的一切信息,從文字到圖片再到視頻,都是被分解爲一個一個字符編碼,存儲在一個個磁盤中的,就是我們常規電腦中的那種硬盤。
現在的雲服務,也不過是把本地的硬盤空間通過技術的手段分享出來讓別人可以在這塊硬盤上增刪改查,雲服務本身要依賴硬盤來存儲數據,沒有硬盤就沒有云。
雲服務不僅僅包含雲存儲,還包含一起其他的東西,但是,雲存儲是其中雖重要的東西,亞麻遜的s3服務,它的雲數據庫服務其實都是爲了存儲服務的。
互聯網的行業本質就是數據交換,而數據交換的大前提,就是有地方可以存放數據。
數據可以說是一個企業生存的根本,因爲有了不同的數據,一個個的企業纔有了不同的色彩,變得各不一樣。
很多互聯網公司面臨的就是這樣一個困境,數據越來越多,佔用的存儲空間越來越多,數據在產生價值錢,是需要耗費大量陳本來存儲的,所以很多公司都在和時間賽跑,比賽規則是先利用數據產生足夠的價值,還是被激增的存儲成本耗死。
要說對於存儲數據的認知,有一個人很有發言權,那就是雷布斯。
雷布斯稱,粗糧用戶的數據用戶不刪除,小米是沒有權利刪除的,它每個月都在新增,越來越多。
“我估計到後年年底,粗糧雲擁有的數據量會超過1000個P。1000個T就等於一個P,1000個P我再換算成需要多少服務器,需要多少機櫃,需要多少IDC呢,還有帶寬。”
“1個P一年的存儲成本,是300萬人民幣。用這個成本算1000 個P的話——30億人民幣,但這個數據其實還在爆炸。光1年的存儲費用,它是個鉅額的投資。”
“這個數據量現在就已經很恐怖了,大後年big data要沒價值的話,那我就破產了。”雷布斯表示。
雷布斯稱,做好大數據業務,第一件事情是做一本隱私白皮書,一定要用全球最高標準來管理隱私;第二件事情會盡量做到數據本地化,比如說印嘟(地名)的數據放印嘟,太晚(地名)的數據放太晚。
當然了這些話是雷布斯在2014年的時候說的。現在有了量子通信,所以帶寬費用給他們省去了一大筆錢,粗糧公司非常積極的擁抱新技術。
我們經常會看到互聯網的新聞,說某某公司盜取了另一個公司的視頻數據,某某公司盜取了另一個公司的點評數據,某某公司盜取了其他公司的原創內容。
這些數據都是存放在硬盤裡面的,因爲存儲安全問題,經常還會有被盜用的問題。
這些盜用者深深明白數據的重要性,所以他們才處心積慮、不擇手段,冒着被披露、被戳脊梁骨的風險,也要盜取同行的數據。
盜取數據只有一個目的,就是爲了讓自己公司的產品能有更多的用戶,爲了利益。
所以數據的安全性問題也是很重要的,也許並不是所有的數據泄露、被盜都是從數據庫泄露的(脫庫),但是數據庫的安全性非常重要。
還有一個新型數據庫要面臨的挑戰是,一克的生物計算機能存儲數據是普通的機械硬盤的幾百萬倍,如何在數據庫中存放如此大量的數據,並且快速的存取,是一個不小的難題。
林奇意識到想讓生物計算機能大規模的使用,必須有一個配套的數據庫系統。
數據庫產生於距今六十多年前,隨着信息技術和市場的發展,特別是二十世紀九十年代以後,數據管理不再僅僅是存儲和管理數據,而轉變成用戶所需要的各種數據管理的方式。
數據庫有很多種類型,從最簡單的存儲有各種數據的表格到能夠進行海量數據存儲的大型數據庫系統都在各個方面得到了廣泛的應用。
在信息化社會,充分有效地管理和利用各類信息資源,是進行科學研究和決策管理的前提條件。
數據庫技術是管理信息系統、辦公自動化系統、決策支持系統等各類信息系統的核心部分,是進行科學研究和決策管理的重要技術手段。
數據庫是伴隨着互聯網的興起而蓬勃發展的,自從有了第一臺電子計算機。
“信息”這個詞語就被越來越多的人使用,在計算機中,想存放信息,開始人們使用的是文本文件。
但是文本文件有太多的不方便之處,於是後來就有一些科學家編寫了一個叫做“數據庫”的軟件。
衆人在使用了之後,都感覺這個叫做“數據庫”的軟件用着挺好,比用文本文件存數據方便了很多。
於是越來越多的人在使用數據庫存放數據,同時也是因爲越來越多的人使用數據庫,也使數據庫的發展呈現了多樣化。
最初數據庫只是像表格一樣能存儲固定的行和列,還是以行爲單位。這就是關係型數據庫,比如mysql、mariadb(mysql的衍生版本)、postgresql、oracle、DB2(來自IBM)。
互聯網中使用廣泛的有mysql,但是java系的企業級的用oracle的也不在少數。
再後來有了nosql,他們中的典型代表有Redis、Memchache、MongoDb、cassandra(redis和memcache還是內存數據庫,數據存放在內存裡面)。
還有基於穀子哥的論文“Bigtable”而開發的hbase數據庫,HBase是一個分佈式的、面向列的開源數據庫。
還有面向特殊用途,比如基於時間的數據庫,influxdb、rrdtool、opentsdb……
這些數據庫各自有各自的用途,每一種基本上都是爲了解決特定問題而產生的。
每一個都有每一個的價值,不能單純的說誰好誰壞,誰比誰好用。
林奇開發的生物計算機操作系統,裡面也有存放數據的功能,但是隻是一個文件系統,不是數據庫。
鑑於數據庫這麼重要,所以林奇想開發一個生物計算機上的基礎軟件,首先想到的就是數據庫軟件。
不管是開發關係型數據庫,還是nosql數據庫,內存數據庫,文檔數據庫,key-value數據庫,時間數據庫,面向列的數據庫,他們都有共同的目標。
每秒的讀寫次數越高越好,每秒能讀寫的內容越大越好。
數據庫的開發是需要站在巨人的肩膀上面的,爲了研究現在數據庫都有什麼功能,林奇進入了開源世界的懷抱。
其中涉及到的知識也是相當多的,比如數據庫的存儲技術涉及到存儲於文件結構、索引技術;併發控制技術涉及到事務管理、併發控制、死鎖處理;數據庫管理與維護技術涉及到數據完整性、數據庫安全性、數據庫可靠性、監控分析、參數調整、查詢優化、空間管理;還會涉及到分佈式、對象、並行、數據倉庫與數據挖掘。
學過數據庫都熟知的1234範式,這是數據庫設計的時候的規範和開發數據庫本身沒有任何關係。
上次開發生物計算機的系統時候,林奇採用的是別人寫設計概要,他來進行開發,而這次他想換一個種方式,他準備自己設計概要設計,讓開發部去進行開發。
不過首先需要找一個由頭,把自然語言推廣到全公司,要不然還用c或者c++來開發生物計算機上面的軟件,那第二智慧可以大批的招兵買馬,養幾十萬個程序員,來開發一些最常用的軟件。
生物計算機的推出將會遙遙無期。