第53章 大功告成

不過,在跑代碼之前,還要對數據進行預處理。

江寒先從報名信息表中,將性別信息仍然“健在”的行挑出來,只保留序號、姓名和性別,另存爲label.xls。

這些記錄一共9527條,大約佔三萬多條數據總數的30%。

它們對應着9527張真彩色照片。

24位真彩色的圖片,每個像素點在內存裡,要佔用3個字節的存儲單元。

每張照片有210×120個像素,這樣讀入一張照片,需要的內存空間就是210×120×3=75600個Byte。

9527條數據,共需要9527×75600=720241200B≈686.88M≈0.7G!

這個內存開銷,還是比較容易接受的。

但是,“感知機”的算法,需要進行大量浮點乘法運算。

對每個像素的每個RGB分量都算一遍?

沒那個必要,也太浪費時間。

所以,聰明的做法,是先把照片數據“壓縮”一下。

江寒給“感知機”的代碼,添加了一個LoadData函數,用來讀取和處理照片數據。

在這個函數裡,先定義一個二維的整形數組Feature。

然後從label.xls中讀出序號、姓名信息,按照剛纔建立的索引表,找到對應的照片文件。

下一步,將照片讀取到內存中,讀取的同時,將每個像素二值化。

具體做法是:色彩濃度在閾值以上的像素,取值爲1,低於閾值就讓它爲0。

這樣一來,原本的真彩色照片,就被轉換成了黑白輪廓圖。

然後,再將輪廓圖中的0或者1的取值,按照從左到右、從上到下的順序,重新編排成一行數據,存放到數組Feature中。

Feature中的每一行,都存儲了一張照片的二值化信息。

一共9527張照片,就需要9527行。

全部照片處理完畢後,就得到了一個巨大的二維數組Feature。

它有25200列、9527行。

接下來,定義一個擁有9527個整形元素的一維數組Label。

從label.xls中讀入性別信息,男生設爲1,女生設爲0,存放在數組Label中。

Feature加上對應的Label,就構成了訓練數據集。

訓練“感知機”時,將一行行Feature代入公式中,進行加權和運算,其結果再通過sign函數,轉換爲0或1,然後和對應的Label值對照。

如果不相符,就調整權重和偏置,然後重新計算。

當每一個Feature代入公式後,都能計算出正確的Label時,就得到了一組權重和偏置。

也就是說,構建出了一個可用的數學模型。

依據這個模型,計算機就可以讀入任何一張同尺寸、類型的照片,對其二值化的數據代入模型中運算,並根據運算結果判斷分類歸屬。

這就是典型的機器學習過程,計算機從數據中自己“學”到了某種規律。

即使這種規律,人類並不一定完全理解,也不見得能用數學語言解釋清楚……

剩下的就比較簡單了。

接下來,江寒又添加了幾個函數,用來輸出運算結果、觀察運行情況等。

最後,從頭調試了一遍,確認沒啥bug後,將代碼重新編譯,然後運行了起來。

屏幕上有一些數字,表示當前正在處理的數據,和訓練進度的百分比。

十分鐘後,後一個數字纔剛剛達到1.3%。

這表示,完整訓練一遍,大約需要13個小時……

之所以這麼慢,主要是江寒的程序,比較追求穩定性,以及調試的方便、快捷,並沒特別講究執行效率。

當然,即使他用心優化,估計也需要8個小時以上,才能完成訓練。

雖然有點慢,但其實沒什麼關係,訓練過程並不需要人工干預,掛機等着就行。

第二天早晨,江寒起牀後,先看了下訓練進度,還差了大約13%才能完成,就先去班級上課。

中午吃完飯回來,訓練終於結束了。

而存放權重和偏置參數的Weight數組,也以內存映像的方式,保存在了一個二進制文件中。

接下來就簡單了。

重建一個一模一樣的感知機模型,加載上這個權重文件,就可以用它來判斷剩餘照片的性別了。

江寒重新改寫代碼,然後運行。

這次十分迅速,只用了不到20分鐘,就將兩萬一千來張照片,全部處理完畢。

這就是“感知機”,或者說“人工神經網絡”的特點。

訓練起來特別耗時,一旦訓練完成,工作起來非常快捷。

至於正確率,江寒初步估計,大大超過99%,21000條未經訓練的數據裡,判斷出錯的,絕不超過10人。

比人類肉眼的識別率低不到哪裡去。

事實上,“感知機”或者說“人工神經網絡”的錯誤率,跟訓練數據、測試數據的質量有很大關係。

如果比較規範,達到100%的識別率都不算稀奇。

可惜實際運用中,總有個別實例,奇葩得超乎想象。

有的時候,人類都幾乎無法識別!

根據老高的說法,這區區幾個錯誤的,可以在把名單下達到各校後,根據反饋修改一下就行。

如果沒有這個託底,就沒法使用“感知機”,因爲沒辦法判斷,哪些人被誤分類了……

得到了全部照片的性別數據後,江寒將其粘貼到了《報名信息表》中。

大功告成後,江寒沒急着找高老師覆命。

這麼快就搞定,老高肯定會十分震驚,然後追問前因後果。

“感知機”解釋起來太費勁,而且也沒那麼高大上,還用不着見人就推銷。

關鍵老高一個人貢獻的那點震驚值,江寒現在已經有點看不上眼了。

休息了一會兒後,江寒就拿着《noip通關寶典》,回班級繼續刷題。

※※※※※

“槓上開”是一個營銷號主。

什麼是營銷號?

百科上說,一般是指組織機構或者個人對外宣傳散發信息所用的賬號,具有目的性,一般是用來宣傳產品或服務的。

狹義上說,就是純粹以賺錢爲目的,專門在各大視頻站上傳垃圾內容的人。

內容粗製濫造?那是基本操作;

虛假宣傳和科普?那是日常作業;

動不動危言聳聽、各種震驚?這根本就不算事兒。

沒事兒噹噹水軍,引導引導輿論,纔是他們的主要業務。

反正很多事情,很多人既不瞭解,也不具備判別能力,還不是哪邊人多信哪邊……

你說網友們義憤填膺?

上面都不管,網友算老幾,錢到手纔是真的。

爲什麼網站不整治?

一個是很難區分,容易誤傷正常的up主;

再一個,網站跟流量什麼仇、什麼怨……

“槓上開”就是這樣一個營銷號,每天出沒於各個視頻站,P站算是他最重要的基本盤。

他最常做的,就是接受客戶的委託,然後不擇手段地完成任務。

視頻網站給的那點補貼,他根本沒放在眼裡,客戶的賞金纔是大頭。

今天,他做完“作業”,上傳完幾個視頻,然後隨便在P站逛了一會兒。

忽然,一個點擊、投幣超高的視頻,躍入了眼簾。

本月熱門?

“槓上開”來了點興趣。

仔細一看標題,頓時有點無語。

《舊光驅改造寫字機器人》……真夠誇張的,你怎麼不改造成航母呢?

不過,好奇之下,他還是點開了視頻,看了一眼。

結果,一看之下,他瞬間就驚呆了。

臥槽,還真是個高手,這動手能力有點逆天了。

本着一個營銷號的職業精神,“槓上開”感到了一種久違的使命感。

必須做點什麼。

沒錯,這麼有創意的視頻,不盜上一把,他簡直渾身藍瘦!

不過,簡單的重發是不行的,網站的審覈員職位,也不是白設置的。

所以,還需要用點技巧,稍微加工、處理一下……

第29章 王璐有點自閉第39章 這可能是個誤會第245章 什麼事兒比NOIP還重要?第383章 全自動刷分第374章 手工打造LED顯示器第82章 渣男反編譯第185章 是不是太敏感了?第3章 一個大膽的想法第141章 金裝四大才子第95章 再花5000也值第365章 一套接着一套第423章 超算和MPP架構第324章 如果是江寒哥哥的話……第217章 超級粉絲第168章 本能反應第161章 論腦補,只服你第396章 線性CCD掃描相機第122章 騙過多少女孩子?第205章 江寒的心性第145章 陳萱的邀請第310章 唯一的破綻第350章 男生不準進去的地方第72章 玩不起第361章 有點像“年輕”時的自己第278章 Root Me,Hack Me第390章 兩份DNA檢測報告單第262章 貴有貴的道理第144章 時序邏輯電路和寄存器第156章 你高興的太早了第415章 滿分入選國家隊第1章 一夜回到十年前第122章 騙過多少女孩子?第210章 爲了節目效果第226章 還能剩下幾個?第263章 一切都在算計中第361章 有點像“年輕”時的自己第129章 兩道試題第420章 強化學習的威力第258章 學霸的畫風,都是這麼清奇的嗎?第183章 成功的路上沒有僥倖第411章 不可不防,防不勝防第19章 一切爲了押韻第430章 超算落成,九段助陣第82章 渣男反編譯第153章 眼氣誰呢這是?第104章 鮮花與牛糞第415章 滿分入選國家隊第130章 大佬和小蘿莉第411章 不可不防,防不勝防第354章 迷你3D打印機第128章 被傳染了怎麼辦?第43章 寫字機器人第39章 這可能是個誤會第189章 查房第249章 胸有成竹,根本不慌第161章 論腦補,只服你第209章 校服就是最正式的裝扮第37章 烤肉第399章 此一時,彼一時第1章 一夜回到十年前第246章 Vigenère密碼和國王遊戲第247章 對拍、Day1第三題第307章 沒有證據可不行第293章 精誠所致,金石爲開?第318章 飛機點餐攻略第281章 當場搶人第272章 冤死駱駝的最後一根稻草第359章 大佬,怪蜀黍?第247章 對拍、Day1第三題第315章 故伎重施第63章 巧嗎?第89章 進入狀態這麼快?第94章 水論文的正確姿勢第266章 篩選模型,以及最後的優勝者第32章 借MacBook一用第87章 夜話第300章 沒有硝煙的戰鬥第409章 晨曦III巨型計算機第400章 不可逾越的高山第220章 英俊瀟灑,踏雪無痕第148章 到底什麼意思?第150章 全+1!第285章 “彈性碰撞”第286章 破解壞蘋果第194章 睡不着怎麼辦?第287章 夢裡不知身是客第310章 唯一的破綻第55章 委託第37章 烤肉第89章 進入狀態這麼快?第197章 除了不能說的第87章 夜話第335章 不走尋常路第389章 誠信友善,和諧友愛第140章 虛驚第373章 肉體永生,還是機械飛昇?第377章 打造自己的科技品牌第415章 滿分入選國家隊第57章 非常巨大第296章 攪動風雲
第29章 王璐有點自閉第39章 這可能是個誤會第245章 什麼事兒比NOIP還重要?第383章 全自動刷分第374章 手工打造LED顯示器第82章 渣男反編譯第185章 是不是太敏感了?第3章 一個大膽的想法第141章 金裝四大才子第95章 再花5000也值第365章 一套接着一套第423章 超算和MPP架構第324章 如果是江寒哥哥的話……第217章 超級粉絲第168章 本能反應第161章 論腦補,只服你第396章 線性CCD掃描相機第122章 騙過多少女孩子?第205章 江寒的心性第145章 陳萱的邀請第310章 唯一的破綻第350章 男生不準進去的地方第72章 玩不起第361章 有點像“年輕”時的自己第278章 Root Me,Hack Me第390章 兩份DNA檢測報告單第262章 貴有貴的道理第144章 時序邏輯電路和寄存器第156章 你高興的太早了第415章 滿分入選國家隊第1章 一夜回到十年前第122章 騙過多少女孩子?第210章 爲了節目效果第226章 還能剩下幾個?第263章 一切都在算計中第361章 有點像“年輕”時的自己第129章 兩道試題第420章 強化學習的威力第258章 學霸的畫風,都是這麼清奇的嗎?第183章 成功的路上沒有僥倖第411章 不可不防,防不勝防第19章 一切爲了押韻第430章 超算落成,九段助陣第82章 渣男反編譯第153章 眼氣誰呢這是?第104章 鮮花與牛糞第415章 滿分入選國家隊第130章 大佬和小蘿莉第411章 不可不防,防不勝防第354章 迷你3D打印機第128章 被傳染了怎麼辦?第43章 寫字機器人第39章 這可能是個誤會第189章 查房第249章 胸有成竹,根本不慌第161章 論腦補,只服你第209章 校服就是最正式的裝扮第37章 烤肉第399章 此一時,彼一時第1章 一夜回到十年前第246章 Vigenère密碼和國王遊戲第247章 對拍、Day1第三題第307章 沒有證據可不行第293章 精誠所致,金石爲開?第318章 飛機點餐攻略第281章 當場搶人第272章 冤死駱駝的最後一根稻草第359章 大佬,怪蜀黍?第247章 對拍、Day1第三題第315章 故伎重施第63章 巧嗎?第89章 進入狀態這麼快?第94章 水論文的正確姿勢第266章 篩選模型,以及最後的優勝者第32章 借MacBook一用第87章 夜話第300章 沒有硝煙的戰鬥第409章 晨曦III巨型計算機第400章 不可逾越的高山第220章 英俊瀟灑,踏雪無痕第148章 到底什麼意思?第150章 全+1!第285章 “彈性碰撞”第286章 破解壞蘋果第194章 睡不着怎麼辦?第287章 夢裡不知身是客第310章 唯一的破綻第55章 委託第37章 烤肉第89章 進入狀態這麼快?第197章 除了不能說的第87章 夜話第335章 不走尋常路第389章 誠信友善,和諧友愛第140章 虛驚第373章 肉體永生,還是機械飛昇?第377章 打造自己的科技品牌第415章 滿分入選國家隊第57章 非常巨大第296章 攪動風雲