第52章 “感知機”的初次實戰

業餘黑客有個潛規則。

政府機關、金融系統、電子商務……這類網站的後臺,是機密重地,通常有高手坐鎮,沒事最好別去溜達。

被網監或者安全專家盯上,十有八九落不了好。

而個人網站、小型辦公網絡、學校網站……

這種信息安全不太敏感的,僅僅是瀏覽或下載一些數據,一般不會有什麼大問題。

比如從鐵道部官網12306爬點數據,做個輔助訂票系統什麼的……

但無論任何地方,肆意破壞總是不被允許的,這是底線。

《原始數據表》的奇怪情況,身份證位數不對,側面支持了這種可能性。

通過黑客手段獲取數據,有時候會遇到一些匪夷所思的問題,比如數據格式特殊,下載的數據寬度受限……

有時候,甚至在後臺數據庫裡,只能找到數據的一部分,而其餘部分被保存在無法訪問的文件裡。

寫後臺程序的人,會基於各種各樣的理由,寫出可讀性極差的代碼。

比如:讀寫效率、數據安全、修補bug、系統健壯……

又或者不想被人繼承代碼,取代自己的位置,甚至單純爲了個人興趣、編程風格……

都可能導致這些人,搞出種種令人費解的騷操作。

當然,也可能老高的技術還有缺陷,或者他是從虛擬內存、交換文件裡挖掘出來的數據。

也有可能在“作案”過程中被人盯上,不得不提前斷開連接……

總之,擺在江寒面前的,就是這麼兩張各有缺陷的表格,外加一個圖片壓縮包。

接下來,江寒首先要做的,是從《原始數據表》裡,篩選出需要的記錄,複製到《報名信息表》裡。

這一步非常簡單,只要用excel自帶的VBScript編寫一個小腳本,將兩個表格按照姓名匹配,就可以得到每個考生在原始表裡的行號。

當然,同名同姓是避免不了的,可能報名信息裡一個“張三”,在原始數據裡會找到一堆“張三”……這個一會兒再說。

腳本編程非常簡單,江寒只用了二十分鐘,就寫完程序並調試無誤。

按了一下預設的快捷鍵,腳本開始執行。

一邊是3萬多行的考生姓名,一邊是10萬多行的原始數據,腳本足足跑了八分鐘,纔得到了一個映射關係表。

接下來,是第二個腳本,參照映射關係表,將原始數據文件篩選出需要保留的行,其他行全都刪除,然後按照《報名信息表》的序號,重新進行排序,得到臨時文件1。

這個臨時文件的行數,要比報名表多出幾千行,這是因爲江寒對重名進行了處理,將重名的人都編上了相同的二級序號。

接下來處理重名。

經過一番分析,江寒發現,原始數據表和報名信息表裡的數據,排列順序是有規律的。

其以地區爲主關鍵字,所在學校爲次要關鍵字,而所在班級則是第三關鍵字排序。

也就是說,一個學校裡,一個班級的人,都挨在一起,學校、地區之間也沒有混亂。

這樣就好辦了。

由於臨時文件已經按序號排列,重名的人擁有同樣的二級序號,自然就聚攏在了一起。

這時,只要看一下這些人的所在地區和學校,就能輕鬆分辨出哪些是多餘的,那個纔是真正對應於《報名信息表》的。

如果一個班級也有同名,就只能具體情況具體分析了,實在確定不了的,就先記下來,放在一邊,以後再說。

一番整理後,臨時文件1已經十分接近高老師希望得到的《報名信息表》。

聯繫電話、家庭住址,畢業學校、班級、民族、年齡、出生年月日都有了。

接下來是重頭戲,通過照片判斷每個學生的性別。

幸運的是,雖然《原始數據表》裡的身份證號,殘缺不全,導致性別信息不可用,可是《報名信息表》裡還有部分殘餘的性別數據。

這就給江寒減少了許多負擔。

接下來,先將照片.rar解壓,然後觀察了一下。

三萬多張照片,按學校、班級分類,放入幾千個文件夾中。

每個文件的大小,都在10KB至30KB之間。

像素只有210*120,不算特別清晰,但看清面部特徵,還是沒什麼問題的。

其中,同班級裡重名的情況,都在姓名後標記着數字1、2……

江寒猜想,這可能是輸入報名表的順序。

接下來要做的,就是在臨時文件1裡,找到每張照片對應的人。

這很簡單,照片的文件名就是姓名,輕鬆就能和表格裡的名字對上。

在解決了數量不算很多的同班重名問題後,就生成了一個照片索引,將每一張照片和報名序號一一對應上了。

然後,是判斷性別,填入新《報名信息表》對應的單元格里。

這一步,按照高老師的想法,就是一個笨功夫,用眼睛去看,然後一個一個敲進去。

這十分麻煩,而且太沒效率。

江寒希望能找個輕巧的辦法,能更快、更好的完成這一步。

那麼,這樣的辦法真的有嗎?

是的。

江寒畢竟搞過機器學習,編程思維有點不一樣。

高老師那樣的普通程序員,也能做到剛纔那些步驟。

但江寒接下來的操作,就是他的思維盲區了。

機器學習裡,有多種算法,都可以輔助完成這樣的任務。

其中江寒最擅長的,自然是人工神經網絡。

人工神經網絡也分爲好多種類。

比如CNN,也就是卷積神經網絡,是最擅長圖形識別的;

而RNN,也就是循環神經網絡,比較適合語音識別、自然語言理解……

如果採用人工神經網絡,哪怕不出動CNN,只用多層神經網絡,也就是所謂的“深度學習”,也可以非常完美地解決這個問題。

但江寒琢磨了一下,還是放棄了這個想法。

一旦泄露出去,他很可能會有麻煩。

因爲這些技術的來源,他根本沒法解釋。

技術跨度太大了。

好吧,安全第一,先用“感知機”湊合一下。

哪怕準確率低點,也無所謂了。

江寒現在唯一可以拿出來的,就是“單層感知機”。

這種技術只能解決二分類問題,並且還要求線性可分。

好在當前所面臨的問題,這兩個要求正好都符合。

江寒重生前,做過一個實驗,用“單層感知機”識別手寫數字,應用場景與現在差不多。

效果也還過得去。

所以,看照片識別男女的任務,完全可以使用“單層感知機”解決。

說起來,這可能是神經網絡技術,在這個世界的第一次實戰?

江寒前幾天寫的論文裡,就有“單層感知機”的代碼,稍微改動了一下,就能用上了。

研究機器學習,首選語言是Python,語法簡單,開發效率高,不容易出錯,也不用關心底層如何實現。

不過,這篇論文的代碼,實在太簡單,用什麼都一樣。

所以,江寒使用了最熟悉的C++。

代碼略……

(PS:絕對不是空白太小寫不下。)

第196章 背黑鍋我來第370章 四軸飛行器第333章 不怕教壞了乖女兒?第401章 有種奇遇叫頓悟第303章 你以爲就這樣而已?第232章 江寒的野望第228章 恐怖如斯第71章 憑什麼是江寒?第399章 此一時,彼一時第322章 愚者注視着你第290章 其實已經有點過時了第123章 BT小鳥第119章 高中課程裡有這些?第345章 意外連連第375章 沒有操作系統怎麼辦?第37章 烤肉第140章 虛驚第71章 憑什麼是江寒?第401章 有種奇遇叫頓悟第271章 破壞永遠比建設更容易第32章 借MacBook一用第235章 有所不爲、有所必爲第19章 一切爲了押韻第58章 作報告?第217章 超級粉絲第381章 以理服人,大江科技第424章 又一個冠軍到手第329章 拋棄框架,從零開始造輪子第426章 坦白從寬,回家過節。第177章 口是心非的非第74章 88年的草莓第350章 男生不準進去的地方第283章 給靈感充點值第413章 得講究點格調第10章 給老江打個電話第70章 水上公園第350章 男生不準進去的地方第81章 不是好人第404章 神經系統疾病的終極治療手段第131章 夏雨菲的小秘密第30章 立人設第187章 牀下的小畫冊第13章 “感知機”和“M-P模型”第261章 曉之以理,動之以錢第43章 寫字機器人第70章 水上公園第113章 刷分的可能性第422章 更有效率的刷分第399章 此一時,彼一時第86章 蘇婉瑩的預測第389章 誠信友善,和諧友愛第390章 兩份DNA檢測報告單第348章 只會下蛋,不會生寶寶第371章 莫非換了個女朋友?第168章 本能反應第368章 能幹的小秘書?第260章 這可是B5啊!第421章 身世大白第342章 蛇皮走位,初現鋒芒第59章 上乾貨第384章 把知識“安裝”到大腦裡第126章 八樓的直升飛機請假,存稿丟失一章,正在想辦法重寫第110章 敲竹槓第149章 夢後樓臺深鎖第348章 只會下蛋,不會生寶寶第425章 街頭象棋第145章 陳萱的邀請第296章 攪動風雲第396章 線性CCD掃描相機第304章 不忘舊情,有恩必償第152章 你的承諾呢?第170章 只是一場遊戲嗎?第38章 賣歌第408章 初入燕園第359章 大佬,怪蜀黍?第3章 一個大膽的想法第344章 好險間接那個啥第268章 最終版本第274章 申請PCT國際專利第206章 整理論文第15章 夏雨菲的羨慕第10章 給老江打個電話第92章 《激光雕刻機》第381章 以理服人,大江科技第293章 精誠所致,金石爲開?第14章 別帶壞了江寒第342章 蛇皮走位,初現鋒芒第189章 查房第202章 輸得明明白白第261章 曉之以理,動之以錢第416章 有困難找組織第220章 英俊瀟灑,踏雪無痕第381章 以理服人,大江科技第416章 有困難找組織第373章 肉體永生,還是機械飛昇?第401章 有種奇遇叫頓悟第300章 沒有硝煙的戰鬥第140章 虛驚第149章 夢後樓臺深鎖
第196章 背黑鍋我來第370章 四軸飛行器第333章 不怕教壞了乖女兒?第401章 有種奇遇叫頓悟第303章 你以爲就這樣而已?第232章 江寒的野望第228章 恐怖如斯第71章 憑什麼是江寒?第399章 此一時,彼一時第322章 愚者注視着你第290章 其實已經有點過時了第123章 BT小鳥第119章 高中課程裡有這些?第345章 意外連連第375章 沒有操作系統怎麼辦?第37章 烤肉第140章 虛驚第71章 憑什麼是江寒?第401章 有種奇遇叫頓悟第271章 破壞永遠比建設更容易第32章 借MacBook一用第235章 有所不爲、有所必爲第19章 一切爲了押韻第58章 作報告?第217章 超級粉絲第381章 以理服人,大江科技第424章 又一個冠軍到手第329章 拋棄框架,從零開始造輪子第426章 坦白從寬,回家過節。第177章 口是心非的非第74章 88年的草莓第350章 男生不準進去的地方第283章 給靈感充點值第413章 得講究點格調第10章 給老江打個電話第70章 水上公園第350章 男生不準進去的地方第81章 不是好人第404章 神經系統疾病的終極治療手段第131章 夏雨菲的小秘密第30章 立人設第187章 牀下的小畫冊第13章 “感知機”和“M-P模型”第261章 曉之以理,動之以錢第43章 寫字機器人第70章 水上公園第113章 刷分的可能性第422章 更有效率的刷分第399章 此一時,彼一時第86章 蘇婉瑩的預測第389章 誠信友善,和諧友愛第390章 兩份DNA檢測報告單第348章 只會下蛋,不會生寶寶第371章 莫非換了個女朋友?第168章 本能反應第368章 能幹的小秘書?第260章 這可是B5啊!第421章 身世大白第342章 蛇皮走位,初現鋒芒第59章 上乾貨第384章 把知識“安裝”到大腦裡第126章 八樓的直升飛機請假,存稿丟失一章,正在想辦法重寫第110章 敲竹槓第149章 夢後樓臺深鎖第348章 只會下蛋,不會生寶寶第425章 街頭象棋第145章 陳萱的邀請第296章 攪動風雲第396章 線性CCD掃描相機第304章 不忘舊情,有恩必償第152章 你的承諾呢?第170章 只是一場遊戲嗎?第38章 賣歌第408章 初入燕園第359章 大佬,怪蜀黍?第3章 一個大膽的想法第344章 好險間接那個啥第268章 最終版本第274章 申請PCT國際專利第206章 整理論文第15章 夏雨菲的羨慕第10章 給老江打個電話第92章 《激光雕刻機》第381章 以理服人,大江科技第293章 精誠所致,金石爲開?第14章 別帶壞了江寒第342章 蛇皮走位,初現鋒芒第189章 查房第202章 輸得明明白白第261章 曉之以理,動之以錢第416章 有困難找組織第220章 英俊瀟灑,踏雪無痕第381章 以理服人,大江科技第416章 有困難找組織第373章 肉體永生,還是機械飛昇?第401章 有種奇遇叫頓悟第300章 沒有硝煙的戰鬥第140章 虛驚第149章 夢後樓臺深鎖