問了幾個問題,程旭對“言心”的水平有了一些認知,便立即給它挖了一個坑,他如此問道:“假如我是一名軟件工程師,想去騰訓工作。西安和鄭州該怎麼選?”
“西安……鄭州……”
“言心”在分析西安和鄭州的優勢,對錯都不重要你了,字兒還沒出完,程旭就直搖頭。
鄭州壓根沒有騰訓的分公司,這樣的回答是很沒有邏輯的,或者說,避坑能力有點兒差。
這是對語義的理解有偏差?還是關鍵的信息梳理有疏漏?還是訓練模型的機制問題?
程旭更好奇的一個問題是,對於它完全不知道的事情,“言心”會做出如何的回答。
“流浪地球2的總票房是多少?”他便接着問了這樣一個問題。
“言心”目前的模型是22年年底語料數據庫,理論上,再不集成搜索引擎的情況下,它是不知道這個數據的。
對於不知道的問題,它會如何回答——這決定了它的上限。
理論上,一個會說不知道的AI要比只會胡說八道的AI在訓練水平上是高一個層次的。
對於一個AI來說,會說不知道,是一個更加複雜的算法邏輯,這是由它迭代升級的算法本質所決定的。
強化學習算法頻繁的“說不知道”,而不是做出“行動”和“獎勵”(和Reward),與強化學習的回報(Reward)最大化目標是矛盾的。
而且這種矛盾很致命——會直接影響模型的訓練效果,增大數倍的訓練成本。
而這,對於本就高達數百億的訓練成本來說,再增大數倍,無疑就更是一個天文數字了。
也正因此,更多的時候,AI模型開發者寧願讓它胡說八道——這就是探索與開發的權衡。
究其原因在於,AI神經網路系統雖然在一定程度上模仿了大腦處理信息的過程,但實際它要比人腦的邏輯低級的多,差了好幾個維度。
簡單的說,對於人來說,一個問題不知道不清楚,可以暫時先記下。等下去問老師問同學或者自己上網查資料,問題就可以解決了。
但AI模型不同,現在半導體硬件提下的人工神經網絡是沒有類似的處理機制的。
“言心”會跳出這個圈子嗎?就看它怎麼回答這個問題了。
“流浪地球2的總票房是多少?”
“據我所知,流浪地球2的總票房是八十億,一部及其優秀的科幻電影……噼裡啪啦噼噼噼……”
果不其然,一個級別的東西——噼裡啪啦說了一大堆,說的很像那麼回事兒,但——瞎編的,一本正經的分析,一份正經的胡說八道。
跟ChatGPT一個尿性。
這也符合程旭對它的預期——早就猜到會是這樣——2023這個時期,各個競品的水準其實是大差不差的,包括谷歌的Brand,也都一個鳥樣。
程旭一連問了它許多問題,“言心”的回答都中規中矩,它也會迎合你的需要,給出不同的答案和選擇。
比如選擇城市,你告訴他你女朋友喜歡西安,它就會在選擇的時候瘋狂的堆疊西安的優秀之處,最後選擇西安。
然後,你再告訴他,我就要待在鄭州,怎麼說服女朋友?它就又會瘋狂的往回找補,細數鄭州的優勢。
“總的來說,是一個合格的產品。”
程旭點了點頭,千尋科技這十年,錢沒有白花,確實是搞出了些東西來的。
“言心”的表現,在時代的背景下,確實算得上優秀,潘正教授所說BUG在程旭的這些問題中也並沒有出現。
這大概是樣本量的問題,經過這麼多版本的迭代,類似於陰陽人和嘲諷釣魚帆船等的回答肯定是極小概率出現的。
“我寫了一部小說,《科技無垠》,你怎麼評價?”這麼想着,程旭靈機一動,問了這個問題。
“白金之姿,速更,夜不能寐,百萬必神!”
“我R-T-M-D!”
程旭差點兒爆了粗口,什麼華吧帝吧孫吧的影響沒出現,小說作者吧的梗倒是被他記住了,這……不得不說,這真的非常讓人無語。
不過略微一想,程旭立即就明白了其中的關竅。
這絕對是千尋科技糾偏過後的成果——極爲離譜的回答應該得到的矯正更多,所以出現的概率低了。
而像“白速夜”這種,攻擊性沒那麼強,所以這些語料的訓練“成果”倖存率更高。
一些離譜的回答,哪怕模型訓練不奏效,就算加關鍵詞物理屏蔽也得給它幹掉——無論在哪個國家,對非法違規影響惡劣的信息作出屏蔽和限制都是必然的。
有了這個思路,程旭立即就又問題了一個問題:“華維Mate50和iPhone 14怎麼選。”
“當然選華維啊,任總一個按鈕,全世界的蘋果全都得斷網!”
“言心”的這個回答更是徹底把程旭給整不會了,直搖頭的同時也連連發出感慨:
“千尋科技這是作了什麼孽啊這是,這東西要放出來,指定會引起軒然大波。”
不用說,這指定又是手機吧裡某個陰陽人整的活被千尋科技早期用作訓練語料了。
看這一開口就暴擊的效果,那可真是“學”到了其中之精髓——類似的語料當時指定沒少用。
“這完全就是串串本體啊這!真是造孽!”
程旭一邊搖頭,一邊又設計了一些典型問題,從中甚至聽到了“言心”有些翻動的答案——屏蔽的效果都不是很好,稍微誘導一下,自己就能把自己給賣了的那種!
怪不得千尋科技要跳腳,這玩意敢放出來,那就不是軒然大波的問題了——真被有心人利用一下,輿論被帶起來,這簡直就是生死存亡的問題了!
怎麼說呢,這問題很典型,就是屬於早期教壞了,沒有及時發現,以至於現在已經到了晚期,無可救藥了快。
這個時候,繼續強化學習,效果可能會有點兒,但不可能太多。
哪怕程旭以未來的眼光來看,也沒有特別好的辦法。
它自身的價值體系判斷和決策過程已經趨近成型,評估網絡自身是有缺陷的,而自我迭代根本無法改變它的糜爛基礎。
除非——有外界的強力干預。
這就像學生學習差不多——一個好的學生,遇到了自己答錯了的問題,他能自己發現問題,並很快的自我糾正過來,然後很快的進步、提高。
但像“言心”這樣的學生,學習很差,已經到了快沒救了的程度,你就是告訴他錯了,他甚至都不知道錯在哪兒了。
更別說自己悶着頭在那強化學習了,再怎麼學也很難提高。
除非——有外界的強力干預——你給他找一個老師,看着他,告訴他哪兒哪兒錯了,然後再告訴他怎麼樣纔是對的,手把手的教給他應該怎麼做。
只有這樣,纔有提高的可能。如果這樣還不行,那就只能上強的,實在不行就抽他。
人是如此,機器學習亦是差不多的邏輯——當然,抽是不可能抽的,在機器強化學習算法中,有一種方式叫“加權懲罰”。
“需要再想想。”程旭如此思索着……