Datawhale干貨
作者:平凡@知乎,諾桑比亞大學,在讀博士
今天晚上,花了一點兒時間看了兩篇文章:
(資料圖片)
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
這兩篇講的都是emergent behavior,即涌現(xiàn)現(xiàn)象。
大規(guī)模神經(jīng)網(wǎng)絡下的涌現(xiàn)現(xiàn)象在機器學習中使用大規(guī)模神經(jīng)網(wǎng)絡時,由于增加了參數(shù)數(shù)量、訓練數(shù)據(jù)或訓練步驟等因素,出現(xiàn)了定性上的新能力和性質,這些能力和性質在小規(guī)模神經(jīng)網(wǎng)絡中往往是不存在的。
第一篇文章舉了這個例子,每個圖都可以理解為一個任務,橫軸是神經(jīng)網(wǎng)絡的規(guī)模,而縱軸是準確率,可以理解為模型的性能。
我們拿圖一來看,在10的22次方前,這些模型基本上的性能基本上都很穩(wěn)定在0附近,而在10的22以后,突然在10的24次方上獲得了很大的性能提升,在其他的幾個任務上都表現(xiàn)出類似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的評論引用在這里:
作者發(fā)現(xiàn),當我們訓練用網(wǎng)絡計算同余加法 a+b = ? (mod c) 時,網(wǎng)絡在某個時間突然獲得了 100% 準確率。分析發(fā)現(xiàn),神經(jīng)網(wǎng)絡實際上“頓悟”了使用傅立葉變換來計算同余加法!這個算法可以證明是正確的, 反人類直覺的。
從這倆例子里面我的感受是,只要數(shù)據(jù)量足夠且真實,且模型沒有硬錯誤的前提下,不斷的訓練說不定真的能夠產(chǎn)生一些意想不到的效果。
還有就是我覺得人類現(xiàn)在積累的知識并不少,但是系統(tǒng)的少,零星的多,如果類似ChatGPT這樣的大模型可以拿所有的人類已有知識進行不斷學習的話,我覺得有很大概率會讓它涌現(xiàn)出意想不到的能力。
甚至可能把人類的生產(chǎn)力解放提前很多。
參考
1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdf為您推薦
- (2023-06-09)非銀金融行業(yè):“中特估”風口下的非銀金融
- (2023-06-09)魯泰A(000726):23Q1接單承壓 新面料有序投產(chǎn)期待23H2業(yè)績改善
- (2023-06-09)山鷹國際(600567):主營業(yè)務穩(wěn)定增長 23年有望迎來盈利拐點 環(huán)球熱訊
- (2023-06-09)全球快看點丨恒生電子(600570):淡季收入穩(wěn)健增長 利潤開始逐季兌現(xiàn)
- (2023-06-09)環(huán)球熱議:星帥爾(002860):光伏組件業(yè)務快速放量 Q1收入端接近翻倍增長
- (2023-06-09)新能源、環(huán)保領域碳中和動態(tài)追蹤(七十五):江蘇海風項目招標迎來加速 關注海風量增邏輯下的投資機會
- (2023-06-09)海亮股份(002203):海外布局加速提升競爭力 銅箔打造新的業(yè)績增長點 最資訊
最近更新
- (2023-06-11)大語言模型中的涌現(xiàn)現(xiàn)象是不是偽科學?
- (2023-06-11)事關猴痘!廣東疾控最新提醒
- (2023-06-11)全球短訊!蒼穹巨靈·內蒙古篇
- (2023-06-11)全城尋找“廣州十大科學傳播達人”,是你嗎? 每日熱訊
- (2023-06-11)專業(yè)攝像機排行_最好專業(yè)攝像機
- (2023-06-11)馬斯克:推特將向認證創(chuàng)作者支付在評論中投放廣告的收益
- (2023-06-11)噴淋泵型號及參數(shù) 噴淋泵-環(huán)球熱門
- (2023-06-11)原創(chuàng)組圖 | “共建自貿港——遇見·相約夏日”鋼琴音樂會亮相三亞_世界要聞
- (2023-06-11)天天熱訊:教育部:加強中小學地方課程和校本課程建設與管理
- (2023-06-11)三星即將發(fā)布全新折疊手機和Galaxy Tab S9系列平板電腦,Galaxy Tab S9 Ultra通過FCC認證
- (2023-06-11)0xc150002錯誤代碼 0xc150002
- (2023-06-11)excel套用表格格式 excel表格復制到另一個表格格式不變 全球焦點
- (2023-06-11)2023世界動力電池大會儲能發(fā)展高峰論壇舉行 宜賓被授予“中國儲能產(chǎn)業(yè)新高地”
- (2023-06-11)t23547-2009_t235-熱門
- (2023-06-11)windows11隱藏快捷鍵有哪些 windows11快捷鍵大全功能鍵-環(huán)球快看點
- (2023-06-11)衣阿華級預熱 衣阿華級
- (2023-06-11)什么是方波、矩形波、修正正弦波、純正弦波? 熱頭條
- (2023-06-11)華強北的手表,湯主的測評來了! 當前速看
- (2023-06-11)5月國內挖掘機銷量降46%,出口增速重回兩位數(shù)|基建晴雨表_全球播資訊
- (2023-06-11)全球熱點評!在監(jiān)管審查日益嚴格之際 Robinhood(HOOD.US)終止了對Cardano、Polygon 和 Solana的支持
- (2023-06-11)明明很漂亮,卻讓人不想追劇,從李沁到鞠婧祎,問題出在哪?
- (2023-06-11)在監(jiān)管審查日益嚴格之際 Robinhood(HOOD.US)終止了對Cardano、Polygon 和 Solana的支持|天天微速訊
- (2023-06-11)2023年全國射擊錦標賽(步手槍項目)落幕 天天時快訊
- (2023-06-11)世界熱訊:洛丹倫皇家徽記之盾搭配(洛丹倫皇家徽記之盾)
- (2023-06-11)博納董事長于冬:劇集的崛起是對電影真正的沖擊,不是拼特效的時代了
- (2023-06-11)巴薩戲耍梅西遭曝光!加泰媒體倒戈,談2大操作,耽誤球王去國米
- (2023-06-11)當前觀察:壓力給到X86處理器!蘋果M2 Ultra芯片跑分曝光,多核成績比M1 Ultra高18%
- (2023-06-11)鈾238裂變方程式(鈾238) 全球報道
- (2023-06-11)環(huán)球微資訊!發(fā)繁體 滿江紅(發(fā)繁體)
- (2023-06-11)環(huán)球快資訊:相術小說神作(相術小說)