在挑戰寫語文作文之后,艾現在盯上了高考英語。
結果,好家伙,今年高考英語卷我考了134分。
這不是偶然的。
2018—2021年的10套真題測試中,AI的分數都在125以上,最高紀錄138.5,聽力和閱讀理解也是滿分。
這是由學者秦提出的,用于高考英語測試的人工智能系統。
它的參數只有GPT—3的十六分之一,但它的平均分比GPT—3高15分。
具體來說,就是對維基百科,YouTube等平臺的信息進行重新提取和重構,然后喂給AI進行訓練,從而使AI具有更強的泛化能力。
兩位學者用100多頁的論文深入解釋了這一新范式。
那么,這個范式到底在說什么呢。
來深挖一下吧~
什么是重構前培訓。
論文題目很簡單,叫《重構的預訓》。
核心觀點一言以蔽之,簡明扼要。注意數據!
筆者認為,世界上有價值的信息無處不在,目前的AI系統并沒有充分利用數據中的信息。
比如維基百科和Github就包含了模型學習的各種信號:實體,關系,文本摘要,文本主題等由于技術瓶頸,以前沒有考慮過這些信號
因此,本文提出了一種利用神經網絡來存儲和訪問各種數據的方法。
它們以結構化的方式用信號來表示數據,這和數據科學中非常相似,我們經常把數據構造成表格或者JSON格式,然后通過一種特殊的語言來檢索所需的信息。
具體來說,這里的信號其實是指數據中的有用信息。
比如莫扎特出生在薩爾茨堡這句話里,莫扎特和薩爾茨堡就是信號。
接下來利用提示法,可以把這些來自不同地方的信號統一成一種形式。
最后,這些重組的數據被集成并存儲在語言模型中。
這樣,研究可以統一來自10個數據源的26種不同類型的信號,使模型具有很強的泛化能力。
結果表明,在許多數據集上,RST—T和RST—A零樣本學習的性能優于GPT—3。
為了進一步檢驗新方法的性能,筆者還想到了讓AI做高考題的方法。
他們表示,現在很多工作方法都遵循中國GPT—3的思路,在評測應用場景上也遵循OpenAI和DeepMind。
比如膠水評測基準,蛋白質折疊評分等。
基于對目前AI模式發展的觀察,筆者認為可以開辟一條新的賽道來嘗試,于是想到了利用高考來培養AI手。
他們找來前幾年共10套試卷做標記,請高中老師打分。
最后,開發了英語的人工智能模型,也可以稱為秦。
從測試結果可以看出,秦絕對是一個學習高手,10套卷子的成績都高于T0pp和3。
他們覺得現在的很多評測基準的任務都很單一,大部分都沒有實用價值,很難和人的狀況相比。
高考題目不僅涵蓋了各種知識點,還直接有人類的分數進行對比,可謂一舉兩得。
NLP的第五范式。
P1。非神經網絡時代的完全監督學習
P2?;谏窠浘W絡的全監督學習
P3。預培訓,微調范例
P4。預訓練,提示和預測范例
但基于目前對NLP發展的觀察,他們認為也許未來可以用以數據為中心的方式來看待問題。
即預訓/微調,少射/零射等概念的分化。會比較模糊,核心只會集中在一點上——
有多少有價值的信息,有多少可以利用。
此外,他們還提出了NLP進化的假說。
核心思想是技術發展的方向永遠遵循這個——做得更少,實現更好更通用的系統。
復旦大學校友樓
本論文的第一部分是袁。
她畢業于武漢大學,獲學士學位,后赴卡內基梅隆大學學習數據科學。
研究方向側重于自然語言處理任務的文本生成和評測。
去年,她分別收到了AAAI 2022和NeurIPS 2021的論文,還獲得了ACL 2021最佳演示論文獎。
2019年獲復旦大學計算機系博士學位,師從邱希鵬教授和黃教授。
他的興趣包括NLP模型的可解釋性,遷移學習,基于任務的學習等。
博士期間拿了計算機領域的各種獎學金,包括IBM博士獎學金,微軟獎學金,騰訊人工智能獎學金,百度獎學金。
還有一點
值得一提的是,當劉鵬飛向我們介紹這部作品時,他直言不諱地說,起初,我們并不打算提交它。
這是因為他們不希望會議論文的格式限制了構思論文的想象力。
我們決定把這篇論文作為一個故事來講,給讀者一種觀影的體驗。
這就是為什么我們在第三頁設置了觀看模式的全景。
就是帶大家了解NLP發展的歷史,以及我們對未來的期待,讓每一個研究者都有一定的代入感,感受通過礦山尋寶引領前期訓練語言模型走向美好明天的過程。
文末藏了一些驚喜彩蛋。
比如PLMs主題表情:
最后的插圖是:
所以,一篇100多頁的論文你不會看膩~
論文地址:
聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22