通過半監督學習和自我監督學習的某些特征,表征學習大大減少了訓練模型所需的數據量,更重要的是,它更加重視阻礙傳統監督學習中帶注釋的訓練數據。
它也促進了多任務學習,零次學習,流形布局技術和數據倍數概念等技術的發展,成為連接這些技術的基石上面提到的這些技術對深度學習在自然語言技術中的應用產生了巨大價值和重大影響
由于表征學習,不僅使自然語言處理更快,更易于組織使用,而且更適用于廣泛的用例,而這些用例在表征學習出現之前是無法實現的。
這些是我們在 Indico 使用的技術,谷歌,Facebook 等其他組織顯然也在使用這些技術, Indico Data首席技術官 Slater Victoroff 如是說但是,表征學習在這些組織中只是小范圍使用,同時使用效果和理想也相差甚遠,在具體應用方面也是困難重重,并不能代表機器學習的主流
但是,如果用發展的眼光看問題,為了獲取長遠受益,他們必須現在就行動起來。
字節對編碼
從廣義上講,表征學習的工作方式與鍵值對的概念沒有什么不同它使用類似于密鑰的字節對編碼,Victoroff 觀察到,每個鍵都有一個表示它的數值,就像字典或查找表一樣字節對編碼是表征學習的核心內容,字節對編碼是為語言中有意義的塊而生成的例如:'ing space' 可能是一個塊,或者'space um ' 可能是一個塊,同時,Victoroff 提到字節對編碼時如是說:每個塊大約是 1 到 10 個字母長度hellip,hellip,大多數情況下是 1 到 3 個字母長
這種學習模式有兩個值得注意的地方首先是它的語言價值,對于單詞來說,表征可以識別:這些事物是否是同義詞這些東西在語義上是否相關這些東西在句法上是否有聯系其次,這種表征可以針對單個單詞,句子甚至段落,以及用戶需求提供更多的應用場景
零次學習
表征學習以多種方式對深度學習產生深遠影響,其中最值得注意的是減少了訓練數據的數量,這恰恰是高級機器學習模型提升準確率的必備條件如果你的表示足夠好,你可以用來制作模型,他們稱之為零次學習,Victoroff 指出使用這種技術,數據科學家可以利用標簽作為訓練模型的唯一示例
例如,在構建預測飛機模型時,統計 AI 的方法會使用airplane as your one example這個標簽,然后得出推論:a few shots, single shot其結果存在各種各樣的變化 這一原則會提升企業在自然語言應用領域的適用性,因為大多數高級機器學習用例都需要高標準的訓練數據,而這一點往往令人望而卻步
多任務學習
如果說減少訓練數據是表征學習相對于深度學習應用模式的突破,那么另一個突破就是多個任務訓練模型借助更廣泛使用的監督和非監督學習方法,即使針對特定模型的機器學習任務,建模者再一次使用相關任務時也必須從頭開始創建新模型以表征學習,多任務學習為基礎可能會使這種方式成為過去
假設你對創建一個模型任務,同時為創建第二個模型任務,如果想要知道這兩個模型之間的關聯,就可以針對一個模型創建兩個任務進行訓練,兩個任務共享一個模型,關聯任務通過共享信息,相互補充,提升彼此的表現Victoroff 指出
這種做法對模型使用效率的提高以及對自然語言分析的價值是顯而易見的建模的執行多任務處理能力在基于向量的 NLP領域中得到了充分的認可在一些競賽中就要求模型必須解決 10 種不同類型的 NLP 問題,并且有證據表明模型實際上可以將從一項 NLP 任務中學到的知識應用到另一項 NLP 任務中,以理解英語為例我們可以證明這種方式創建的 正在跨語言交叉學習中利用了更多的信息,Victoroff 評論道這種現象被稱為伸縮效應例如在訓練機器學習英文之后,再訓練其學習中文,會比一開始就直接訓練機器學習中文要容易得多
數據倍數
better這個詞表達的含義具有相對性,因此針對不同的人具有不同的含義,而含義取決于通過 NLP 實現的目標現實情況是,從深度學習的計算能力以及可擴展性方面來看,只要數據量足夠大,即使是糟糕的深度神經網絡也可以達到較好的效果可是,數據倍數原則是在數據量不大的情況下集中于精確定位,提升評估模型性能從而讓深度神經網絡達到好的效果正如Victoroff提到的,對于特定模型而言可以明顯看到,在 100 個數據點上的工作情況如何,在 1,000 個數據點上的工作情況如何,在 10,000 個數據點上的效果如何
Victoroff 指出,高級機器學習模型的性能取決于數據倍數,對于上述表征學習技術,通??梢赃_到至少 2 到 4 倍的數據倍數Victoroff 指出,模型的4倍數據倍數就意味著該模型的形成減少了 4 倍的訓練數據量使用數據倍數方式建模,可以在數據量不夠的情況下達到相對滿意的效果用Victoroff的話就是利用你手上現有的數據就可以達到幾乎翻倍的準確性
流形布局技術
對于自然語言技術而言,其表征就是一個數字列表,數據科學家可以應用不同的數學概念來讓機器理解單詞的含義在自然語言處理中可以通過One—hot方式將詞用數字列表的方式表示,這個數字列表可以想象成一個詞典,需要處理的自然語言內容越多,這個列表就越大每個詞的表示都需要通過一個很大的數字列表來完成,這樣生成的向量維度高也稀疏,使計算效率大打折扣因此,可以通過流形布局技術將數字列表中創造意義的部分,轉移到嵌入中,也就是將高維空間的數據轉換到低維空間
嵌入是一個將離散變量轉化為連續向量的方式,它不光可以減少離散變量的空間維數,也可以有意義的表示該變量Victoroff 透露,嵌入是一種將表征置于明確結構中的方法,在這個過程中為這些表征賦予意義流形是自然語言技術中最受歡迎的嵌入類型之一,因為它們具有其他結構可能沒有的東西,就是距離的概念Victoroff 透露
距離,對于高級機器學習模型在語言精細理解領域至關重要根據 Victoroff 的說法,當你閱讀一個句子時,存在同義詞和反義詞以及解析樹的概念可以把詞與詞之間的關系看成是距離,所以我們有了這個距離的概念:兩個物體 流形就是在做降維的事情,允許表征從高維空間更容易地轉換到低維空間
編者:這里需要解釋一下流形做的事情加入一個二維空間,兩個點之間的距離通過兩個點的x,y的坐標就可以算出來如果一個多維空間例如一個地球儀上面有兩個點,需要知道這兩個點的距離,就必須用一個軟尺連接兩個點,獲取距離而錯誤的計算方式,就是用一根線切過地球表面連接兩個點
流形布局測量的距離,就好像這一把軟尺,順著地球的表面量兩點的距離在神經網絡的多維空間中測量兩個點的距離的時候就需要用到這個技術,我們可以把這兩個點想象成兩個詞,距離就是兩個詞的關系離得近說明詞的含義相近,如下圖所示同時Embedding 還做了一個事情就是降維,將高維的向量變成低維的,容易分析和展示
成長與發展
深度學習空間正在繼續快速增長表征學習可以減少自然語言技術應用中訓練數據數量,并提升訓練效率同時使多任務學習的底層模型效用多樣化其結果是組織可以通過這些模型實現更多目標,減少構建它們所需的時間和精力,并且提高它們在 NLP 或其他應用場景中的準確性
參考
。聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22