2024年4月14日 星期日

2024-04-14 谷歌八位科學家聯合發表《Attention Is All You Need》

 Google一篇論文揭示LLM如何處理無限長文字輸入
Google設計出無限注意力機制,能大幅擴展LLM能處理的文長;讓LLM更懂螢幕內容!蘋果揭新模型Ferret-UI;Google生成式AI助理Gemini for Google Cloud正式亮相;聯發科推出生成式AI服務平臺、最新繁中LLM;Mistral AI開源1,760億參數模型Mixtral 8x22B

2017年6月12日 谷歌八位科學家聯合發表
《Attention Is All You Need》


文/王若樸|2024-04-14

Google最近揭露一種Transformer大型語言模型(LLM)的新擴展方法,可利用有限的記憶體和運算資源,來處理無限長的文字輸入。Google在《Leave No Context Behind》論文中說明這項新方法,他們設計一種無限注意力(Infini-attention)機制,將壓縮的記憶納入普通注意力機制中,並將遮罩局部注意力和長期線性注意力機制,結合在單一個Transformer區塊,能讓模型具備完整的上下文知識。

這個無限注意力機制,可重複使用標準注意力的鍵、值和查詢狀態,來進行長期記憶整合與檢索。有別於丟棄舊的鍵值(KV),無限注意力方法將舊鍵值儲存在壓縮的記憶體,並用注意力查詢狀態來檢索值,以便處理之後的序列。這個修改Transformer注意力層的作法,能支援模型的連續預訓練和微調,進而讓LLM可以處理無限長度的文字。

經測試,使用這個方法的模型,在長文語言模型測試基準中,表現都比基準模型要好,甚至可實現114倍的理解率。他們也發現,10億參數的LLM採用該方法,可將輸入值長度擴展至100萬個序列,還能實現密鑰檢索任務。最後,他們實驗顯示,採用無限注意力機制的80億參數模型,在文長50萬的書籍摘要任務中能達到SOTA表現。

沒有留言:

張貼留言