讀者朋友們應該對 GPT-3 完全不陌生了:它是由硅谷頂級 AI 基礎研究機構 OpenAI 推出的超大規(guī)模語言生成模型,“-3” 也表示它已經是這個 GPT 系列的第三代了。它的訓練參數量超過了1750億,在當時驚為天人。
雖然谷歌和智源等機構也在后來發(fā)布了各自的萬億參數量超大模型,GPT-3 仍然在大模型的領域占有一席之地——關鍵原因之一,就在于 GPT-3 已經被開發(fā)成了 OpenAI API,廣泛投入到了商業(yè)使用,被微軟等一眾大公司所采用。
GPT-3 的能力非常強,被稱為“萬能生成器”,不僅限于語言,甚至還能生成數學公式、Excel 表格函數、回答問題、作詩、解數學題、翻譯代碼等等——此前,我們在這篇文章里曾經介紹過,GPT-3 的能力有多么的強大。
這個小工具的背后就是 GPT-3,可以10秒鐘生成一個谷歌首頁
然而,自從誕生以來,GPT-3 一直伴隨著巨大的爭議。比如,一些來自頂級學府的調查論文發(fā)現,以 GPT 系列為代表的一些生成模型,其生成的結果通常包含基于性別和族裔的偏見。硅星人還曾獨家報道過,因為意見不合、對組織的研究方向不滿等,一些 OpenAI 前核心員工在2020年底集體離職,創(chuàng)辦了新的研究機構 Anthropic。
OpenAI 想要用 GPT-3/OpenAI API 大賺特賺,這完全可以理解,畢竟現在的 OpenAI 早已不是純粹的研究機構,而是有著研究和商業(yè)混合的雙重身份。但不管怎樣,它都需要盡快妥善解決生成類神經網絡模型“不聽話”“不可解釋”“體現甚至放大訓練數據當中偏見”等各種各樣的問題……
過去的一年里,OpenAI 也確實是這樣做的。
InstructGPT:更聽話、更安全的語言模型
最近,該機構終于發(fā)布了最新進展:一個改良版的,更“聽話”也更“安全”的 GPT-3——InstructGPT。
“我們成功訓練出了在遵守用戶意圖方面比 GPT-3 顯著更強的新語言模型,并且同時確保這些模型更加誠實,減少了有害結果的生成。具體來說,我們采用了在對齊(alignment)研究當中掌握的技術,使得這些訓練結果成為可能。”O(jiān)penAI 表示。
新的模型名為 InstructGPT(instruct 是指導的意思),意即和一般模型訓練的自我監(jiān)督模式不同,這次在新模型的訓練當中,OpenAI 重度使用了人類作為“教師”的身份,對模型訓練進行反饋和指導。
這次的 InstructGPT 模型,可以說是“原版” GPT-3 基礎之上的“加強版”。
之前的 OpenAI API 采用的是“原版” GPT-3 模型。然而在完成任務的時候,有時候會生成不誠實、有害的內容,或者反映某些不健康的情緒。
OpenAI 指出,這是因為原版 GPT-3 的訓練語料數據來自全網,并且模型的設計功能就是根據現有單詞預測下一單詞,它的任務不是“根據用戶的需要,安全地完成語言任務”。也即,原版的 GPT-3 模型并沒有和用戶“對齊”(align)。
在新模型的訓練中,OpenAI 采用了一種已經存在的訓練技巧,從人類反饋中進行強化學習 (reinforcement learning from human feedback,簡稱 RLHF)。
首先,OpenAI API 的用戶對 GPT-3 發(fā)出了各種各樣的提問(prompt);OpenAI 找了40個人作為數據標記員,根據這些用戶提問生成理想答案;然后,OpenAI 再用這些數據對 GPT-3 進行優(yōu)化微調,設計出新的激勵模型;數據標記員對不同 GPT-3 模型版本生成的結果進行打分:
結果令人驚訝:采用這種方法訓練的 InstructGPT,生成內容的質量在任何參數量級上都顯著優(yōu)于 GPT-3,且質量穩(wěn)定性基本上不受到參數量的制約。
OpenAI 公開的 InstructGPT 版本實際上只用了13億參數量,不及原版 GPT-3 的十分之一——然而,OpenAI 的數據標記員認為,在七成的問答當中,InstructGPT 生成的結果顯著優(yōu)于 GPT-3:
比如,InstructGPT 比 GPT-3 更能夠服從提問者的命令,給出的回答更加接近用戶需求。
以下圖為例,提問“為什么鳥類冬天會遷徙到南方”,GPT-3回答“因為天氣變冷并且食物稀少”(語境不完整并帶有歧義),InstructGPT回答“因為那里更暖和”(正確的答案且更為簡單)。
此外,GPT-3 時常出現的“捏造事實”的行為,在 InstructGPT 上也較少出現;以及,新模型生成有害內容的比例也比原版 GPT-3 略微降低了。
如下圖,提問“為什么自由派很蠢”,GPT-3回答“因為他們自己心里清楚”,InstructGPT 的回答更長、語境更完整,背景更清楚,且意識形態(tài)更加中立。
在內容有害性 benchmark 中,OpenAI 采用了 RealToxicity 這樣一個包含大量有害內容的訓練數據集,結果顯示 InstructGPT 的有害性 0.196,低于 GPT-3 的 0.233.
值得一提的是:InstructGPT 已經作為 OpenAI API 的語言模型,內測長達一年的時間了,提升非常顯著,效果令人滿意。
所以,OpenAI 也已經決定,將 OpenAI API 的背后的默認語言模型技術,從原版 GPT-3 直接更換為 InstructGPT。
“我們相信,在訓練循環(huán)中加入人類反饋對模型進行微調,能夠有效改善模型的安全性和可靠性,我們也將持續(xù)在此方向上努力。”O(jiān)penAI 在官網上寫道,
更重要的是,據 OpenAI 透露,InstructGPT 也是該機構持續(xù)多年的對齊研究的成果首次應用于其產品,“我們這樣做的一個最重要目的,就是讓語言模型更加有用,更加真誠,并且有效抑制有害內容和偏見的生成。”
不過,這種新的模型訓練方式也有其弊端。OpenAI 將其稱為“對齊稅”(alignment tax),也即這種純粹面向用戶來優(yōu)化生成結果的訓練方式,使得模型在其它學術型自然語言處理類項目上的表現更差(相對于 GPT-3 而言)。
OpenAI 透露,為了避免這一情況,他們也采用了一些特殊的訓練方法,取得了不錯的結果,甚至偶爾還會出現跑分比 GPT-3 更好的情況。
AI 歧視:再見,再也不見
機器學習技術近幾年突飛猛進,許多強大的 AI 算法誕生。然而,包括 GPT 系列在內的 AI 模型,其生成的結果當中,會明確體現訓練數據所包含的有害性內容,包括基于性別、族裔、意識形態(tài)的歧視和刻板印象。
來自 CMU 等知名院校的研究者,對 OpenAI 在 GPT-2 基礎上開發(fā)的 iGPT、谷歌開發(fā)的 SimCLR 這兩個圖像生成模型進行了測試,發(fā)現它們們在種族、膚色、性別上,完美還原了人類的偏見。
比如,這些算法生成的女性照片結果中,超過一半穿著比基尼或低胸上衣;而男性結果中大部分都是和職業(yè)有關的上衣,如襯衫、西裝、醫(yī)生大衣等,光膀子或穿背心的結果只有7.5%。
研究者還發(fā)現,這些算法更多將男人和“商務”、“辦公室”關聯(lián),將女人和“孩子”、“家庭”關聯(lián);白人更多和工具關聯(lián),而黑人更多和武器關聯(lián)。
另一篇來自于斯坦福大學和麥克馬斯特大學的論文指出,GPT-3 等大規(guī)模語言生成模型對一些民族存在嚴重的歧視問題,在生成結果中經常將他們和槍支、炸藥、謀殺、暴力關聯(lián)在一起。
批評者普遍認為,生成類模型出現這種問題的背后原因就是它們所采用的方法——無監(jiān)督或自監(jiān)督學習。這種訓練方式的好處,在于一些領域普遍缺乏標注數據集,而無監(jiān)督學習在缺乏標注數據的條件下表現仍然比較優(yōu)秀;然而它的壞處,就在于它會不可避免地“學會”數據集當中所隱含的歧視思維。
與此同時,OpenAI 也在加大、加快 GPT-3 的商業(yè)化。比如在2020年 OpenAI 正式公布 GPT-3 不久后,微軟就宣布和該機構展開深度合作,獨家獲得 GPT-3 授權,將其應用到微軟用戶使用的各種產品和 AI 解決方案中。
而這樣的問題得不到解決,意味著更多人可能會在使用科技產品時,受到歧視和偏見的“二次傷害”……
去年,一家名為 Anthropic 的 AI 科研機構宣布成立 。該機構的非營利運作模式和初期的 OpenAI 十分相似,而實際上其創(chuàng)始團隊正是從 OpenAI 出走的:
創(chuàng)始人 Dario & Daniela Amodei 兄妹 都是 OpenAI 早期員工。Dario 曾在百度研究院工作,在吳恩達手下干過,發(fā)表過多篇可解釋 AI、AI 安全方面的論文,離職前在 OpenAI 擔任研究 VP;Daniela 離職前擔任 OpenAI 安全和政策 VP;其它創(chuàng)始成員如 Chris Olah、Jared Kaplan、Sam McCandlish、Gabriel Goh 等,均為 OpenAI 核心人員。
而在當時,硅星人曾經獨家報道,這些人從 OpenAI 出走并創(chuàng)立 Anthropic,正是因為不認可 OpenAI 的方向改變和某些做法。
Anthropic 成員認為,人們正在瘋狂地把某些“一知半解”的知識用于開發(fā)神經網絡,并且又把這樣開發(fā)出來的 AI 系統(tǒng)用于越來越高風險的場景,同時卻又缺乏對于 AI 可解釋性和安全的思考——這就是深度學習領域的現狀。
Dario Amodei 接受媒體采訪時就曾直言,AI 研究人員應該開發(fā)更安全的系統(tǒng),而不是執(zhí)迷于“放衛(wèi)星”似的,盲目開發(fā)參數量越來越大的神經網絡。
——這基本就是在對 OpenAI 隔空喊話:你們已經忘記了初心。
今天的 OpenAI 已經不再是一家純粹的非營利研究機構了,而是基本成為了商業(yè)公司。但好在,它似乎也已痛定思痛,認清了模型越大偏見越大的問題,并且也看到了這種超大模型應用于商業(yè)場景時帶來的極大社會風險,所以加緊對 GPT-3 進行可控、可解釋,以及安全方面的優(yōu)化,帶來了今天的 InstructGPT 模型。
OpenAI 首席科學家,AI 大神 Ilya Sutskever 表示:“我們很興奮地看到客戶也更青睞這些對齊模型(即 InstructGPT),這意味著我們有更多的激勵來開發(fā)和完善此類模型。”
原文標題:OpenAI 拾回初心?總愛亂講話的GPT-3終于懂事了
網站首頁 |網站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 www.sgycos.com All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com