用GPT-4糾錯GPT-4!OpenAI推出CriticGPT模型
原創(chuàng )
2024-06-28 11:34 星期五
財聯(lián)社 周子意
①OpenAI公司推出了一個(gè)基于GPT-4的模型CriticGPT,用于捕獲ChatGPT代碼輸出中的錯誤;
②該模型可以對ChatGPT的響應結果做出指正,從而幫助AI訓練師更好地發(fā)現錯誤;
③在CriticGPT的幫助下,AI訓練師的指正比自己?jiǎn)为氉龅母尤妗?/pre>

財聯(lián)社6月28日訊(編輯 周子意)根據OpenAI周四(6月27日)發(fā)布的新聞稿,該公司新推出了一個(gè)基于GPT-4的模型——CriticGPT,用于捕獲ChatGPT代碼輸出中的錯誤。

CriticGPT的作用相當于讓人們用GPT-4來(lái)查找GPT-4的錯誤。該模型可以對ChatGPT響應結果做出批評評論,從而幫助人工智能訓練師在“基于人類(lèi)反饋的強化學(xué)習(RLHF)”過(guò)程中發(fā)現的錯誤,為人工智能訓練師提供明確的人工智能幫助。

image

這一新模型的發(fā)布意在向投資者傳達,OpenAI在RLHF賽道上的領(lǐng)先地位。RLHF的一個(gè)關(guān)鍵部分就是收集比較,讓人工智能訓練師對不同的ChatGPT回答進(jìn)行評分,并反饋給ChatGPT。

研究發(fā)現,當訓練師借助CriticGPT來(lái)審查ChatGPT輸出代碼時(shí),他們的表現要比沒(méi)有得到幫助的人高出60%。并且,在CriticGPT的幫助下,他們的指正比自己?jiǎn)为氉龅母尤妗?/p>

CriticGPT的審查

隨著(zhù)大模型在推理和行為方面的進(jìn)步,ChatGPT變得更加準確,它的錯誤也變得更加微妙。這可能會(huì )使人工智能訓練師很難發(fā)現其中不準確的情況,從而使RLHF的比較任務(wù)更加困難。

若是如果沒(méi)有更好的工具,人們很難對這些系統進(jìn)行評估。而OpenAI指出,CriticGPT模型將有能力評估先進(jìn)人工智能系統的輸出。

OpenAI舉了一個(gè)例子:用戶(hù)對ChatGPT下達“用Python編寫(xiě)指定函數”的任務(wù),ChatGPT根據這一指令給出了相關(guān)代碼。對于ChatGPT給出的代碼,CriticGPT點(diǎn)評了其中一條,并給出了效果更好的替代方案。

image

還有一項數據顯示,在OpenAI的實(shí)驗中,隨機訓練師在超過(guò)60%的時(shí)間里更傾向于人類(lèi)與CriticGPT合作后得出的指正,而不是單純由人類(lèi)訓練師作出的批評。

不過(guò),OpenAI也指出,CriticGPT的建議并不總是正確的,但與沒(méi)有人工智能的幫助相比,它還是可以幫助訓練師找出模型中的更多問(wèn)題。

收藏
88.06W
歡迎您發(fā)表有價(jià)值的評論,發(fā)布廣告和不和諧的評論都將會(huì )被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話(huà)題
9.28W 人關(guān)注
4.12W 人關(guān)注
1.28W 人關(guān)注