截至目前,思必馳擁有近100項全球獨創(chuàng)技術,已授權(quán)知識產(chǎn)權(quán)近1400件,其中已授權(quán)專利近700項,軟件著作權(quán)近400項,牽頭/參與了近50項國家/團體標準。
《安安訪談錄》是界面財聯(lián)社執(zhí)行總裁徐安安出品的一檔深度訪談類欄目。從投資角度對話1000位行業(yè)領軍人物,覆蓋傳媒創(chuàng)新、VC/PE、信息服務、金融科技、交易體系、戰(zhàn)略新興等方向。
《財專訪》是由《安安訪談錄》出品的系列專訪,財聯(lián)社上市公司報道部聚焦行業(yè)熱點,通過專訪各類專家、領軍人物,致力尋找投資價值標的,還原行業(yè)發(fā)展邏輯。
本期訪談人物:
思必馳聯(lián)合創(chuàng)始人兼首席科學家 俞凱
“GPT是人工智能發(fā)展的一個集中式突破,包括對話智能技術、深度學習大模型技術、工程化能力以及大數(shù)據(jù)的整體突破?!?/p>
▍個人介紹
思必馳聯(lián)合創(chuàng)始人兼首席科學家、上海交通大學教授。
清華大學本科、碩士,劍橋大學博士。
入選國家級重大人才工程,上海市“東方學者”特聘教授。
IEEE Speech and Language Processing Technical Committee 委員(2017-2019),中國計算機學會語音對話及聽覺專委會副主任,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學術和知識產(chǎn)權(quán)組組長。世界頂尖科學家論壇(World Laureates Forum)青年科學家委員會委員,全國信標委用戶界面分委會委員。
發(fā)表200余篇國際論文,獲得多個國際研究挑戰(zhàn)賽冠軍,擔任Inter Speech、ICMI等國際會議程序委員會主席和ACL、NAACL、EMNLP等國際會議對話交互領域主席。
曾獲中國人工智能學會吳文俊人工智能科學進步獎、中國計算機學會青竹獎、2016年《科學中國人》年度人物。
▍第一標簽
引領人工智能領域發(fā)展的長期主義者
▍公司簡介
思必馳基于自主研發(fā)的全鏈路智能對話系統(tǒng)定制開發(fā)平臺和人工智能語音芯片,圍繞“云+芯”進行布局,提供軟硬件結(jié)合的人工智能技術與產(chǎn)品服務,在智能家電、智能汽車、消費電子等物聯(lián)網(wǎng)領域以及數(shù)字政企領域,提供智能人機交互軟件產(chǎn)品、軟硬一體化人工智能產(chǎn)品以及對話式人工智能技術服務。截至目前,思必馳擁有近100項全球獨創(chuàng)技術,已授權(quán)知識產(chǎn)權(quán)近1400件,其中已授權(quán)專利近700項,軟件著作權(quán)近400項,牽頭/參與了近50項國家/團體標準。
2022年11月30日上線的人工智能聊天機器人模型ChatGPT近期火爆全球,僅僅2個月即實現(xiàn)月活破億。伴隨著ChatGPT的出圈,不僅海外科技巨頭微軟、谷歌打響AI搜索大戰(zhàn),國內(nèi)包括百度、阿里、騰訊、華為、京東、網(wǎng)易有道等大廠在內(nèi)的諸多科技公司均已披露相關方向的研發(fā)進展。
國內(nèi)專業(yè)對話式人工智能平臺型企業(yè)思必馳已掌握全鏈路語音及語言交互技術,涵蓋語音信號處理、識別、合成、語言理解、問答聊天、知識圖譜等人機信息交互閉環(huán)涉及的各個模塊級技術,能夠感知用戶意圖和情感,并基于用戶畫像實現(xiàn)擬人化的語言風格互動。
日前思必馳聯(lián)合創(chuàng)始人兼首席科學家俞凱接受了記者專訪,就思必馳在類ChatGPT對話機器人方面的研發(fā)進展、ChatGPT問世對于行業(yè)的意義、海內(nèi)外玩家差距、生成式AI面臨的挑戰(zhàn)等話題進行分享。
01
——————————
思必馳的語音和語義通用基礎模型已達到億級參數(shù)
Q:在類ChatGPT的對話機器人研發(fā)方面,公司目前有何進展?
俞凱:在技術的迭代發(fā)展上,ChatGPT本質(zhì)就是一個統(tǒng)計類的深度學習對話通用大模型。
思必馳應該算是國內(nèi)最早一批去進行統(tǒng)計類對話模型的產(chǎn)業(yè)化研究的公司之一,并且在任務型對話上也取得了很多很好的研究成績和應用成績。思必馳已有的語音和語義的通用基礎模型,已經(jīng)達到億級參數(shù)。
在通用基礎模型技術方面,目前思必馳使用千塊GPU卡量級的超算資源,正在整合擴展資源,在已有算法研究和數(shù)據(jù)積累的基礎上,將億級參數(shù)模型擴展到百億以上量級。
Q:在類ChatGPT的對話機器人研發(fā)方面,公司未來有何計劃?
俞凱:現(xiàn)在的ChatGPT還是以文本機器人的形式來出現(xiàn),我相信這只是一個開始,未來一定會往語音對話機器人去進階,會逐漸強化對語音和文本的深度融合。在聽覺感知技術方面,思必馳能夠?qū)崿F(xiàn)高精度的語音轉(zhuǎn)文字和高質(zhì)量的聲音播報效果;能夠解決在人機交互過程中面臨的遠距離、復雜聲場的多噪音干擾、多說話人判斷;滿足用戶對方言、外語的識別及合成的需求。
在聊天機器人方向,融合語音、文本、圖像信號的多模態(tài)交互技術也有很大機會。以當前新起的虛擬數(shù)字人為例,多模態(tài)、智能化的完整解決方案可以更好地應對不同場景的復雜變化,多模態(tài)交互成為行業(yè)發(fā)展的必然趨勢。在多模態(tài)及交互技術方向,思必馳公司在業(yè)界率先發(fā)布了全雙工對話架構(gòu),形成了獨特的閉環(huán)人機對話系統(tǒng)構(gòu)建的底層綜合技術優(yōu)勢,與國際主流先進技術相比,取得聲紋驗證、語音分離等指標的顯著提升。
02
——————————
ChatGPT是繼Alpha Go之后最大的里程碑進步
Q:您怎么看此次ChatGPT火出圈?可能存在哪些原因?
俞凱:ChatGPT可以算是繼Alpha Go之后最大的一個里程碑進步。Alpha Go解決的是確定規(guī)則情況下的搜索和處理,而GPT在無確定語法規(guī)則前提下,部分解決了自然語言交互的問題。我們并不能把GPT簡單理解為某一個特定單點技術的突破,而是人工智能發(fā)展的一個集中式突破,包括其中的對話智能技術、深度學習大模型技術、工程化能力以及大數(shù)據(jù)的整體突破。
ChatGPT爆火還有個原因,即產(chǎn)業(yè)應用的需求對技術的召喚得到了回應。各種智能硬件發(fā)展到現(xiàn)在,功能上逐漸愈發(fā)同質(zhì)化,體驗上也很難做出自己的特色。ChatGPT的創(chuàng)作能力則滿足了產(chǎn)業(yè)應用級的需求,打開了新的空間。
Q:據(jù)路透社記者統(tǒng)計,AI、生成式 AI、機器學習等詞出現(xiàn)在美國科技巨頭最新季財報會議中的頻率是上一季度的2-6倍。巨頭紛紛發(fā)力生成式 AI,您認為有哪些原因?
俞凱:本質(zhì)上,是因為生成式AI在落地應用后,更能達成用戶對“智能人機交互體驗”需求的滿足程度。生成式AI更強調(diào)學習、歸納后的創(chuàng)造、推理,生成式AI的創(chuàng)作能力則是以內(nèi)容創(chuàng)作為主,用來輔助人類決策。用戶對“輔助”的標準會低一些、寬容度會高一些、安全性和準確性的期望值也會低一些,更容易引起大家的關注和期待。
其次,生成式AI有“創(chuàng)作性”的天然屬性:即沒有絕對的正確錯誤之分,甚至有些仁者見仁、智者見智的意味。決策性AI的結(jié)果一旦錯誤,很容易被詬?。欢鴥?nèi)容創(chuàng)作的多樣性結(jié)果,則會被欣然接受。比如,現(xiàn)在的ChatGPT,在對一些事實性內(nèi)容的結(jié)果是不太準確的,但大家仍然能夠?qū)捜萁邮埽驗樗膶υ捠橇鲿车?、回復是有效的?/strong>
Q:您預判未來隨著生成式AI能力的提升,將在哪些行業(yè)快速滲透?
俞凱:短期來看,關于需要基于一定背景知識的創(chuàng)作型產(chǎn)業(yè),以及一切剛需AIGC的場景、重視SOP(標準作業(yè)程序)的行業(yè),能夠快速突破。比如智能寫作、文檔管理、代碼生成、流程管理、甚至游戲NPC等。
長遠來看,搜索引擎和基于搜索的相關產(chǎn)業(yè),有可能被顛覆。
03
——————————
海內(nèi)外玩家技術上并沒有明顯差距
Q:近期多家中國企業(yè)已經(jīng)宣布了相關進展,在您看來中國科技公司與海外企業(yè)之間的差距如何?需要哪些方面的努力?
俞凱:中美的差距,其實是在工程化能力、基礎架構(gòu)設置方面,另外還有人員經(jīng)驗的問題、長期信念決心的問題。
ChatGPT的核心是大模型技術和對話智能技術,大模型是指通用基礎模型,當參數(shù)足夠大的時候,比如當有千億級以上的大模型的時候,不再需要額外的采取數(shù)據(jù)對各個領域進一步訓練。大模型的算法是通用的,而數(shù)據(jù)量在超過千億級之后,對比也就不再那么明顯。
底層基礎的算法是公開的,并且國內(nèi)外一流的研究機構(gòu)都有非常不錯的研究成果,在算法的迭代創(chuàng)新方面并不存在明顯差距。當數(shù)據(jù)量足夠大,微不足道的數(shù)據(jù)差距影響也沒那么明顯。
簡而言之,技術上并沒有明顯差距,但存在技術實現(xiàn)的時間差問題。
Q:您預判,中國何時能有產(chǎn)品對標ChatGPT?
俞凱:由于一些客觀因素,ChatGPT在國內(nèi)可能會水土不服,短時間測試沒問題,但沒辦法長期穩(wěn)定調(diào)用。我看到國內(nèi)有巨頭有在準備發(fā)布相關產(chǎn)品。這是很好的方向。類GPT的產(chǎn)品,確實是需要依賴巨頭企業(yè)的投入和決心,但更令人期待的是,中國創(chuàng)業(yè)企業(yè)在基于該方向上的應用級創(chuàng)新。
由于各方面綜合因素,從研發(fā)環(huán)境來看,國外更關注從0到1的基礎創(chuàng)新,而國內(nèi)更擅長從1到N的應用級創(chuàng)新。
新技術出現(xiàn)的本質(zhì),是為了投入應用,而不是停留在技術指標層面的對比。我很期待中國的創(chuàng)業(yè)公司能夠基于用戶需求、產(chǎn)品情況,去探索出更多的類GPT應用,不管是在AI輔助、智慧辦公、智能客服,還是在更大層面的產(chǎn)業(yè)應用上。
04
——————————
生成式AI仍面臨挑戰(zhàn)
Q:近期圍繞著ChatGPT 成本、法律與倫理問題有諸多討論,您認為生成式 AI 面臨哪些主要挑戰(zhàn)?
俞凱:大模型的訓練的確是很昂貴,所以從成本來說,目前只有巨頭能負擔起高昂的投入,但當大規(guī)模應用起來,從長遠看,大模型技術反而能夠降低機器學習的成本、提高應用效率。
伴隨人工智能技術發(fā)展的,便一直是“AI有所為、有所不為”的討論。技術本身是中性的,關鍵是運用技術的人,應該向善、不作惡。
生成式AI面臨的兩大挑戰(zhàn),一是數(shù)據(jù)合規(guī),包括數(shù)據(jù)來源合規(guī)、數(shù)據(jù)處理合規(guī)、數(shù)據(jù)生成合規(guī);二是應用邊際,包括需要從人員管理上、工程化實現(xiàn)、場景領域上去規(guī)范應用邊界,如何更好地“協(xié)助人類”而不是“替代人類”,甚至是淪為deep fake的幫兇。
人工智能,說到底還是人的智能。ChatGPT可以基于上下文理解的基礎上,根據(jù)對話聊天來不斷完善自我學習和進化, 但是這種學習進化的機制,本質(zhì)上也是由人類設計的。當然,為了保證AI的良序發(fā)展,我們的確需要去嵌入一些相應的限制手段和規(guī)則約束。
Q:近期Google對外指出了AI技術發(fā)展迅速而大公司行動緩慢的原因:需要將AI融入現(xiàn)有的產(chǎn)品與服務中,符合公司的業(yè)務戰(zhàn)略才能展開,并不能如OpenAI這樣只需要研發(fā)一款最佳模型就可以。對此您怎么看?
俞凱:基礎AI技術創(chuàng)新,必須最終走入產(chǎn)業(yè),結(jié)合場景應用才會變得有價值。
作為新基建一環(huán)的AI技術,不能單靠底層原始創(chuàng)新來推動發(fā)展,其落地應用需要結(jié)合行業(yè)認知和客戶需求輸出整體性、結(jié)果導向性的實用解決方案。當然, OpenAI這樣的基礎模型工具也具有巨大價值。基礎研究和應用研究本身就屬于不同范疇,商業(yè)公司更多的還是要為市場負責,要計算投產(chǎn)比,更傾向于投入應用型研究;但基礎性研究卻可以更純粹地去看更底層的算法工具和更前瞻性的技術未來。
近幾年,行業(yè)也在加強產(chǎn)學研一體化合作,技術型企業(yè)和高校之間展開緊密合作,以推動基礎研究和應用研究的融合,例如訊飛和中科大,思必馳和上交大。畢竟人工智能發(fā)展是一個長期主義,為了將來更穩(wěn)定、更強的突破,必須重視基礎創(chuàng)新和原始創(chuàng)新能力,短期內(nèi)看研發(fā)投入會很高,但長遠看卻能降低成本、提高整體效率,也有利于建立中國人自己的“AI礦場”,更好地賦能傳統(tǒng)百業(yè)。
(記者:付靜;編輯:曹婧晨)
對話1000位行業(yè)領軍人物:安安訪談錄