太真了!羅永浩數(shù)字人引爆直播間,背后技術(shù)有多強?快訊

TechWeb.com.cn 2025-06-18 11:23
分享到:
導(dǎo)讀

羅永浩數(shù)字人直播間有兩位數(shù)字人,為何這次羅永浩數(shù)字人在百度優(yōu)選直播間的表現(xiàn)卻讓人眼前一亮呢,羅永浩數(shù)字人直播間做到了。

【TechWeb】6月18日消息,一年一度618,電商平臺們都在拼低價、拼補貼卷生卷死的時候,百度另辟蹊徑,聯(lián)手羅永浩搞了一場數(shù)字人直播,因為太擬真,以至于讓直播間的網(wǎng)友都在猜:這是“真的假的”羅永浩。

羅永浩數(shù)字人直播間

6月15日下午,“羅永浩數(shù)字人”在百度電商首次開播,全場近7小時GMV達5500萬元,觀看人次超1300萬,部分品類銷量超甚至越過了5月23日羅永浩真人直播場。

事實上,數(shù)字人直播早已不是新鮮事,為何這次羅永浩數(shù)字人在百度優(yōu)選直播間的表現(xiàn)卻讓人眼前一亮呢?

在百度AI Day上,百度副總裁、電商總經(jīng)理平曉黎,百度集團副總裁吳甜揭秘了羅永浩數(shù)字人背后的黑科技和更多細(xì)節(jié)。

真假難辨的“羅永浩”

仔細(xì)觀察這次羅永浩數(shù)字人的直播表現(xiàn),會發(fā)現(xiàn),這場直播創(chuàng)下幾個業(yè)內(nèi)首次:

第一,這次數(shù)字人直播全場持續(xù)了近7小時。

目前市面上主流的AI生視頻產(chǎn)品生成的視頻時長大多在幾十秒至十幾分鐘,近7小時的數(shù)字人直播可謂超越了AI視頻生成極限。

如何讓一個AI生成的數(shù)字人影像保持近7小時的一致性?這背后需要解決哪些技術(shù)挑戰(zhàn)?

第二、和市面上大多的單個數(shù)字人直播不同,羅永浩數(shù)字人直播間有兩位數(shù)字人,分別是羅永浩和他的助手朱蕭木的數(shù)字人。

這是行業(yè)首次“多數(shù)字人直播”,并且,在直播中羅永浩與助播數(shù)字人配合自然、雙數(shù)字人搭檔接梗流暢,搶話自然。

雙人/多人直播相比單人直播,又有哪些技術(shù)鴻溝需要翻越?

第三、數(shù)字人羅永浩不但能做出喝奶茶、拎可樂等細(xì)節(jié)動作,還能與直播間用戶發(fā)布的彈幕進行實時互動,就像真人直播間一樣玩抽獎、發(fā)福袋等互動。這一點更是秒殺一眾對口型的直播數(shù)字人。

同樣的,在長達近7小時的直播中,是如何保持?jǐn)?shù)字人互動動作的精準(zhǔn)度的?

也正是因為上面這些直播特征,讓直播間的網(wǎng)友一時之間分不清在直播的到底是羅永浩本人,還是羅永浩數(shù)字人,真假難辨了。

平曉黎:百度數(shù)字人與市面上的直播數(shù)字人相比,有代際優(yōu)勢

這個真假難辨的“羅永浩”,百度是如何打造的呢?

百度副總裁、電商總經(jīng)理平曉黎介紹了“羅永浩數(shù)字人”的打造過程:今年 4 月百度發(fā)布了高說服力數(shù)字人,這是一個新的里程碑。此后,在高說服力數(shù)字人的基礎(chǔ)之上,百度電商慧播星再一次迭代,圍繞慧播星首席體驗官羅永浩,發(fā)布了業(yè)界首個超頭主播的數(shù)字人,實現(xiàn)了體驗、內(nèi)容、視覺、效果的四大突破,使得數(shù)字人帶貨能力媲美真人。

在平曉黎看來,百度的這個“超頭主播的數(shù)字人”,跟市場上目前的直播數(shù)字人之間,存在著明顯的“代際”優(yōu)勢。正是對體驗、內(nèi)容、視覺、效果的四大突破,成就了這種優(yōu)勢。

具體來看,羅永浩數(shù)字人直播間做到了:

體驗突破,復(fù)刻羅永浩跟朱蕭木的絲滑配合,是業(yè)界首個雙數(shù)字人互動直播間;

內(nèi)容突破,數(shù)字人做到了“懂創(chuàng)作”,帶貨時塑品專業(yè)度更高,數(shù)字人可以“有個性”,甚至能“玩梗”,為數(shù)字人注入靈魂;

視覺突破,羅永浩數(shù)字人直播實現(xiàn)了在直播實時環(huán)境下的超長演繹,做到了動作、表情、語調(diào)等貼合話術(shù),且穩(wěn)定可控;

效果突破,AI大腦基于直播間信號靈活控場,數(shù)字人可以主動邀評、高頻互動,極大提升用戶沉浸感;通過多智能體實時調(diào)度,在數(shù)字人直播間實現(xiàn)了和真人直播間一樣的互動玩法,如抽獎、發(fā)福袋等。

平曉黎介紹,目前,在百度慧播星,單個數(shù)字人的制作成本在1000元/月左右。目前百度電商已有累計超 10 萬數(shù)字人主播,覆蓋電商、教育、醫(yī)療等數(shù)十個行業(yè),助力商家直播運營成本下降超80%,GMV平均提升62%。

五大關(guān)鍵技術(shù)揭秘

那么,這項領(lǐng)先行業(yè)的“羅永浩數(shù)字人”到底是如何實現(xiàn)的呢?

百度集團副總裁吳甜在百度AI Day上進行了背后技術(shù)大揭秘。

吳甜表示,百度在今年4月發(fā)布了最新的文心 4.5 Turbo和文心X1 Turbo為此次直播提供了強有力的技術(shù)支撐,打造了多模協(xié)同的數(shù)字人技術(shù),羅永浩數(shù)字人是基于文心大模型的最佳實踐。

具體到羅永浩數(shù)字人的打造上,吳甜總結(jié)道,羅永浩數(shù)字人直播背后的五大關(guān)鍵技術(shù)包括:劇本驅(qū)動的數(shù)字人多模協(xié)同、融合多模規(guī)劃與深度思考的劇本生成、動態(tài)決策的實時交互、文本自控的語音合成,以及高一致性超擬真數(shù)字長視頻生成。這些技術(shù)的綜合應(yīng)用,為用戶呈現(xiàn)了一個高質(zhì)量的直播間表現(xiàn)。

直播中,數(shù)字人不僅要詳細(xì)解讀商品,還要通過肢體語言和表情傳達商品特性,這構(gòu)成了一個多模態(tài)的協(xié)同問題。多模協(xié)同的數(shù)字人技術(shù)是數(shù)字人表現(xiàn)好的關(guān)鍵所在。百度為了實現(xiàn)語言、語音和視覺的協(xié)調(diào)一致,采用了一種基于劇本驅(qū)動的技術(shù)方案,劇本不僅包含臺詞,還包括對視覺、語音等模態(tài)以及在直播過程中的實時互動內(nèi)容,確保數(shù)字人的表達在語義、語氣語調(diào)、微表情和手勢上高度協(xié)同。

在數(shù)字人語音合成方面,通過采用文本自控的語音合成等技術(shù),實現(xiàn)了更逼真、互動性強的對話效果。為解決羅永浩數(shù)字人直播雙人聲音配合的難點,百度采用對話上下文編碼器,將對話歷史輸入和當(dāng)前對話進行語音合成的統(tǒng)一推理計算,最終實現(xiàn)流暢、自然的雙人對話效果。

吳甜還特別提到,在直播間的環(huán)境下,數(shù)字人形象生成的挑戰(zhàn)主要集中在多模協(xié)同、高表現(xiàn)力動作的傳達、復(fù)雜交互的實現(xiàn)以及超長時長的一致性保持。百度通過多模態(tài)輸入,包括視頻、劇本、語音和骨骼信號,以及對視頻的多模態(tài)理解和人、物、場的高可控視頻生成,實現(xiàn)復(fù)雜交互片段和大表情、大動作片段的生成。特別地,面對羅永浩直播間兩位具有高IP價值的主播以及豐富的商品,通過結(jié)合多模態(tài)視頻理解、跨模態(tài)信號生成、視頻生成等技術(shù),克服了高可控交互,高精度、長時間一致性保持等難點,實現(xiàn)了高一致性超擬真羅永浩數(shù)字人長視頻生成。

現(xiàn)在,羅永浩已經(jīng)入駐百度優(yōu)選,將以真人+數(shù)字人的形式不定期開播。同時,羅永浩將擔(dān)任百度慧播星首席體驗官,雙方也將在“AI+直播”領(lǐng)域進行探索。

未來數(shù)字人直播表現(xiàn)會演進到何種逼真度,值得期待。

數(shù)字 直播 羅永浩 百度 技術(shù)
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。