
科大訊飛開(kāi)放平臺(tái)研發(fā)總監(jiān)劉可為在會(huì)上發(fā)表了題為“多模態(tài)+大模型,構(gòu)建人形機(jī)器人新交互”的主題演講。他表示,科大訊飛機(jī)器人超腦平臺(tái)是以訊飛超腦2030技術(shù)為底座,面向物理世界、虛擬世界和元宇宙,以AI能力星云、多模態(tài)交互、大模型、模型訓(xùn)練、資產(chǎn)生成和軟硬件接入為核心的機(jī)器人開(kāi)發(fā)平臺(tái),幫助開(kāi)發(fā)者快速搭建多場(chǎng)景適配、具有深厚知識(shí)底蘊(yùn)以及擅長(zhǎng)自我進(jìn)化的實(shí)體機(jī)器人和虛擬數(shù)字人產(chǎn)品。
隨著大模型技術(shù)的發(fā)展,以具身智能為代表的人形機(jī)器人成為發(fā)展的新趨勢(shì)。面對(duì)功能更多樣、任務(wù)更專業(yè)、交互更自然、決策更智能的挑戰(zhàn),訊飛機(jī)器人超腦平臺(tái)從終端多模態(tài)交互和大模型理解決策兩個(gè)方面出發(fā),構(gòu)建人形機(jī)器人的新交互。首先,通過(guò)視聽(tīng)融合的感知交互,實(shí)現(xiàn)了包含開(kāi)啟交互、交互保持、切換交互權(quán)和結(jié)束交互在內(nèi)的機(jī)器人交互新范式。其次,基于大模型的機(jī)器人交互大腦,實(shí)現(xiàn)了控制級(jí)指令、官方技能、核心業(yè)務(wù)功能、快速知識(shí)問(wèn)答、閑聊陪伴的多交互場(chǎng)景的統(tǒng)一。最后,開(kāi)放了虛擬人驅(qū)動(dòng)協(xié)議,滿足不同數(shù)字人的接入需求。訊飛機(jī)器人超腦平臺(tái)的愿景是,利用AI推動(dòng)機(jī)器人產(chǎn)業(yè)的發(fā)展,讓機(jī)器人走進(jìn)千家萬(wàn)戶。
在活動(dòng)現(xiàn)場(chǎng),科大訊飛所展示的機(jī)器人超腦平臺(tái)多模態(tài)人機(jī)交互系統(tǒng)吸引了眾多參觀者的目光。該系統(tǒng)解決了機(jī)器人在嘈雜環(huán)境下聽(tīng)、說(shuō)、理解和思考的難題,展示了科大訊飛先進(jìn)的多模態(tài)算法。借助這套系統(tǒng),機(jī)器人不僅能實(shí)現(xiàn)語(yǔ)音識(shí)別、自然語(yǔ)言處理等基礎(chǔ)功能,還具備人像識(shí)別、唇形識(shí)別等多種感知能力。更令人稱贊的是,這套系統(tǒng)能夠在人流密集、環(huán)境嘈雜的服務(wù)場(chǎng)景中精準(zhǔn)捕捉到用戶的聲音,并運(yùn)用訊飛星火認(rèn)知大模型深入分析客戶的自然語(yǔ)言語(yǔ)義,精確理解用戶意圖。

同時(shí),訊飛擬人的語(yǔ)音技術(shù)使得機(jī)器人回復(fù)語(yǔ)言更具人性化,能夠與用戶進(jìn)行更加親切自然的交流。目前,科大訊飛的多模態(tài)交互系統(tǒng)已被廣泛應(yīng)用于數(shù)字人一體機(jī)、商用及家用服務(wù)機(jī)器人等多種設(shè)備中,其在智能家居、智慧零售、教育等領(lǐng)域的賦能作用尤為突出。
本屆大會(huì)不僅是一次技術(shù)的展示,更是對(duì)人形機(jī)器人產(chǎn)業(yè)發(fā)展趨勢(shì)的深度剖析。與會(huì)專家圍繞新一輪科技革命和產(chǎn)業(yè)變革、人形機(jī)器人新潮流、機(jī)器人技術(shù)研發(fā)、創(chuàng)新型產(chǎn)學(xué)研平臺(tái)建設(shè)等話題進(jìn)行了深入討論,搭建了交流合作的平臺(tái),推動(dòng)了人形機(jī)器人產(chǎn)業(yè)的創(chuàng)新發(fā)展,也為在場(chǎng)的每一位觀眾提供了一個(gè)思考未來(lái)智能交互可能的窗口。隨著人工智能技術(shù)的不斷進(jìn)步,科大訊飛正以其創(chuàng)新的多模態(tài)人機(jī)交互系統(tǒng)描繪一個(gè)智能機(jī)器人走進(jìn)千家萬(wàn)戶的未來(lái)圖景。