AI語(yǔ)音已逐步滲透到了大眾的生活中,但是刻板的對(duì)話(huà)方式似乎還困擾著廣大用戶(hù)。
全雙工這個(gè)概念對(duì)人工智能行業(yè)從業(yè)者來(lái)講,并不陌生。談到全雙工,此前,谷歌Duplex幫助人們通過(guò)電話(huà)預(yù)約餐廳和理發(fā)師的功能,帶來(lái)了有趣的觀(guān)感體驗(yàn),在I/O 2019上,谷歌宣布對(duì)Duplex進(jìn)行重大擴(kuò)展。

谷歌Duplex
在推進(jìn)對(duì)話(huà)交互智能的市場(chǎng)化應(yīng)用過(guò)程中,思必馳同樣發(fā)現(xiàn),自然流暢的對(duì)話(huà)體驗(yàn)、類(lèi)人化的交互體驗(yàn)成為了絕對(duì)的剛需。
因此,具備以上兩個(gè)特點(diǎn)的全雙工語(yǔ)音交互技術(shù),成為了關(guān)注的焦點(diǎn)。思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱,早在劍橋大學(xué)期間主導(dǎo)開(kāi)發(fā)了全雙工口語(yǔ)對(duì)話(huà)系統(tǒng),2010年參加國(guó)際對(duì)話(huà)系統(tǒng)研究挑戰(zhàn)賽時(shí),獲得可控測(cè)試的冠軍,這也是世界上最早的全雙工端到端口語(yǔ)對(duì)話(huà)系統(tǒng)之一。區(qū)別在于,與現(xiàn)在廣泛作用于物聯(lián)網(wǎng)智能終端設(shè)備的全雙工交互系統(tǒng)相比,當(dāng)時(shí)的主要應(yīng)用,在基于電話(huà)信道的人機(jī)交互方面。
全雙工是個(gè)系統(tǒng)工程
作為系統(tǒng)工程,全雙工需要綜合利用語(yǔ)音語(yǔ)言技術(shù)的各個(gè)模塊,實(shí)現(xiàn)前后聯(lián)動(dòng),例如,其對(duì)前端信號(hào)處理、AEC回聲消除有強(qiáng)相關(guān)依賴(lài),實(shí)時(shí)上傳的音頻對(duì)噪聲處理、音頻音質(zhì)要求較高,同時(shí),作為系統(tǒng)工程,全雙工涉及到全鏈路語(yǔ)音交互的各個(gè)模塊,其同樣需要對(duì)識(shí)別后的識(shí)別信息、語(yǔ)義信息等進(jìn)行綜合判斷及處理,并做出決策。

半雙工&全雙工
因此,全雙工交互技術(shù)的提升涉及到對(duì)話(huà)系統(tǒng)的各個(gè)模塊,不僅各個(gè)模塊的功能需要提升,模塊間的配合能力更需要完善。
思必馳在推進(jìn)全雙工交互技術(shù)的市場(chǎng)落地過(guò)程中,發(fā)現(xiàn)了一個(gè)更有效的事情,“全雙工+語(yǔ)義拒識(shí)”讓交互體驗(yàn)更加優(yōu)化。全雙工固然重要,但語(yǔ)義拒識(shí)算法,卻往往容易被人忽視。
語(yǔ)義拒識(shí)算法
受限于語(yǔ)音技術(shù)的發(fā)展,現(xiàn)有的對(duì)話(huà)系統(tǒng)受噪聲條件的影響非常明顯,缺乏穩(wěn)健性。在對(duì)話(huà)系統(tǒng)中,說(shuō)話(huà)人的檢測(cè)和基于語(yǔ)義的拒識(shí)是其非常重要的組成部分。當(dāng)說(shuō)話(huà)人的語(yǔ)音模糊不清或者語(yǔ)音數(shù)據(jù)不在已有訓(xùn)練集合中時(shí),識(shí)別系統(tǒng)會(huì)產(chǎn)生識(shí)別錯(cuò)誤,從而影響對(duì)話(huà)系統(tǒng)的識(shí)別和理解效果。
在半雙工狀態(tài)下,環(huán)境噪聲以及周?chē)寺暼菀滓馃o(wú)效輸入,對(duì)話(huà)系統(tǒng)或錯(cuò)誤響應(yīng),或給出“沒(méi)聽(tīng)懂”的呆板播報(bào),并且播報(bào)時(shí)不能打斷,十分影響交互效率。全雙工狀態(tài)下,對(duì)無(wú)實(shí)際語(yǔ)義的輸入則不會(huì)給出響應(yīng)。
拒識(shí)算法主要目的是去除沒(méi)有語(yǔ)義意義的音頻片段,節(jié)省后端處理的計(jì)算資源,提高整個(gè)對(duì)話(huà)系統(tǒng)的交互魯棒性,提升用戶(hù)使用體驗(yàn),避免錯(cuò)誤的語(yǔ)義理解引發(fā)錯(cuò)誤的反饋到用戶(hù)端。

思必馳語(yǔ)義拒識(shí)算法
思必馳拒識(shí)算法能夠解決的很多噪聲和無(wú)語(yǔ)義意義的問(wèn)題,例如用戶(hù)無(wú)意義的嗯啊聲、背景噪聲與閑聊聲、純音樂(lè)聲、聲音幅度小、各種笑聲尖叫聲,無(wú)厘頭聲音等。
語(yǔ)義拒識(shí)對(duì)全雙工對(duì)話(huà)交互而言至關(guān)重要,可以說(shuō),拒識(shí)做不好,全雙工的效果往往也會(huì)差強(qiáng)人意。
思必馳全雙工交互技術(shù),更強(qiáng)的持續(xù)對(duì)話(huà)能力
思必馳全雙工交互技術(shù),讓更流暢的多輪對(duì)話(huà)成為常態(tài),說(shuō)法更自由。
l連續(xù)交互免喚醒
過(guò)去,半雙工狀態(tài)下,用戶(hù)的跨領(lǐng)域交互每次交互都需要重新喚醒,于是,免喚醒技術(shù)成為改善體驗(yàn)的焦點(diǎn)。近些年,免喚醒技術(shù)已不是新鮮方案,有的采用“便捷喚醒詞定制”,有的采用“喚醒+識(shí)別理解一體化”方案,但都存在著諸如“漏字”這類(lèi)一系列的風(fēng)險(xiǎn):
“你好小馳明天天氣如何?”
漏字通常出現(xiàn)在喚醒詞和后面識(shí)別文本連接的地方,也就是句子中段。當(dāng)系統(tǒng)在識(shí)別過(guò)程中漏掉“明”字時(shí),就會(huì)造成時(shí)間信息不清晰(“明天”還是“今天”?),系統(tǒng)無(wú)法明確用戶(hù)的真正時(shí)間指令。而現(xiàn)在,思必馳全雙工技術(shù)方案可實(shí)現(xiàn)一次喚醒,在多個(gè)領(lǐng)域持續(xù)交互,跨領(lǐng)域指代消解。
l動(dòng)態(tài)斷句
在日常生活中,很多用戶(hù)說(shuō)話(huà)會(huì)出現(xiàn)拖音現(xiàn)象,說(shuō)話(huà)過(guò)程中,有思考/間斷的過(guò)程,因此會(huì)出現(xiàn)很多半截句,簡(jiǎn)單粗暴的調(diào)整語(yǔ)音端點(diǎn)檢測(cè)閾值的做法往往會(huì)帶來(lái)對(duì)話(huà)卡頓的現(xiàn)象。
半雙工狀態(tài)下,對(duì)話(huà)系統(tǒng)設(shè)定了固定的停頓檢測(cè)時(shí)間,用戶(hù)還未表達(dá)完整句子稍微一猶豫/停頓,會(huì)被語(yǔ)音端點(diǎn)檢測(cè)系統(tǒng)誤斷句,造成輸入內(nèi)容不完整,機(jī)器無(wú)法理解。
思必馳全雙工交互技術(shù)則在云端根據(jù)用戶(hù)說(shuō)話(huà)節(jié)奏和內(nèi)容,忽略無(wú)意義噪聲,動(dòng)態(tài)斷句,既能保證用戶(hù)輸入的完整性,又能保證較快的響應(yīng)速度。在回復(fù)方面,則可以適時(shí)的回復(fù)“嗯”等接話(huà)話(huà)術(shù),系統(tǒng)打破了對(duì)用戶(hù)說(shuō)話(huà)規(guī)則的要求,用戶(hù)可以按照自身的說(shuō)話(huà)習(xí)慣來(lái)進(jìn)行交流,交互過(guò)程更加人性化。
l語(yǔ)義打斷,避免誤打斷
在半雙工狀態(tài)下,語(yǔ)音合成播放時(shí)很難進(jìn)行打斷,在一些終端設(shè)備上,行業(yè)內(nèi)普遍采用的打斷方式是“快捷喚醒詞打斷”,說(shuō)法十分固定,無(wú)法泛化,需要定制多個(gè)喚醒詞,當(dāng)用戶(hù)想打斷的時(shí)候,必須要重復(fù)喚醒詞,容易發(fā)生誤打斷。同時(shí),對(duì)話(huà)打斷對(duì)環(huán)境有較高要求,在有噪聲的時(shí)候,也容易被誤打斷。
思必馳全雙工交互技術(shù)可在對(duì)話(huà)的過(guò)程中,實(shí)時(shí)語(yǔ)義打斷,不容易出現(xiàn)誤打斷,同時(shí),對(duì)沒(méi)有語(yǔ)義的輸入,則不會(huì)打斷語(yǔ)音合成播放。
這一技術(shù)在智能客服的領(lǐng)域?qū)?huì)大大改善消費(fèi)者的體驗(yàn),消費(fèi)者可以隨時(shí)隨刻打斷機(jī)器人客服的無(wú)效對(duì)話(huà)信息,進(jìn)行信息咨詢(xún)。
如何判斷什么時(shí)候接話(huà),什么時(shí)候反問(wèn),機(jī)器需要有智能決策的能力,這也是思必馳全雙工技術(shù)的一大特性:主動(dòng)交互。根據(jù)用戶(hù)表達(dá)狀態(tài),如“正常說(shuō)話(huà)”、“主動(dòng)沉默”、“無(wú)意義表達(dá)”等狀態(tài),來(lái)給予相應(yīng)的主動(dòng)反饋。
思必馳全雙工交互技術(shù)支持智能判斷,尤其是能夠主動(dòng)打斷用戶(hù)的復(fù)雜冗長(zhǎng)表達(dá),主動(dòng)打破沉默僵局,實(shí)現(xiàn)流暢自然的用戶(hù)口語(yǔ)交流習(xí)慣。當(dāng)識(shí)別到用戶(hù)正常表達(dá)時(shí),機(jī)器等待說(shuō)完后答復(fù)反饋;當(dāng)用戶(hù)大段無(wú)意義輸入或表達(dá)過(guò)于復(fù)雜時(shí),會(huì)主動(dòng)打斷并提示反問(wèn);在交互過(guò)程中,當(dāng)用戶(hù)沉默時(shí),則可以主動(dòng)發(fā)起對(duì)話(huà)交互。
同時(shí),經(jīng)過(guò)反復(fù)打磨和優(yōu)化,該技術(shù)對(duì)系統(tǒng)功耗幾乎無(wú)影響,實(shí)現(xiàn)低功耗下的最優(yōu)質(zhì)體驗(yàn)。

思必馳全雙工語(yǔ)音交互
實(shí)踐,是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)
目前,思必馳全雙工交互技術(shù)已展開(kāi)全線(xiàn)方案滲透,包括AIOT方案和企業(yè)信息智能服務(wù),深入作用汽車(chē)、家居、電子、教育、醫(yī)療、政務(wù)、金融、物流、酒店等場(chǎng)景。以音箱方案為例,接入全雙工系統(tǒng)后,這款“智能助理設(shè)備終端”將更似真人助理,更具備人類(lèi)親和力的特質(zhì)和邏輯思維能力,整個(gè)對(duì)話(huà)體驗(yàn)更加自然流暢。

思必馳業(yè)務(wù)場(chǎng)景
云端全雙工中控大腦持續(xù)優(yōu)化
針對(duì)全雙工交互技術(shù),思必馳將持續(xù)優(yōu)化云端全雙工中控大腦,持續(xù)進(jìn)行策略?xún)?yōu)化、場(chǎng)景優(yōu)化、單點(diǎn)技術(shù)模塊優(yōu)化,將交互體驗(yàn)做的更好。
未來(lái),多模態(tài)交互將會(huì)讓全雙工交互技術(shù)發(fā)揮更大的能量,配合聲紋識(shí)別、圖像處理、虹膜識(shí)別等技術(shù),過(guò)濾無(wú)用信息,人機(jī)交互會(huì)變得更加貼合人性,或許不遠(yuǎn)的未來(lái),你甚至分不清與你隔屏對(duì)話(huà)的,到底是人還是機(jī)器人。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
2025年10月25日,2025世界青年科學(xué)家峰會(huì)之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國(guó)際院士科創(chuàng)中心主辦,中國(guó)投資協(xié)會(huì)能源投資專(zhuān)業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦,中國(guó)電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,
個(gè)人創(chuàng)業(yè)需要啟動(dòng)成本低、無(wú)需龐大團(tuán)隊(duì)、可快速驗(yàn)證、能利用個(gè)人技能或資源。這里分享適合個(gè)人創(chuàng)業(yè)的十個(gè)機(jī)會(huì)一.AI內(nèi)容優(yōu)化與本地化服務(wù)·做什么:幫助企業(yè)或個(gè)人利用AI工具(如GPT-4,Midjourney)優(yōu)化內(nèi)容生產(chǎn)流程。例如,為跨境電商撰寫(xiě)多語(yǔ)言產(chǎn)品描述,為小紅書(shū)博主生成爆款文案,為小公司制作營(yíng)銷(xiāo)
百度AI團(tuán)隊(duì)今日正式推出PaddleOCR3.1版本,以突破性的多語(yǔ)言組合識(shí)別(MultilingualCompositionPerception,MCP)技術(shù)為核心,徹底重構(gòu)復(fù)雜文檔處理邊界。此次升級(jí)標(biāo)志著OCR領(lǐng)域首次實(shí)現(xiàn)對(duì)同一文檔內(nèi)任意混合語(yǔ)言文本的精準(zhǔn)識(shí)別,為全球化企業(yè)、跨境業(yè)務(wù)及多元文化場(chǎng)
導(dǎo)航網(wǎng)站的崛起:從信息過(guò)載到精準(zhǔn)觸達(dá)隨著全球AI工具數(shù)量爆發(fā)式增長(zhǎng)(2025年已超數(shù)萬(wàn)款),用戶(hù)面臨前所未有的選擇困境。傳統(tǒng)搜索引擎的“關(guān)鍵詞-鏈接”模式難以應(yīng)對(duì)工具篩選的場(chǎng)景需求,垂直化、場(chǎng)景化的AI導(dǎo)航網(wǎng)站應(yīng)運(yùn)而生。這類(lèi)平臺(tái)通過(guò)聚合、評(píng)測(cè)、分類(lèi)與推薦四重機(jī)制,將分散的工具資源整合為結(jié)構(gòu)化入口。例
當(dāng)微信公眾號(hào)文章中出現(xiàn)一個(gè)人的名字,它會(huì)自動(dòng)變成藍(lán)色鏈接,點(diǎn)擊即可查看AI生成的“個(gè)人簡(jiǎn)歷”——這一微信新功能讓不少用戶(hù)感到被“扒光”在互聯(lián)網(wǎng)上。近日,微信新上線(xiàn)的“AI搜索”功能陷入隱私泄露爭(zhēng)議漩渦。多位網(wǎng)友在社交平臺(tái)反映,當(dāng)微信公眾號(hào)推文中出現(xiàn)本人姓名時(shí),名字會(huì)自動(dòng)變?yōu)樗{(lán)色超鏈接,點(diǎn)擊即可瀏覽由
12月12日-14日,2025全球開(kāi)發(fā)者先鋒大會(huì)暨國(guó)際具身智能技能大賽(GDPS2025)于上海張江科學(xué)會(huì)堂舉行,大會(huì)以具身智能競(jìng)技為核心,融合了技術(shù)比拼、產(chǎn)業(yè)展示與科普體驗(yàn),為全球觀(guān)眾呈現(xiàn)出具身智能的現(xiàn)在與未來(lái)。上海開(kāi)普勒機(jī)器人有限公司(以下簡(jiǎn)稱(chēng)"開(kāi)普勒機(jī)器人")攜明星產(chǎn)品K2"大黃蜂"亮相,并參
在數(shù)字化與智能化深度交織的時(shí)代浪潮中,安全的邊界不斷延展,技術(shù)的演進(jìn)正引領(lǐng)產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動(dòng)Dynamic·數(shù)智躍遷博弈無(wú)界”為主題的2025TechWorld智慧安全大會(huì)在北京盛大召開(kāi)。來(lái)自國(guó)家部委、院士學(xué)者、高??蒲袡C(jī)構(gòu)和企業(yè)的權(quán)威專(zhuān)家與業(yè)界精英齊聚北京,共議AI安全、數(shù)
2025年10月25日,2025世界青年科學(xué)家峰會(huì)之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國(guó)際院士科創(chuàng)中心主辦,中國(guó)投資協(xié)會(huì)能源投資專(zhuān)業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦,中國(guó)電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,
我覺(jué)得我們AI的目標(biāo)是:從芯片設(shè)計(jì)到軟件生態(tài),全鏈路自主開(kāi)發(fā),建立可控的世界級(jí)AI體系。所以這是俺對(duì)未來(lái)5年中國(guó)AI圈的展望和判斷。(1)2026年,英偉達(dá)造車(chē)、國(guó)產(chǎn)開(kāi)車(chē)26年國(guó)產(chǎn)芯片會(huì)在推理和垂直場(chǎng)景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會(huì)以軟件彌補(bǔ)硬件不足,所以訓(xùn)練和推理分開(kāi),訓(xùn)練就
文/道哥在深陷“后門(mén)”風(fēng)波、接受網(wǎng)信辦問(wèn)詢(xún)之后,英偉達(dá)的“特供版”H20芯片,又有了新消息。近日,美國(guó)科技媒體《TheInformation》援引知情人士消息稱(chēng),英偉達(dá)已悄然向其關(guān)鍵供應(yīng)商——包括負(fù)責(zé)封裝的安靠科技、供應(yīng)高帶寬內(nèi)存的三星電子、以及承擔(dān)后端處理的富士康發(fā)出指令,要求暫停所有與H20AI
文/二風(fēng)來(lái)源/節(jié)點(diǎn)財(cái)經(jīng)一場(chǎng)關(guān)于“中國(guó)芯”的IPO審議,正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告,上市審核委員會(huì)已定于9月26日審議摩爾線(xiàn)程的科創(chuàng)板首發(fā)申請(qǐng)。作為中國(guó)半導(dǎo)體自主化浪潮中最受矚目的“考生”之一,包括其創(chuàng)始人顯赫的英偉達(dá)背景、高達(dá)80億元人民幣的募資雄心,以及在國(guó)產(chǎn)GPU領(lǐng)域取
AI視頻生成賽道“分野”:小廠(chǎng)重產(chǎn)品,大廠(chǎng)重生態(tài)
技術(shù)的進(jìn)步永無(wú)止境,繼創(chuàng)下TPC-C性能&性?xún)r(jià)比雙冠之后,阿里云PolarDB云原生數(shù)據(jù)庫(kù)再度實(shí)現(xiàn)關(guān)鍵突破。9月24日杭州云棲大會(huì)上,阿里云宣布推出全球首款基于CXL(ComputeExpressLink)2.0Switch技術(shù)的PolarDB數(shù)據(jù)庫(kù)專(zhuān)用服務(wù)器。在原有RDMA網(wǎng)絡(luò)的基礎(chǔ)上,Polar
2025年9月24日,在杭州舉辦的云棲大會(huì)上,阿里云正式發(fā)布全新一代服務(wù)器操作系統(tǒng)AlibabaCloudLinux4(簡(jiǎn)稱(chēng)Alinux4)。Alinux4基于Linux6.6內(nèi)核打造,是首個(gè)全面遵循龍蜥社區(qū)“開(kāi)源生態(tài)合作倡議”規(guī)范的商業(yè)發(fā)行版。它不僅兼容主流開(kāi)源社區(qū)生態(tài),更針對(duì)阿里云最新9代ECS