11月14日,訊飛星火多模態(tài)交互大模型正式上線,不僅實(shí)現(xiàn)從語音交互拓展到音視頻流實(shí)時(shí)多模交互,新增“多模態(tài)、超擬人和個(gè)性化”能力,還實(shí)現(xiàn)語音、視覺、數(shù)字人交互三合一,支持一鍵調(diào)用。
01 一張照片打造“數(shù)字分身”
超擬人數(shù)字人栩栩如生,顏值與才華兼具。
首發(fā)超擬人數(shù)字人技術(shù),數(shù)字人軀干和四肢動(dòng)作精準(zhǔn)匹配語音內(nèi)容,表情和動(dòng)作快速生成,讓 AI自此栩栩如生。
統(tǒng)一文本、語音與表情,實(shí)現(xiàn)跨模態(tài)的語義一致性,讓大模型情感表達(dá)真實(shí)連貫,數(shù)字形象真實(shí)度和自然度達(dá)到4.0分。
02 讓機(jī)器表達(dá)有了“人情味”
超擬人極速交互告別機(jī)器味,聲音生動(dòng)且有溫度。
采用統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)語音到語音的端到端建模響應(yīng)更快速、流暢,不懼頻繁打斷。
既可敏銳感知情緒變化,也可根據(jù)指令自由變換聲音節(jié)奏、大小及人設(shè)。
03 解鎖“耳聰目明”的AI助手
多模態(tài)視覺交互既能聽懂世界,也可認(rèn)清萬物。
實(shí)時(shí)音視頻流的動(dòng)態(tài)多模交互,給大模型裝上一雙“慧眼更全面感知具體背景場景、物體狀態(tài)等信息,任務(wù)的理解更加精準(zhǔn),通過語音、手勢、行為、情緒等綜合判斷,做出合適回復(fù)。
多模態(tài)交互大模型適用于個(gè)人助理、智能陪練、情感陪伴、教育培訓(xùn)等應(yīng)用場景,帶來了全新人機(jī)交互體驗(yàn)助力開發(fā)者打造新的創(chuàng)新應(yīng)用。
來源:訊飛開放平臺(tái)