隨著科技的發(fā)展,人聲克隆也是一個(gè)爭(zhēng)議的熱點(diǎn)。因?yàn)槲覀冎?,克隆是一件需要?yán)肅對(duì)待的事情。當(dāng)初我們克隆出了第一只小羊,克隆人類的討論也隨之而起。甚至有人擔(dān)心,如果克隆出了聲音,那么詐騙集團(tuán)有可能會(huì)有所利用,保護(hù)隱私也就變得更為的重要。那么,當(dāng)下是否有克隆聲音的軟件呢?同時(shí),科技的發(fā)展可以做到克隆聲音了嗎?今天,小編為大家整理了一些關(guān)于ai人聲克隆軟件的內(nèi)容,一起看看吧!
隨著科技的發(fā)展,人聲克隆也是一個(gè)爭(zhēng)議的熱點(diǎn)。因?yàn)槲覀冎?,克隆是一件需要?yán)肅對(duì)待的事情。當(dāng)初我們克隆出了第一只小羊,克隆人類的討論也隨之而起。甚至有人擔(dān)心,如果克隆出了聲音,那么詐騙集團(tuán)有可能會(huì)有所利用,保護(hù)隱私也就變得更為的重要。那么,當(dāng)下是否有克隆聲音的軟件呢?同時(shí),科技的發(fā)展可以做到克隆聲音了嗎?今天,小編為大家整理了一些關(guān)于ai人聲克隆軟件的內(nèi)容,一起看看吧!
一、ai人聲克隆軟件
初音
軟件使抄用了Yamaha的VOCALOID2語(yǔ)音合成引擎,把初音未來(lái)人類的聲音錄音并合成為酷似真正的歌聲。
只需輸入音調(diào)、歌詞則可發(fā)出聲音,亦可以調(diào)整震音、音速等的“感情參數(shù)”,最多能夠16人合唱,亦支援即時(shí)演奏、對(duì)應(yīng)ReWire。制作完成后會(huì)以WAV格式輸出,但軟件本身只可做出歌唱部分,伴奏音聲需要使用其他音樂軟件合成。歌詞輸入能辨認(rèn)平假名、片假zhidao名和羅馬字,但不能辨認(rèn)は、へ作為助詞和う、い作為長(zhǎng)音時(shí)會(huì)分別轉(zhuǎn)為わ、え、お、え的發(fā)音,亦不能對(duì)應(yīng)促音、漢字,需要自行修改。
二、ai克隆聲音
僅需3.7秒的音頻,中國(guó)科技巨頭百度開發(fā)的一種新的AI算法就可以克隆出一種非常可信的虛假聲音。就像機(jī)器學(xué)習(xí)軟件的迅速發(fā)展一樣,這種軟件可以使虛擬視頻的制作民主化,這項(xiàng)研究表明為什么越來(lái)越難相信互聯(lián)網(wǎng)上的任何媒體。
這家科技巨頭的研究人員在Deep Voice發(fā)布了他們的最新進(jìn)展,Deep Voice是一個(gè)為聲音克隆開發(fā)的系統(tǒng)。一年前,該技術(shù)需要大約30分鐘的音頻來(lái)創(chuàng)建新的假音頻片段?,F(xiàn)在,只需幾秒鐘的培訓(xùn)材料,它可以創(chuàng)造出更好的結(jié)果。
百度近日宣布,百度開發(fā)的新 AI 算法Deep Voice可以通過3.7秒鐘的錄音樣本數(shù)據(jù)就能完美的克隆出一個(gè)人的聲音。
Deep Voice是百度AI研究院一個(gè)由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的高質(zhì)量語(yǔ)音轉(zhuǎn)(TTS )系統(tǒng)。該系統(tǒng)不僅提高的模擬的時(shí)間,百度還優(yōu)化了它出錯(cuò)的概率。甚至還在一個(gè)單GPU服務(wù)器上,把推斷規(guī)模提高到到每天1000萬(wàn)次以上。
自適應(yīng)說話人編碼方法在訓(xùn)練、克隆和音頻生成中的應(yīng)用。
Deep Voice最早是在2017年的年初發(fā)布了第一版,初版的系統(tǒng)就能模擬初簡(jiǎn)短的句子,而且說起話來(lái)幾乎無(wú)法區(qū)分和真人的區(qū)別。但是該系統(tǒng)一次只能模擬一個(gè)人的聲音,而且需要好幾個(gè)小時(shí)的學(xué)習(xí)才能克隆成功。但是最新發(fā)布的成功已經(jīng)縮短到3.7秒,并且能將女性聲音轉(zhuǎn)變成男性,英式聲音變成美式。
模擬器編碼器結(jié)構(gòu)
百度研究院的研究人員在預(yù)印本網(wǎng)站 arxiv 上的發(fā)表了其 Deep Voice 系統(tǒng)的最新進(jìn)展《Neural Voice Cloning with a Few Samples》。除了利用少量樣本克隆聲音外,系統(tǒng)還能將女性聲音轉(zhuǎn)變成男性,英式聲音變成美式。百度研究人員表示,這項(xiàng)研究可應(yīng)用于人機(jī)交互的個(gè)性化方面。
三、克隆人聲語(yǔ)音系統(tǒng)
科技日?qǐng)?bào)北京5月3日電 (記者聶翠蓉)據(jù)《科學(xué)美國(guó)人》雜志網(wǎng)站2日?qǐng)?bào)道,加拿大新創(chuàng)公司琴鳥(Lyrebird)發(fā)布了新款人工智能(AI)語(yǔ)音系統(tǒng),其能通過分析講話錄音和對(duì)應(yīng)文本以及兩者之間的關(guān)聯(lián),在1分鐘內(nèi)模仿人類“講話”,比如,模仿特朗普、奧巴馬和希拉里三個(gè)人的聲音展開一段對(duì)話。
讓聲音聽起來(lái)更自然,是計(jì)算機(jī)程序在將文字轉(zhuǎn)換成語(yǔ)音過程中面臨的核心挑戰(zhàn),即使目前最好的語(yǔ)音助手,如蘋果公司的Siri和亞馬遜公司的Alexa,一發(fā)聲給人的第一感覺仍然是,“哇!這是計(jì)算機(jī)?!北澈笤蛟谟谶@些語(yǔ)音助手系統(tǒng)的工作原理:根據(jù)預(yù)錄的聲音文檔整理出詞匯,再通過另一個(gè)新的音頻文檔將這些詞匯拼湊在一起發(fā)聲。
而琴鳥公司的AI使用了一種全新的語(yǔ)音合成系統(tǒng),能在“傾聽”過程中“掌握”每個(gè)人說話時(shí)字母、音位和單詞的發(fā)音特點(diǎn),通過推理并模仿這個(gè)人聲音中的情感和語(yǔ)調(diào),“說”出全新的語(yǔ)句。
新系統(tǒng)使用模仿人腦思維的算法創(chuàng)建出一種人工神經(jīng)網(wǎng)絡(luò),能利用深度學(xué)習(xí)技術(shù)將所聽到的轉(zhuǎn)換成語(yǔ)音,并僅靠任何人1分鐘講話內(nèi)容,就能完全模仿這個(gè)人說話。其市場(chǎng)前景非常廣闊,可用來(lái)改進(jìn)個(gè)人人工智能助手、音頻書籍以及殘疾人語(yǔ)音系統(tǒng)等。
開發(fā)該系統(tǒng)的蒙特利爾大學(xué)學(xué)習(xí)算法實(shí)驗(yàn)室博士后亞歷山大·布瑞比森表示,在學(xué)會(huì)并模仿了幾個(gè)人的聲音后,再模仿任何一個(gè)新對(duì)象的語(yǔ)音就會(huì)變得更快,因此新語(yǔ)音系統(tǒng)不需太多信息,1分鐘足以捕獲某個(gè)人聲音的核心特點(diǎn)。
但美國(guó)卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所教授迪莫·鮑曼表示,琴鳥的語(yǔ)音系統(tǒng)和真正的人聲之間還有差距?!拔易屑?xì)聽過琴鳥系統(tǒng)的發(fā)聲,其帶有背景噪音,以及微弱的機(jī)器人特征。而且,它還不能模仿人們?cè)谥v話中的呼吸和唇部運(yùn)動(dòng),因此仍然能聽出其計(jì)算機(jī)語(yǔ)音特征。”鮑曼說。他認(rèn)為,語(yǔ)音系統(tǒng)真正令人信服地復(fù)制人聲,還需再等幾年。
以上就是小編為大家整理的關(guān)于ai克隆聲音的相關(guān)內(nèi)容了,不知道大家是否有所收獲呢!其實(shí),當(dāng)下,人聲克隆的探索空間還是比較大的,不過比較成熟的是模擬人聲聲音生成器,感興趣的小伙伴也可以了解一下喲!期待在不久之后,我們能夠使用到更多的科技軟件,讓媒體行業(yè)向前邁步。
該內(nèi)容為非商業(yè)目的的轉(zhuǎn)載分享,不代表本站觀點(diǎn),本文版權(quán)屬其著作權(quán)人所有。若侵犯了您的正當(dāng)權(quán)益,請(qǐng)立即聯(lián)系我們刪除。
閃電配音
免費(fèi)試音
幫我推薦
價(jià)格計(jì)算
在線下單
開具發(fā)票
不招主播
全網(wǎng)全品類皆可配 頂配好聲音
關(guān)注【客服微信】
聽最新案例,新客禮包等你拿!
提交成功
試音顧問將在工作日半小時(shí)內(nèi)聯(lián)系您,請(qǐng)準(zhǔn)備試音文稿或參考音頻加速匹配
你也可以注冊(cè),可自助下單挑選主播,在線接單配音。(7 X 24小時(shí)主播接單)