生活杂谈栏目视频美女
  1. 其它
  2. 正文

李彦宏AI有声书还原度超九成:新技术AI语音合成是什么?

人类声音技术发展近150年,新技术ai语音合成是什么?能给我们带来哪些变化?
在19世纪下半叶,1877年爱迪生发明了留声机,1888年史密斯奠定磁录音机理论基础。从此人类记录历史的方式,不再是冷冰冰的文字。再到现在更先进的数字音频、视频技术的出现让我们的历史变得有声有色。
从声音的记录角度来看,无论是早期的唱片、磁带,还是现在的光盘、硬盘都需要占用大量的存储空间。为了保存音视频数据,我们投入巨资建设了庞大的数据库。那么有没有更先进的技术能带来改变呢?
4月21日,喜马拉雅上线了,李彦宏的有声书《智能交通》。值得一提的是,该书是用李彦宏300句左右公开语音数据,通过ai术语音合成技术(tts技),高度还原了李彦宏的原声,可以说是一部典型的利用aigc(ai自动生成内容)创作的超拟真有声书。相比10年前动辄需要上万句原声数据,2018年需要2-3000句,现在百度用300句就能生成媲美录音棚级的高还原度声音,可以说实现了tts技术的跨越式发展。
那么这部20万字ai音频作品,是基于国内第一部系统阐述中国智能交通发展现状和前景的专著《智能交通》而来,这其中指出依靠智能交通技术,如何解决我们现在的交通难题。那么它是如何只依靠300句原始声音素材,就能模仿出几近真人的声音呢?这些就要提到百度语音合成团队3个技术上的突破。
第一,声音模型精细到了前后鼻音级别,让声音的风格、音色特征保持一致性,实现高度还原。
第二,通过海量文字训练,模型可以模拟出不同文字语境下的声音变化。
第三,应用了融合传统信号技术和神经网络技术的声码转化器,让声音播放更流畅、自然,达到与原声几乎无法区分的效果。
凭借这些突破,百度语音合成技术可以做到,只需9句话素材、5分钟即可实现对声音的复刻,。用300句原始语音数据训练,即可完成几近真人声音的还原。那么tts技术,能给我们带来哪些变化呢?
一方面,带来音频存储方式的变革。通过保存“部分原声数据+文本”的方式,可以现在数以gb的数据,缩减到mb、kb的规模。另一方面,也为元宇宙时代到来奠定基础。元宇宙时代,将带来巨大的数字内容生成需求,声音内容就是其中之一,高效率仿真声音合成生成技术将不可或缺。
除此之外,央视节目《等着我》用ai语音技术合成了老兵已故老排长的声音,为91岁老兵读信,实现了跨时空交流。其实tts技术,还可以在语音导航、智能客服、数字人主持等领域发挥作用。至于它还能如何改变我们的生活,可以拭目以待。
猜你喜欢