首页 > 科技服务 > 技术详情

K1882 一种语音合成方法、装置及电子设备(技术产业化)

  • 申请人:北京...科技股份有限公司
  • 发布时间:2026.01.17
  • 技术领域:电子信息
  • 所属行业:人工智能
  • 是否专利:有专利
  • 专利类型:发明
  • 专利号:CN20241...752.5
  • 技术成熟度:可以量产
  • 是否产业:已产业
  • 希望对接并咨询的用户可以到技术平台
  • 查找并对接
  • 技术介绍
  • 成果评价
  1. 本发明实施例提供了一种语音合成方法、装置及电子设备,涉及语音合成技术领域。本方法包括:对目标文本进行处理,得到目标音素信息;将目标音素信息和目标语种信息输入语音合成模型,得到目标频谱特征;基于目标频谱特征得到目标语种的语音信息;语音合成模型至少包括:用于处理多个语种的文本转换任务,生成与语种无关的抽象特征表示的共享编码器、用于增强多个语种各自的特性的多个语种各自对应的中间层,以及,用于分别学习多个语种各自对应的发音特征的多个语种各自对应的解码器。通过本发明实施例的语音合成方法,能够提升数据量小的语种对应的语音合成精度。

    背景技术

    TTS(text-to-speech,语音合成)技术是一种将文本信息转换为语音的技术,使计算机、智能设备或其他应用程序等能够以人类听得懂的形式播报文本。TTS系统的应用非常广泛,包括智能播报、导航系统、语音助手、有声书等。可以说,每个人的生活中,都有一定程度上的语音合成技术的参与,比如手机助手Siri、智能音箱小度、机场高铁广播和地图导航等。

    以中文为例,中文普通话的语音合成效果已经普遍达到预期要求,其自然度和可理解度都较高,但是对于小语种,例如方言来说,还是有很多问题。以闽方言为例,闽方言分7个区,每个区还分为多个片(比如,闽南区可分为漳泉片、大田片和潮汕片),所以,就具体的某地方言来说,其数据比较稀缺。也是由于其语言现象非常复杂(如闽方言南北不能通话,东西也有差别),所以语种特征(如声调、语调等)难以捕捉。因此,如何针对数据量小的语种提升语音合成精度,是本发明亟待解决的问题。