供稿、供图:庞鑫、王蓓 编辑:王喆
应bat365在线平台官方网站及语言工程与认知计算工信部重点实验室邀请,科大讯飞股份有限公司研究员、中国科学技术大学兼职教授祖漪清,于6月8日下午作了题为“语音合成视角下的大数据观”讲座。讲座由博士生导师王蓓副教授主持,近百名海内外高校师生参与了讲座。
祖老师先由ChatGPT的成功作为引入,指出基于大数据的AI技术为语言研究提供了新的思路和研究平台。同时也指出,基于深度神经网络的AI语音合成系统仍需语言学理论研究的支持。哪些语言学研究是语音合成技术现在迫切需要的?祖老师指出,在语音结构提取、连读变调、韵律表达等问题上,很难通过弱监督的方式自动获取;另外,多音字、多义词、特殊符号、声调和语调等会因为语法功能和语义而出现变化,这些都属于文本上缺失的信息,这些信息如果不被恢复出来,语音合成中出现错误是不可避免的。
其次,祖老师介绍了语音合成技术的发展脉络,从依赖言语产生的传统技术,到端对端技术,再到系统实际应用时采用的“序列到序列”语音合成方法。
同时,祖老师也讨论了当前语言学研究存在的一些问题。比如,缺少同时考虑语音、语义、语法特征的研究;缺少对语言变化丰富、语体风格不同的较大规模的语料的研究。另外,语法研究中许多基本问题仍存在很大争议,如词的划分、词类判断等。这使得直接用词作为语音合成系统的基本单元并不完全合适,而韵律词的定义又缺乏客观标准。
祖老师最后总结到,大语言模型的成功说明了语言研究需要在大数据提供的广义语言空间中进行,而这样的研究需要AI技术的支持。语音合成系统则提供了这样一个研究平台。同时语音合成技术能够为语言理论研究结果提供验证。未来可以尝试将语音、语义、语法综合起来建立AI研究范式,以此推进语言研究并实现理论和应用的互动。
此次讲座具有很强的专业性,使听众了解了语音合成技术目前面临的一些困难,同时加强了研究者们做基础研究的信心,因为在未来,语言学研究的新突破会对AI语言系统起到重要的推动作用,而AI将帮助我们理解复杂的语言现象。
【专家简介】
祖漪清,毕业于南京大学物理系声学专业和中国社会科学院研究生院实验语音学专业,从事多语种语音合成20余年,现任科大讯飞股份有限公司研究员、中国科学技术大学兼职教授。
(审核:杨晖、张莱湘)