百度文库ai生成ppt保存在哪里,百度文库ai生成ppt
DouJia 2025-02-20 16:30 94 浏览
基于深度学习的有监督语音分离在学术界和工业界越来越受到关注百度文库ai生成ppt,也是深度学习在语音领域的应用中重要的一部分。作为雷锋网 AI 研习社近期组织的一系列语音领域应用的分享会之一,本次百度文库ai生成ppt我们请到了来自搜狗的研究员文仕学对语音分离方面主要的研究课题和相关方法做一些介绍。
? 观看完整回顾大概需要31分钟
文仕学,过去学物理,后来学 EE,现在从事 Deep Learning 工作,未来投身 AI 和 CM 事业。他的研究兴趣在于语音信号处理和深度学习。在加入搜狗之前,曾在中国科学技术大学学习,在该领域的期刊和会议上发表了若干篇论文。现在在搜狗语音团队任副研究员。
AI研习社将本次分享的内容整理如下。
分享主题:基于深度学习的语音分离
文仕学首先介绍了 “语音分离”(Speech Separation)是怎么样的一种任务。这个问题来自于 “鸡尾酒会问题”,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。
根据干扰的不同,语音分离任务可以分为三类:
当干扰为噪声信号时,可以称为 “语音增强”(Speech Enhancement)
当干扰为其他说话人时,可以称为 “多说话人分离”(Speaker Separation)
当干扰为目标说话人自己声音的反射波时,可以称为 “解混响”(De-reverberation)
由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰,不做语音分离、直接进行识别的话,会影响到识别的准确率。因此在语音识别的前端加上语音分离技术,把目标说话人的声音和其它干扰分开就可以提高语音识别系统的鲁棒性,这从而也成为现代语音识别系统中不可或缺的一环。
基于深度学习的语音分离,主要是用基于深度学习的方法,从训练数据中学习语音、说话人和噪音的特征,从而实现语音分离的目标。
这次分享的内容有以下这 5 个部分:分离使用的模型、训练目标的设置、训练数据的生成、单通道语音分离算法的介绍和讨论。
基于深度学习的语音分离方法使用的模型
第一类模型是多层感知机,DNN,可以先做 RBM 预训练,再做微调(fine-tune);不过文仕学介绍,他们团队通过实验发现,在大数据集上不需要预训练也可以收敛。
LSTM(长短时记忆网络)的方法中把语音作为一个随时间变化的序列进行建模,比较适合语音数据;CNN(卷积神经网络)通过共享权值,可以在减少训练参数的同时获得比全连接的 DNN 更好的性能。
近些年也有人用 GAN(对抗性生成式网络)做语音增强。模型中通常会把生成器设置为全部是卷积层,为了减少训练参数从而缩短训练时间;判别器负责向生成器提供生成数据的真伪信息,帮助生成器向着 “生成干净声音” 的方向微调。
训练目标的设置
训练目标包括两类,一类是基于 Mask 的方法,另一类是基于频谱映射的方法。
基于 Mask 的方法又可以分为几类
“理想二值掩蔽”(Ideal Binary Mask)中的分离任务就成为了一个二分类问题。这类方法根据听觉感知特性,把音频信号分成不同的子带,根据每个时频单元上的信噪比,把对应的时频单元的能量设为 0(噪音占主导的情况下)或者保持原样(目标语音占主导的情况下)。
第二类基于 Mask 的方法是 IRM(Ideal Ratio Mask),它同样对每个时频单元进行计算,但不同于 IBM 的 “非零即一”,IRM 中会计算语音信号和噪音之间的能量比,得到介于 0 到 1 之间的一个数,然后据此改变时频单元的能量大小。IRM 是对 IBM 的演进,反映了各个时频单元上对噪声的抑制程度,可以进一步提高分离后语音的质量和可懂度。
TBM 与 IRM 类似,但不是对每个时频单元计算其中语音和噪声的信噪比,而是计算其中语音和一个固定噪声的信噪比
**M 是 IRM 在幅度上的一种形式
P** 中加入了干净语音和带噪语音中的相位差信息,有更高的自由度
虽然基于 Mask 的方法有这么多,但最常用的还是开头的 IBM 和 IRM 两种
如果使用频谱映射,分离问题就成为了一个回归问题。
频谱映射可以使用幅度谱、功率谱、梅尔谱以及 Gammatone 功率谱。Gammatone 是模拟人耳耳蜗滤波后的特征。为了压缩参数的动态范围以及考虑人耳的听觉效应,通常还会加上对数操作,比如对数功率谱。
基于频谱映射的方法,是让模型通过有监督学习,自己学习有干扰的频谱到无干扰的频谱(干净语音)之间的映射关系;模型可以是 DNN、CNN、LSTM 甚至 GAN。
这一页是使用相同的 DNN 模型、相同的输入特征、不同的训练目标得到的结果。
左边的 STOI 指语音的可懂度,得分在 0 到 1 之间,越高越好;右边的 PESQ 是语音的听觉质量、听感,范围为 - 0.5 到 4.5,也是越高越好。
基于 Mask 的方法 STOI 表现较好,原因是有共振峰的能量得到了较好的保留,而相邻共振峰之间波谷处的声音虽然失真较大,但人耳对这类失真并不敏感;两类方法在 PESQ 中表现相当。
训练数据的生成
针对语音分离中的语音增强任务,首先可以通过人为加噪的方法生成带噪语音和干净语音对,分别作为输入和输出(有标注数据),对有监督学习模型进行训练。加入的噪声可以是各种收集到的真实世界中的噪声。
不过收集噪声需要成本,而且人工能够收集到的噪音总是有限的,最好能够有一套完备、合理的方案,用仿真的方式生成任意需要的噪声。 在今年的 MLSP(信号处理机器学习)会议上,搜狗语音团队就发表了一项关于噪声基的工作,通过构造一个噪声基模型,在不使用任何真实噪音数据的情况下,生成带噪语音对语音增强模型进行训练,达到了与使用 50 种真实噪音的情况下相当的性能(下图)。
如果将这 50 种真实噪声和噪声基产生的数据混合在一起,性能可以比单独使用真实噪音的情况得到进一步提高。这也说明噪声基生成的噪声和真实噪声数据之间有着互补性,在实际应用中也可以解开一些真实噪声数据不足带来的限制。
单通道语音分离算法
如开头所说,语音分离任务可以分为三类,语音增强、多说话人分离和解混响。不同任务的处理方法也有所不同。
对于语音增强,基于 Mask 的方法首先进行耳蜗滤波,然后特征提取、时频单元分类、二值掩蔽、后处理,就可以得到增强后的语音了。
语音增强的另一类基于频谱映射的方法中,先特征提取,用深度神经网络学习带噪语音和干净语音的对数功率谱之间映射关系,再加上波形重建,就可以得到增强后的语音。
基于有监督学习的算法都存在推广性(generalization)的问题,语音增强这里也不例外。针对噪音类型、信噪比和说话人的推广性都还有提升的空间。
对于解混响,同样可以使用基于频谱映射的方法。解混响中也需要生成训练数据,但不同于带噪语音生成时做时域的相加,带混响的语音是在时域上进行卷积;同样都把干净语音作为带标注数据。
在基于频谱映射的方法基础上还可以加以改进。对于不同的混响时间,深度神经网络需要学习的时间窗口长度是不一样的,因而改进方法中加入了告知混响时间的功能,根据帧移 R 和扩帧数目 N 提特征后解码,可以获得更好的解混响效果。
多说话人分离分为三种情况
目标说话人和干扰说话人都固定,Speaker dependent,有监督分离
目标说话人固定,训练阶段和测试阶段的干扰说话人可变,Target dependent,半监督分离
目标说话人和干扰说话人都可变,Speaker independent,无监督分离
对于有监督和半监督分离,可以使用基于频谱映射的方法,与前面使用基于频谱映射的方法做语音增强类似。
对于无监督分类,有无监督聚类、深度聚类以及最近的序列不变训练(PIT)方法。PIT 方法的核心是红框中标出的部分,在误差回传的时候,分别计算输出序列和标注序列间各种组合的均方误差,然后从这些均方误差中找到最小的那个作为回传误差,也就是根据自动找到的声源间的最佳匹配进行优化,避免出现序列模糊的问题。
讨论两个问题
最后,文仕学给大家留了两个思考题,欢迎大家在评论区给出自己的见解。
第一个问题是语音分离任务中,是按传统思路先变换到频域,然后在频域上进行处理,还是直接在时域上处理比较好?后者的好处是端到端训练,不用考虑频域方法做傅立叶反变换时相位的问题。
第二个问题是对于语音增强任务,应该使用真实噪声加噪还是使用人工仿真生成的噪声进行降噪?
感谢文仕学此次的分享以及对文本的指正,也欢迎大家关注 AI 研习社未来的更多分享活动!
如何用 MOOC 组合掌握机器学习?
相关推荐
- a41415com论坛随性acg,www.414ai.com
-
1、2025年1月16日 艾斯玛特电子分析天平IS414AI配备www.414ai.com了高度集成www.414ai.com的称重传感器www.414ai.com,具有自动内部校准功能www.41...
-
- 6.78ai(678爱情暗示啥意思)
-
下载地图在网络上找到Dota678AI地图的下载链接6.78ai,并下载到本地安装地图将下载的地图文件放入Dota2的“CustomMaps”文件夹中具体路径为CProgramFilesx86Steamsteamappscomm...
-
2025-07-30 07:30 DouJia
-
- 关于www.252ai.com的信息
-
https://ww.zz6789.com/https://sw.zxxk.com/https://www.0206.cc/https://www.eol.cn/复制网址请用安全的浏览器打开www.252ai.com!(注意打开的时候请关...
-
2025-07-30 00:30 DouJia
-
- 灵境AI(灵境app下载官网)
-
花友们种植郁金香是为了它极强的观赏性灵境AI,可是有的时候却会发生鳞茎腐烂等情况,导致原本应当花开艳丽的郁金香逐渐枯萎,那么郁金香腐烂了怎么办呢?如何管理郁金香种球最好呢?下面醉花网小编就与大家一起来了解一下吧灵境AI! 郁金香鳞茎掘...
-
2025-07-29 21:30 DouJia
-
- dotaapk,dota6.77ai下载
-
播小方盒子安装vst全聚合教程 高高兴兴抢购到dota6.77ai下载了快播小方盒子dota6.77ai下载,这可把宅男们高兴坏了。各种动作片花俏的招式看得眼花缭乱了dota6.77ai下载,打算看看新闻联播感受全国人民幸福的生活却傻...
-
2025-07-29 14:30 DouJia
-
- 人工智能培训班,关玥人工智能培训班
-
人工智能前沿讲习班由中国人工智能学会(CAAI)主办人工智能培训班,是为促进人工智能领域人工智能培训班的青年从业者更好地人工智能培训班了解本领域学科前沿,加强学术交流,开阔视野以及提高技术水平而设立的学术性活动。 讲习班将邀请相关领...
-
2025-07-29 07:30 DouJia
- ai蜜桃(AI蜜桃香蕉苹果梨可不可以放在一起给宝宝蒸着吃)
-
ai蜜桃你喜欢那张...
-
- python人工智能100例子,python人工智能
-
下一个适合华人的高薪行业是什么python人工智能? 对于就业,很多刚刚走出校门的大学生和新移民都吐槽连连,当然整体的经济环境是造成就业难的一个原因,但不可否认,有些所谓的就业难是因为求职者的技能和社会目前需要的技能不挂钩,所以只能望...
-
2025-07-28 21:30 DouJia
-
- 中国机器人及人工智能大赛是a类吗,中国机器人及人工智能大赛
-
没有电脑中国机器人及人工智能大赛,没有手机的那些年,70,80后的萌爸萌妈们在玩什么? 跳棋 魔方 游戏机而在人工智能被写进政府工作报告的时代,00、10后的萌娃们又在玩什么? 3D打印笔/机 编程 ...
-
2025-07-28 14:30 DouJia
-
- 明星AI换衣替换在线观看(明星ai换衣替换在线观看视频)
-
实现AI换衣功能的软件主要有以下几类社交媒体和短视频应用如抖音明星AI换衣替换在线观看,内置明星AI换衣替换在线观看了多种特效和滤镜,包括简单的AI换衣功能用户可以选择特定的换装特效,将视频中的人物服饰替换为古装动漫角色装等预设样式图像处理...
-
2025-07-28 07:30 DouJia
-
- ai品牌,ai品牌有哪些
-
在AI耳机品牌方面ai品牌,索尼华为JBL小米苹果科大讯飞和Cleer等都是不错的选择索尼的AI智能降噪技术能让ai品牌你在享受音乐的同时ai品牌,隔绝外界的干扰华为的智能耳机则以其出色的智能功能和音质表现受到用户的喜爱JBL作为传奇音响品...
-
2025-07-28 00:30 DouJia
-
- 智能AI助手,智能ai助手怎么使用
-
随着语音助手这个概念渐渐智能AI助手的与AI紧密联系智能AI助手,2017年无疑科技圈智能AI助手的焦点都聚集在智能AI助手了人工智能身上,而目前最常见的载体就是语音交互也就是语音助手,那么全球在这方面的强者,他们之间的比拼又是怎样呢?...
-
2025-07-27 21:30 DouJia
- 会员中心
-
- 百度热搜
- 新浪热搜
- 1 二十届四中全会将于10月在北京召开
- 2 沸 海啸抵达日本:民众挤满屋顶
- 3 新 台风“竹节草”在上海二次登陆
- 4 这些沿海地区注意安全!
- 5 日本海啸 多条抹香鲸集体搁浅
- 6 热 业主曝300多万新房楼梯一踢就碎
- 7 四川攀枝花发现10多株“冥界之花”
- 8 新 特朗普:我只给俄罗斯10天
- 9 女子得荨麻疹能在皮肤划字 医生回应
- 10 张碧晨广州站演唱会开票遇冷
- 最新抖音
-
官方抖音软件下载,抖音app官网免费下载17.81
在现代社会巨大抖音app官网免费下载17.81的竞争压力下抖音app官网免费下载17.81,长时...
抖音充值抖币1:10(抖音充值抖币官网入口)
之前有一篇文章,叫做《被抖音毁掉的年轻人》。大概意思是说,短视频、微博、微信占据了年轻人太多时间...
抖音晨曦姐姐男生照,抖音晨曦姐姐男生照片真实
斗玩网(d.chinaz.com)原创:近日抖音上有一位叫摇呼啦圈的玩家火抖音晨曦姐姐男生照了抖...
抖音名称昵称男生,抖音名称.昵称男
无论是对于已经出生的宝宝抖音名称.昵称男,还是即将出生的宝宝抖音名称.昵称男,对他们而言抖音名称...
抖音头像男士专用2023款励志,抖音头像男士专用2023款
安全目视化管理抖音头像男士专用2023款: 1、安全帽佩戴不规范,都未系好安全帽帽带;...
抖音外卖概念股龙头,抖音外卖概念股
一、投资亮点: 金证股份(600446)是国内最大抖音外卖概念股的金融证券软件企业,公司一...
抖音名字大全男繁体字,2020抖音火爆昵称繁体字男
1、网站的互动性。网站越来越注重网站的互动性抖音名字大全男繁体字了抖音名字大全男繁体字,因为这样...
抖音的晨曦姐姐怎么了,抖音晨曦姐姐到底是男是女
《汉宫春晓图》是中国十大传世名画之一。中国重彩仕女第一长卷。明代仇英作抖音晨曦姐姐到底是男是女,...
- 最新快手
-
快手下载的视频怎么去掉快手号,快手下载视频怎么去掉快手号水印
现在我要给大家介绍这样一款游戏快手下载的视频怎么去掉快手号,这款游戏自从推出就登上了各大平台快手...
快手小游戏破解版游戏大全(快手小游戏破解挂)
快手小游戏破解版游戏大全我的世界中国版红石发射器合成攻略中国版红石发射器怎么合成?红石发射器是...
快手下载最新版本2023红包版,快手下载最新版本2023
第二步快手下载最新版本2023,打开豌豆荚搜索界面搜索“快手”快手下载最新版本2023,然后在搜索结...
快手下载别人作品对方知道吗,快手下载别人作品会不会有提醒
1、1快手下载人家作品知道快手下载别人作品对方知道吗,因为会有下载记录,只要访问别人的主页查看作品的...
下载快手app(下载快手app下载)
打开手机的浏览器下载快手app,进入快手的官方首页在官方首页上,通常会有下载快手APP的链接或按钮点...
快手软件取关(快手软件取关软件)
现在快手软件取关我要给大家介绍这样一款游戏快手软件取关,这款游戏自从推出就登上了各大平台的下载榜...
快手app下载最新版202,下载快手 最新版
快手app下载最新版202我们都知道手机游戏尤其是网络游戏已经大面积的普及到了消费者的生活中来快...
快手市值多少亿2023(快手市值多少亿人民币2023)
1、四财务状况增长表现2023年多数企业实现增长,快手和爱奇艺净利润大幅上升,快手一季度净利润增长...
- 热门关注