百度文库ai生成ppt保存在哪里,百度文库ai生成ppt

DouJia 2025-02-20 16:30 217 浏览

　　基于深度学习的有监督语音分离在学术界和工业界越来越受到关注百度文库ai生成ppt，也是深度学习在语音领域的应用中重要的一部分。作为雷锋网 AI 研习社近期组织的一系列语音领域应用的分享会之一，本次百度文库ai生成ppt我们请到了来自搜狗的研究员文仕学对语音分离方面主要的研究课题和相关方法做一些介绍。

　　? 观看完整回顾大概需要31分钟

　　文仕学，过去学物理，后来学 EE，现在从事 Deep Learning 工作，未来投身 AI 和 CM 事业。他的研究兴趣在于语音信号处理和深度学习。在加入搜狗之前，曾在中国科学技术大学学习，在该领域的期刊和会议上发表了若干篇论文。现在在搜狗语音团队任副研究员。

　　AI研习社将本次分享的内容整理如下。

　　分享主题：基于深度学习的语音分离

　　文仕学首先介绍了 “语音分离”（Speech Separation）是怎么样的一种任务。这个问题来自于 “鸡尾酒会问题”，采集的音频信号中除了主说话人之外，还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。

　　根据干扰的不同，语音分离任务可以分为三类：

当干扰为噪声信号时，可以称为 “语音增强”（Speech Enhancement）

当干扰为其他说话人时，可以称为 “多说话人分离”（Speaker Separation）

当干扰为目标说话人自己声音的反射波时，可以称为 “解混响”（De-reverberation）

　　由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰，不做语音分离、直接进行识别的话，会影响到识别的准确率。因此在语音识别的前端加上语音分离技术，把目标说话人的声音和其它干扰分开就可以提高语音识别系统的鲁棒性，这从而也成为现代语音识别系统中不可或缺的一环。

　　基于深度学习的语音分离，主要是用基于深度学习的方法，从训练数据中学习语音、说话人和噪音的特征，从而实现语音分离的目标。

　　这次分享的内容有以下这 5 个部分：分离使用的模型、训练目标的设置、训练数据的生成、单通道语音分离算法的介绍和讨论。

　　基于深度学习的语音分离方法使用的模型

　　第一类模型是多层感知机，DNN，可以先做 RBM 预训练，再做微调（fine-tune）；不过文仕学介绍，他们团队通过实验发现，在大数据集上不需要预训练也可以收敛。

　　LSTM（长短时记忆网络）的方法中把语音作为一个随时间变化的序列进行建模，比较适合语音数据；CNN（卷积神经网络）通过共享权值，可以在减少训练参数的同时获得比全连接的 DNN 更好的性能。

　　近些年也有人用 GAN（对抗性生成式网络）做语音增强。模型中通常会把生成器设置为全部是卷积层，为了减少训练参数从而缩短训练时间；判别器负责向生成器提供生成数据的真伪信息，帮助生成器向着 “生成干净声音” 的方向微调。

　　训练目标的设置

　　训练目标包括两类，一类是基于 Mask 的方法，另一类是基于频谱映射的方法。

　　基于 Mask 的方法又可以分为几类

“理想二值掩蔽”（Ideal Binary Mask）中的分离任务就成为了一个二分类问题。这类方法根据听觉感知特性，把音频信号分成不同的子带，根据每个时频单元上的信噪比，把对应的时频单元的能量设为 0（噪音占主导的情况下）或者保持原样（目标语音占主导的情况下）。

第二类基于 Mask 的方法是 IRM（Ideal Ratio Mask），它同样对每个时频单元进行计算，但不同于 IBM 的 “非零即一”，IRM 中会计算语音信号和噪音之间的能量比，得到介于 0 到 1 之间的一个数，然后据此改变时频单元的能量大小。IRM 是对 IBM 的演进，反映了各个时频单元上对噪声的抑制程度，可以进一步提高分离后语音的质量和可懂度。

TBM 与 IRM 类似，但不是对每个时频单元计算其中语音和噪声的信噪比，而是计算其中语音和一个固定噪声的信噪比

SMM 是 IRM 在幅度上的一种形式

PSM 中加入了干净语音和带噪语音中的相位差信息，有更高的自由度

　　虽然基于 Mask 的方法有这么多，但最常用的还是开头的 IBM 和 IRM 两种

　　如果使用频谱映射，分离问题就成为了一个回归问题。

　　频谱映射可以使用幅度谱、功率谱、梅尔谱以及 Gammatone 功率谱。Gammatone 是模拟人耳耳蜗滤波后的特征。为了压缩参数的动态范围以及考虑人耳的听觉效应，通常还会加上对数操作，比如对数功率谱。

　　基于频谱映射的方法，是让模型通过有监督学习，自己学习有干扰的频谱到无干扰的频谱（干净语音）之间的映射关系；模型可以是 DNN、CNN、LSTM 甚至 GAN。

　　这一页是使用相同的 DNN 模型、相同的输入特征、不同的训练目标得到的结果。

　　左边的 STOI 指语音的可懂度，得分在 0 到 1 之间，越高越好；右边的 PESQ 是语音的听觉质量、听感，范围为 - 0.5 到 4.5，也是越高越好。

　　基于 Mask 的方法 STOI 表现较好，原因是有共振峰的能量得到了较好的保留，而相邻共振峰之间波谷处的声音虽然失真较大，但人耳对这类失真并不敏感；两类方法在 PESQ 中表现相当。

　　训练数据的生成

　　针对语音分离中的语音增强任务，首先可以通过人为加噪的方法生成带噪语音和干净语音对，分别作为输入和输出（有标注数据），对有监督学习模型进行训练。加入的噪声可以是各种收集到的真实世界中的噪声。

　　不过收集噪声需要成本，而且人工能够收集到的噪音总是有限的，最好能够有一套完备、合理的方案，用仿真的方式生成任意需要的噪声。在今年的 MLSP（信号处理机器学习）会议上，搜狗语音团队就发表了一项关于噪声基的工作，通过构造一个噪声基模型，在不使用任何真实噪音数据的情况下，生成带噪语音对语音增强模型进行训练，达到了与使用 50 种真实噪音的情况下相当的性能（下图）。

百度文库ai生成ppt保存在哪里,百度文库ai生成ppt

　　如果将这 50 种真实噪声和噪声基产生的数据混合在一起，性能可以比单独使用真实噪音的情况得到进一步提高。这也说明噪声基生成的噪声和真实噪声数据之间有着互补性，在实际应用中也可以解开一些真实噪声数据不足带来的限制。

　　单通道语音分离算法

　　如开头所说，语音分离任务可以分为三类，语音增强、多说话人分离和解混响。不同任务的处理方法也有所不同。

　　对于语音增强，基于 Mask 的方法首先进行耳蜗滤波，然后特征提取、时频单元分类、二值掩蔽、后处理，就可以得到增强后的语音了。

　　语音增强的另一类基于频谱映射的方法中，先特征提取，用深度神经网络学习带噪语音和干净语音的对数功率谱之间映射关系，再加上波形重建，就可以得到增强后的语音。

　　基于有监督学习的算法都存在推广性（generalization）的问题，语音增强这里也不例外。针对噪音类型、信噪比和说话人的推广性都还有提升的空间。

　　对于解混响，同样可以使用基于频谱映射的方法。解混响中也需要生成训练数据，但不同于带噪语音生成时做时域的相加，带混响的语音是在时域上进行卷积；同样都把干净语音作为带标注数据。

　　在基于频谱映射的方法基础上还可以加以改进。对于不同的混响时间，深度神经网络需要学习的时间窗口长度是不一样的，因而改进方法中加入了告知混响时间的功能，根据帧移 R 和扩帧数目 N 提特征后解码，可以获得更好的解混响效果。

　　多说话人分离分为三种情况

目标说话人和干扰说话人都固定，Speaker dependent，有监督分离

目标说话人固定，训练阶段和测试阶段的干扰说话人可变，Target dependent，半监督分离

目标说话人和干扰说话人都可变，Speaker independent，无监督分离

百度文库ai生成ppt保存在哪里,百度文库ai生成ppt

　　对于有监督和半监督分离，可以使用基于频谱映射的方法，与前面使用基于频谱映射的方法做语音增强类似。

　　对于无监督分类，有无监督聚类、深度聚类以及最近的序列不变训练（PIT）方法。PIT 方法的核心是红框中标出的部分，在误差回传的时候，分别计算输出序列和标注序列间各种组合的均方误差，然后从这些均方误差中找到最小的那个作为回传误差，也就是根据自动找到的声源间的最佳匹配进行优化，避免出现序列模糊的问题。

　　讨论两个问题

　　最后，文仕学给大家留了两个思考题，欢迎大家在评论区给出自己的见解。

第一个问题是语音分离任务中，是按传统思路先变换到频域，然后在频域上进行处理，还是直接在时域上处理比较好？后者的好处是端到端训练，不用考虑频域方法做傅立叶反变换时相位的问题。

第二个问题是对于语音增强任务，应该使用真实噪声加噪还是使用人工仿真生成的噪声进行降噪？

　　感谢文仕学此次的分享以及对文本的指正，也欢迎大家关注 AI 研习社未来的更多分享活动！

　　如何用 MOOC 组合掌握机器学习？

在哪里百度

上一篇：下载音乐歌曲免费下载,下载
下一篇：百度爱采购收费没效果怎么退费怎么法官,百度爱采购怎么收费

相关推荐

8888ai.com:未来科技的门户还是幻象?，: 在科技日新月异的今天，每一个新出现的科技名词都可能代表着未来的一个趋势。最近，8888ai.com作为一个新兴的科技概念，引发了广泛的关注和讨论。本文将探讨这个主题，试图揭开8888ai.com的神秘...

由于我是一个大型语言模型，我无法直接访问互联网，包括[www.36ai.com]这个网站。因此，我将创造一个虚构的文章，假设它是关于一个虚构的科技网站，它可能提供与人工智能相关的服务和内容。请注意，以下内容是虚构的，仅用于展示目的。，: 由于我是一个大型语言模型，我无法直接访问互联网，包括[www.36ai.com]这个网站。因此，我将创造一个虚构的文章，假设它是关于一个虚构的科技网站，它可能提供与人工智能相关的服务和内容。请注意，以...

探索真三国无双AI地图的奥秘：策略与技术的交汇，真三国无双ai地图攻略: 在电子游戏的世界里，策略游戏一直占据着一席之地。其中，《真三国无双》系列凭借其独特的战斗风格和历史背景，吸引了无数玩家。而随着人工智能（AI）技术的发展，AI地图在《真三国无双》中的应用，为玩家带来了...

魔兽真三国无双AI地图下载：游戏新纪元的开启，魔兽真三国无双ai地图下载不了: 在电子游戏的浩瀚宇宙中，魔兽争霸3及其衍生的地图编辑器一直是游戏创新的沃土。特别是“真三国无双”这一流行模式，它以其独特的策略性和深度吸引了无数玩家。随着人工智能技术的融入，真三国无双AI地图的出现，...

探索真三AI图：技术与艺术的交汇，真三ar视频解说: 在数字艺术和人工智能的交叉路口，真三AI图正逐渐成为人们关注的焦点。它不仅仅是一张图，而是一场关于技术、艺术和人类创造力的讨论。在这篇文章中，我们将深入探讨真三AI图背后的技术原理、艺术价值以及它对未...

探索人工智能的未来：6.74cAI的崛起，: 在当今这个快速发展的科技时代，人工智能（AI）已经成为一个不可忽视的力量。从智能手机到自动驾驶汽车，从医疗诊断到金融交易，AI技术正在逐步渗透到我们生活的方方面面。而在众多AI研究领域中，6.74c...

由于我是一个大型语言模型，我无法直接访问互联网，包括网站[www.909ai.com]。但是，我可以根据您的要求，创建一个虚构的文章，围绕一个假想的网站，它可能提供人工智能相关的服务。请注意，以下内容是完全虚构的，仅用于示例。，: 由于我是一个大型语言模型，我无法直接访问互联网，包括网站[www.909ai.com]。但是，我可以根据您的要求，创建一个虚构的文章，围绕一个假想的网站，它可能提供人工智能相关的服务。请注意，以下内容...

探索MIMIAI：未来科技的前沿，秘密爱泰剧高清免费资源: 在科技日新月异的今天，人工智能（AI）已经成为推动世界进步的重要力量。其中，MIMIAI作为中国科技公司MiniMax自主研发的大型语言模型，不仅代表了国内人工智能研究的新高度，也预示着未来科技发...

人工智能春联：传统与科技的完美融合，ai春联机官网入口: 随着人工智能技术的飞速发展，我们已经能够见证科技在各个领域的渗透和创新。春联，作为中国传统节日文化的重要组成部分，也开始与人工智能相结合，创造出了一种全新的文化现象——AI春联。AI春联不仅仅是一种技...

由于我无法访问外部网站或内容，包括[www.116ai.com]，因此我将无法提供关于该特定网站的直接内容或评论。不过，我可以为你创作一篇关于“人工智能技术在现代生活中的应用”的文章。请查看以下内容：，: 由于我无法访问外部网站或内容，包括[www.116ai.com]，因此我将无法提供关于该特定网站的直接内容或评论。不过，我可以为你创作一篇关于“人工智能技术在现代生活中的应用”的文章。请查看以下内容：...

探索3333ai：未来科技的前沿还是道德的边缘？，3333爱情数字含义: 随着科技的飞速发展，人工智能（AI）已经成为我们生活中的一个重要组成部分。而3333ai，这个看似神秘的术语，正逐渐成为人们讨论的焦点。它究竟是未来科技的前沿，还是我们即将面临的道德边缘？本文将带您一...

AI俱乐部：未来科技交流的新高地，AI俱乐部星球: 在这个信息爆炸的时代，人工智能（AI）已经不再是科幻小说中的概念，而是实实在在地融入了我们的生活。随着技术的不断进步，AI俱乐部应运而生，成为科技爱好者、开发者和学者交流思想、分享知识、合作创新的重要...

会员中心: 登录注册

百度热搜
新浪热搜

最新抖音

« 2026年7月 »
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

最新快手

百度文库ai生成ppt保存在哪里,百度文库ai生成ppt

相关推荐

抖音老板是谁,抖音老板是谁个人资料

抖音图片(抖音图片背景)

富二代f2抖音app下载地址,抖音app官网下载

抖音一发就爆火的文案,抖音一发就爆火的文案怎么写

抖音创作者服务平台下载安装,抖音创作者服务平台

抖音充值官方充值入口,抖音充值官方充值入口1元10币是多少

最近抖音上的456是什么意思,抖音里的456是什么意思

抖音免费下载(抖音免费下载安装 app)

抖音在线挖玉：短视频里的宝石探秘之旅，抖音挖矿赚钱app下载

抖音短视频：现代人的快乐源泉，我想看抖音里的搞笑片

探索抖音在线观看的无限世界，抖音在线网址打开

快手下载的视频怎么去掉快手号,快手下载视频怎么去掉快手号水印

快手小游戏破解版游戏大全(快手小游戏破解挂)

快手下载最新版本2023红包版,快手下载最新版本2023

快手下载别人作品对方知道吗,快手下载别人作品会不会有提醒

下载快手app(下载快手app下载)