多年来,研发人员一直在搜寻将声音分解成基本成分的方法。19世纪20年代,法国研发员约瑟夫·傅立叶(Joseph Fourier)提出,任何信号,包括声音,都可以用足够数量的正弦波来构建。这些波听起来像哨声,每个都有自己的频率、清水平和开端时光,是声音的基本组成部分。
然而,一些声音,如长笛和人的呼吸声,可能需要数百甚至数千个正弦来精确地复制原始波形。这是因为这些声音包含一个不太和谐,更嘈杂的结构,其中所有频率同时显现。一种解决方案是将声音分为正弦和噪声两类分量,以较少数量的呼啸正弦波,并结合可变噪声或嘶嘶声来完成复制。
即使这个“完全的”双分量声音模型在声音事件开端的平滑方面也存在问题,例如声音中的辅音或乐曲中的鼓声。第三种成分,称为瞬态,在2000年左右被引入,以协助模拟这种声音的清晰度。瞬态听起来就像咔哒声。从那时起,声音通常被分为三个部分:正弦、噪声和瞬态。

目前,阿尔托大学声学试验室(Aalto University Acoustics Lab)的研发人员利用听觉感知、模糊理性和完美重建的思想,对正弦、噪声和瞬态的三分量模型进行了改善。他们的研发发表在《音频工程学会期刊》(Audio Engineering Society)上。
博士研发员Leonardo Fierro和Vesa教授Välimäki意识到人们听到差异成分和差异的口哨声,咔嚓声和嘶嘶声的方式很重要。如果咔哒声快速传播开来,听起来更嘈杂;相比之下,专注于非常简短的声音可能会导致音调的亏损。
这种来自听觉感知的洞察力与模糊理性相结合:在任何时刻,声音的一部分可以属于三种正弦、瞬态或噪声中的任何一类,而不仅仅是其中之一。为了完美的重建,Fierro完善了声音的分解方式。
在增强方法中,正弦和瞬态是声音的两种相反的特征,不许可声音同时属于这两类。然而,两种相反的成分类型中的任何一种仍然可以与噪声同时发生。因此,模糊理性的思想以一种有限的方式存在。噪音是正弦和瞬态之间的模糊联系,描述了容易的咔哒声和哨声无法捕捉到的声音的所有细微差别。Fierro:“这就像找到一块缺失的拼图,把以前不匹配的两个部分连接起来。”
在听力测试中,将这种增强的分解方法与以前的方法进行了对比。11位有经历的听众分别被要求听几段短乐曲,并使用差异的方法从中提取成分。
根据听众的评分,这种分解大多数声音的新方法脱颖而出。只有在乐曲声音中显现强烈的颤音时,例如在歌声或小提琴中,以前的一些方法更优越。
新分解方法的一个测试用例是声音的时光尺度修改,特别是乐曲的慢化。在一次偏好听力测试中,该新方法与之前的方法进行了对比,后者在几年前的一项对比研发中被选为最佳学术技术。菲耶罗的新方法再次取得了明显的获胜。
Välimäki教授说:“新的声音分解方法为声音处理开辟了许多令人兴奋的可能性。”“声音的慢化是我们目前的主要兴趣。令人惊讶的是,例如在体育消息中,慢动作短片总是无声的。原因可能是当前慢速音频工具的音质不够好。我们已经开端开发更好的时光尺度修改方法,它使用深度神经互联网来协助拉伸某些组件。”
高品质的声音分解也使新型的乐曲混音技术成为可能。其中之一导致无失真的动态范围压缩。也就是说,瞬态分量通常包含声音波形中最大的峰值,因此容易地降低瞬态分量的电平并将其与其他分量混合可以限制音频的峰值·。
著作权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供资讯存储宇宙劳务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违规违规的内容, 请发送电邮至1393616908@qq.com 举报,一经查实,本站将立刻删除。