比OpenAI的Whisper快50%，最新开源语音模型

2024-08-04 09:00:11

导读生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa，推理效率比OpenAI开源的Whisper快50%。aiOla在Whisper的架构之上进行了修...

生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa，推理效率比OpenAI开源的Whisper快50%。

aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法，允许模型在每个推理步骤中预测多个token，同时不会损失性能和识别准确率。

开源地址:https://github.com/aiola-lab/whisper-medusa

huggingface:https://huggingface.co/aiola/whisper-medusa-v1

传统的Transformer架构在生成序列时，是遵循逐个token的顺序预测过程。这意味着在生成新序列时，模型每次只能预测下一个token，然后将这个预测的token加入到序列中，再基于更新后的序列预测下一个token。

这虽然能够确保生成序列的连贯性和上下文相关性，但也有一个非常明显的缺陷——极大限制了模型的推理效率。

此外，由于每次只能处理一个 token ，模型难以捕捉到数据中的长程依赖关系，可能会忽略一些重要的全局信息，从而影响模型的整体性能和准确性。

而Whisper-Medusa使用了10头的多注意力机制，能各自独立地计算注意力分布并行地处理输入，然后将各自的输出通过拼接的方式组合起来，形成一个多维度的向量。

随后向量被送入全连接层进行进一步的处理，以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率，还增加了模型的表达能力，因为每个注意力头都可以专注于序列的不同子集，捕捉到更丰富的上下文信息。

为了使多头注意力机制在Whisper-Medusa模型中更高效地运行，aiOla采用了弱监督的方法，在训练过程中冻结了原Whisper模型的主要组件，使用该模型生成的音频转录作为伪标签来训练额外的token预测模块。

使得模型即便没有大量手动人工标注数据的情况下，依然能够学习到有效的语音识别模式。

此外在训练过程中，Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面，模型需要确保预测的token序列与实际转录尽可能一致;

另一方面，通过多头注意力机制的并行预测，模型被鼓励在保证精度的前提下，尽可能地加快预测效率。

aiOla使用了学习率调度、梯度裁剪、正则化等多种方法，确保模型在训练过程中能够稳定收敛，同时避免过拟合性。

业务场景方面， Whisper-Medusa能理解100多种语言，用户可以开发音频转录、识别等多种应用，适用于翻译、金融、旅游、物流、仓储等行业。

aiOla表示，未来会将Whisper-Medusa的多注意力机制扩展至20个头，其推理效率将再次获得大幅度提升。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:台铃电动车王一博同款明星产品“苍穹”遭抄袭官方声明：立即停止侵权

下一篇:最后一页

猜你喜欢

卢伟冰：Redmi暂时不会出折叠屏手机

丢一件、赔十倍最高赔百万！京东快递国际最快3天到达巴黎

格力发布全新一代火凤凰冷暖机：夏季空调、冬季地暖

极氪汽车在新加坡正式上市，极氪X已开售

中石化资本战略领投科润新材料C+轮融资

珠海机场7月运送旅客120.6万人次，创单月客流新高

ARC'TERYX始祖鸟Walk Gently系列即将在中国上市

41.9℃刷新纪录，杭州迎有气象记录以来最热一天

网易天成宠粮工厂正式启动

宁德时代与峰飞航空签署数亿美元战略投资与合作协议

翼龙无人机飞赴现场执行康定山洪灾害应对工作

上海发布暴雨蓝色预警

最新文章

比OpenAI的Whisper快50%，最新开源语音模型

混双颁奖典礼刘国梁让孙颖莎转过来拍照大喊“莎莎把我俩给拍上”！！

DNF洗号账号还能用吗 dnf洗号

q宠企鹅 q宠保姆

呐喊的作者是谁啊（呐）

令人发指的英文（令人发指）

qq飞车宙斯翅膀怎么得（qq飞车宙斯羽翼）

郡主是皇上的什么人（郡主是什么意思）

怎么去除下巴赘肉？多种方法助你告别双下巴

小姑子生日送什么礼物好？精选推荐

中午吃什么饭营养高中午吃什么饭更营养

鞠婧祎的白蛇传怎么下线了白蛇传鞠婧祎开播时间

身份证男女看第几位数身份证号男女看几位

空付是什么意思（空付一书扎打一地名）

教练被网暴!张雨霏：再骂教练要下场打人了网友质疑教练能力！！

10岁儿童送什么礼物好？礼物推荐指南

记者谈女篮：大赛中这样失利最糟糕，信心与体能受挫

王者荣耀梦魇是什么装备在哪里王者荣耀梦魇是什么装备

龙腾卡是哪个银行的怎么办理怎样办理龙腾卡

猫饭怎么做最好吃又简单（猫饭怎么做）

综合头条

比OpenAI的Whisper快50%，最新开源语音模型

本周【综合头条】阅读排行

本周热门推荐阅读

第三代手机图片第三代手机

张雨霏哭了摘铜后一幕冲...

南无阿弥陀佛什么意思最...

mf72热敏电阻用法 mf72...

关于诗的手抄小报关于...

“国会山股神”再出手：...

西葫芦鸡蛋的饺子怎么做...

覃海洋说特别想赢没调整...

看菜吃饭量体裁衣打三个...

计量大学全国排名（计县）

一束微光渐斑斓的意思（...

俄罗斯妈妈女主角还演过什么

含闻字的词语有哪些含...

戆字可以组啥词旬字可...

哪家银行房屋贷款容易通...