Uber发布了Ludwig 0.2音频和语音改进
在Uber的开源和无代码深度学习工具包Ludwig首次亮相大约五个月后,这家骑行公司今天详细介绍了最新版本的改进:Ludwig 0.2。其中包括新工具和50多个错误修复,以及Comet.ml集成,添加了Google的BERT自然语言模型,以及对新功能类型的支持,包括音频,语音,地理空间,时间和日期。
“Ludwig模型定义文件的简单性和声明性使得机器学习初学者能够非常快速地提高工作效率,同时其灵活性和可扩展性使得机器学习专家能够将其用于定制模型的新任务,”Uber工程师Piero Molino,Yaroslav写道Dudin和Sai Sumanth Miryala。“更广泛的开源社区成员提供了许多新功能,以增强路德维希的能力。”
支持Ludwig 0.2 for Comet.ml,一个便于AI代码和实验管理的实用程序,可以从统一的仪表板自动监控模型。通过可自定义的面板,用户可以比较实验设计,捕获模型配置更改,并记录测试结果和详细信息,同时图表跟踪实时培训性能。
至于BERT,一种能够快速训练相对较小的数据集以获得尖端性能的语言模型,它现在包含在Ludwig的可用编码器列表中。博客作者指出,它可以作为预训练或转移学习的一种形式,用于训练模型来执行基于文本的任务,如分类或生成。
在其他新闻中,Ludwig现在提供音频和语音功能 - 它们支持扬声器识别和自动语音识别等应用。优步的H3--一种空间索引系统,有助于识别不同粒度级别的卫星图像区域 - 现在得到支持,使开发人员能够直接将这些数据提供给Ludwig模型。在日期和时间戳方面,Ludwig现在允许用户输入在特定日期或特定时间发生的事件,以获得有关它们的预测。
Ludwig 0.2还介绍了将训练有素的AI模型提供到平台核心库中的能力,它还增加了语,西班牙语,德语,法语,葡萄牙语,荷兰语,希腊语和多语言标记化,这是最新版本的开源spaCY NLP库。由于为预处理和预测添加了参数,图像和数字功能得到了改进,导入性能平均提高了50%。
路德维希开发团队的工作还没有完成。在接下来的几个月里,他们计划对Ludwig的预处理管道进行大修,以支持Uber的深度学习开源数据访问库Petastorm,以允许它训练存储在Hadoop或Amazon S3中的PB级数据。他们还打算探索一种优化策略,该策略可以用更少的工作量获得性能更好的模型,并为所有要素类型添加尖端编码器,包括多变量时间序列,向量和点云。最后,他们说他们正在努力将Ludwig与Snorkel集成,Snorkel是一个以编程方式构建和管理培训数据集的系统。
Ludwig 0.2首次亮相是在2017年Uber的Pyro发布之后,这是一种基于Facebook的PyTorch机器学习框架的深度概率编程语言。随之而来的是无代码人工智能开发工具 - 比如百度的EZDL和微软的AI模型构建者- 继续获得动力。