谷歌新的数据回声技术加速了人工智能培训
像Google的Tensor Processing Units和Intel的Nervana神经网络处理器这样的AI加速器硬件有望加速AI模型培训,但由于芯片的架构方式,培训管道的早期阶段(如数据预处理)不会受益于提升。这就是谷歌AI研究部Google Brain的科学家在论文中提出一种称为“数据回声”的技术,他们说这种技术通过重用这些阶段的中间输出来减少早期管道阶段所使用的计算。
根据研究人员的说法,性能最佳的数据回应算法可以使用较少的上游处理来匹配基线的预测性能,在某些情况下可以补偿输入流量的四倍。
“训练神经网络不仅需要在加速器上运行良好的操作,因此我们不能单独依靠加速器改进来在所有情况下保持加速,”共同作者观察到。“训练计划可能需要读取和解压缩训练数据,对其进行混洗,批量处理,甚至对其进行转换或扩充。这些步骤可以运行多个系统组件,包括CPU,磁盘,网络带宽和内存带宽。“
在典型的训练管道中,AI系统首先读取和解码输入数据,然后对数据进行混洗,应用一组变换来扩充数据,然后再将示例收集到批处理中并迭代更新参数以减少错误。研究人员的数据回应方法在管道中插入一个阶段,在参数更新之前重复前一阶段的输出数据,理论上回收空闲计算容量。
在实验中,团队使用在开源数据集上训练的AI模型评估了两个语言建模任务,两个图像分类任务和一个对象检测任务的数据回应。他们将培训时间测量为达到目标指标所需的“新鲜”培训示例的数量,并调查数据回显是否可以减少所需示例的数量。
共同作者报告说,除了一个案例外,数据回应所需的新鲜实例比基线和减少的培训要少。此外,他们注意到早期的回声被插入到管道中 - 即,在数据增加之前与批处理之后相比 - 需要的新鲜示例越少,并且对于更大的批量大小,回声偶尔表现更好。
“所有数据回显变体至少实现了与两个任务基线相同的性能...... [这是]当训练管道在其中一个上游阶段遇到瓶颈时提高硬件利用率的简单策略,”该团队写道。“数据回显是优化培训管道或添加额外工作人员以执行上游数据处理的有效替代方案,这可能并非总是可行或不可取。”