CMU用重构预训练交出134高分,大幅超越GPT3

2022-06-23 16:07:15 文章来源:网络
  我们存储数据的方式正在改变,从生物神经网络到人工神经网络。事实上,最常见的情况是使用大脑存储数据。随着今天可用数据的不断增长,人们正在寻找不同的外部设备来存储数据,如硬盘驱动器或云存储。随着深度学习技术的兴起,出现了另很有前途的存储技术,即使用人工神经网络将信息存储在数据中。研究人员认为,数据存储的最终目标是更好地服务于人类生活,数据访问和存储的方式同样重要。然而,数据的存储和访问方式存在差异。历史上,人们一直在试图弥合这一差距,以便更好地利用世界上存在的信息。如图3所示:
  就生物神经网络(如人脑)而言,人类在很小的时候就接受了课程(即知识)教育,因此他们可以提取特定的数据来应对复杂多变的生活对于外部设备存储,人们通常按照一定的模式(如表格)来构建数据,然后使用特殊的语言(如SQL)从数据库中有效地检索到所需的信息为了基于人工神经网络的存储,研究人员使用自监督学习存储来自大型语料库的数据(即预训练),然后将网络用于各种下游任务(如情感分类)的研究人员提出了新的方法来访问包含各种类型信息的数据,可以将其作为预训练信号来指导模型参数优化。研究以信号为单位对数据进行结构化表示。这类似于使用数据库存储数据的场景:首先,将它们构建成表格或JSON格式,以便通过特殊语言(如SQL)准确检索所需信息。此外,该研究认为,世界上各种数据中都存在大量有价值的信号,而不仅仅是在手动管理的监控数据集中。研究人员需要做的是(a)识别数据(b)用统一的语言重新组织数据(c)将它们集成并存储在训练前的语言模型中。本研究将这种学习范式称为重组前训练(RST)。研究人员将这一过程比作“在矿井中寻宝”。不同的数据源,如维基百科,相当于富含宝石的矿山。它们包含丰富的信息,例如来自超链接的命名实体,可以为模型预训练提供信号。一个好的预训练模型(PLM)应该清楚地了解数据中各种信号的组成,以便根据下游任务的不同需求提供准确的信息论文地址:
  预训练语言模型的寻宝
  本研究提出了新的自然语言处理任务学习范式,即rst。这种范式重新强调了数据的作用,并将模型预训练和下游任务的微调视为数据存储和访问过程。在此基础上,本研究实现了一个简单的原则,即一个好的存储机制不仅要有缓存大量数据的能力,还要考虑访问的便利性在克服了一些工程挑战后,本研究通过对重构数据(由各种有价值的信息而不是原始数据组成)进行预训练来实现这一点。实验表明,rst模型不仅对来自各种NLP任务(如分类、信息提取、事实检索、文本生成等)的52/55个流行数据集的性能明显优于现有的最佳系统(如t0),而且不需要对下游任务进行微调。在中国最权威的高考中也取得了优异的成绩,每年有数百万学生参加高考具体来说,本文提出的高考AI(Qin)比学生的平均分数高40分,比带有1/16参数的gpt3高15分。在2018年的英语考试中,秦特长获得了138.5分(满分150分)的高分。
上一篇:扭曲时空以帮助 WFIRST 寻找系外行星

下一篇:最后一页
本站所刊登的各种资讯﹑信息和各种专题专栏资料,均为鸭暖乡热线版权所有,未经协议授权禁止下载使用。

Copyright © 2000-2020 All Rights Reserved