“GPT

凤凰网   2023-06-13 21:53:36

1966年,在由Michael Keaton主演的科幻喜剧电影《丈夫一箩筐》(Multiplicity)中,剧中主角 Doug Kinney 在 Leeds 博士的帮助下成功克隆了自己,随后又制作了“克隆人的克隆人”,其结果是,后代克隆人的智力水平均呈现出了指数级下降,愚蠢程度不断增加

图|《丈夫一箩筐》海报


(资料图片)

放眼当下,以 ChatGPT 为代表的大型语言模型(LLMs),在一定程度上也成为了人类智力的克隆产物。而数据作为模型性能和泛化能力的重要基础之一,会直接影响这些“克隆人”的智能水平。

如我们所知,用于训练 LLMs 和其他支撑 ChatGPT、Stable Diffusion 和 Midjourney 等产品的 Transformer 模型的数据,最初都来自于人类的资源,如书籍、文章、照片等。而这些都是在没有人工智能(AI)帮助的情况下创造出来的。

未来,随着 AI 生成的数据越来越多,大模型训练又将如何展开?当 AI 只能用自己生成的数据来训练自己时,又会怎样?

近日,牛津大学、剑桥大学的研究人员及其合作者对这一问题进行了研究,并将研究成果论文发表在了预印本网站 arXiv 上。

论文链接: https://arxiv.org/abs/2305.17493v2

他们通过研究文本到文本和图像到图像 AI 生成模型的概率分布,得出了这样一个结论:

“模型在训练中使用(其他)模型生成的内容,会出现不可逆转的缺陷。

即“模型崩溃”(Model Collapse)。

什么是模型崩溃?

本质上,当 AI 大模型生成的数据最终污染了后续模型的训练集时,就会发生“模型崩溃”。

论文中写道,“模型崩溃指的是一个退化的学习过程,在这个过程中,随着时间的推移,模型开始遗忘不可能发生的事件,因为模型被它自己对现实的投射所毒化。”

一个假设的场景更有助于理解这一问题。机器学习(ML)模型在包含 100 只猫的图片的数据集上进行训练——其中 10 只猫的毛色为蓝色,90 只猫的毛色为黄色。该模型了解到黄猫更普遍,但也表示蓝猫比实际情况偏黄一点,当被要求生成新数据时,会返回一些代表“绿毛色的猫”的结果。随着时间的推移,蓝色毛色的初始特征会在连续的训练周期中逐渐消失,从逐渐变成绿色,最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失,就是“模型崩溃”。

论文中还强调,还有许多其他方面会导致更严重的影响,比如基于性别、种族或其他敏感属性的歧视,特别是如果生成式 AI 随着时间的推移学会在其反应中产生一个种族,而“忘记”他人的存在。

重要的是要注意,这种现象不同于“灾难性遗忘”(catastrophic forgetting),模型只是丢失以前学到的信息,相比之下,“模型崩溃”涉及模型根据它们强化的信念误解现实。

此外,研究人员表示,即使在训练后代模型时使用的人类自身创作数据占比依然有 10%,“模型崩溃也还会发生,只是不会那么快。”

可以避免吗?

幸运的是,有一些方法可以避免模型崩溃,即使是对于当前的 Transformers 和 LLMs 而言。

在论文中,为避免响应质量下降,并减少 AI 模型中不需要的错误或重复,研究人员给出了两种具体方式。

第一种方法是,保留原始的完全或名义上由人类生成的数据集的副本,并避免与 AI 生成的数据相混淆。然后,模型可以根据这些数据定期重新训练,或者从头开始进行一次“完全刷新”。

第二种方法,将新的、清洗过的、人类生成的数据集重新引入到模型训练中。

然而,正如研究人员指出的那样,这需要内容制作者或 AI 公司采用某种大规模的标签机制,或由内容生产商、AI 公司使用更好的方法来区分 AI 和人类生成的内容。“这会增加训练成本,但至少在某种程度上会帮助你抵消模型崩溃。”

另外,研究人员也给出了提示:“为了阻止模型崩溃,我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表。”

但在实践中,这是十分困难的。例如,数据需要被仔细备份,并涵盖所有可能的少数情况。在评估模型的性能时,应该使用模型预期要处理的数据,即使是那些最不可能的数据案例。(请注意,这并不意味着应该对不可能的数据进行过采样,而是应该适当地表示它们。)

未来,人类创造的内容将更有价值?

尽管这一警示似乎对当前的生成式 AI 技术以及寻求通过它获利的公司来说都是令人担忧的,但是从中长期来看,或许能让人类内容创作者看到更多希望。

研究人员表示,在充满 AI 工具及其生成内容的未来世界,人类创造的内容将比今天更有价值——如果只是作为人工智能原始训练数据的来源。

这一发现,对 AI 领域有着重要的意义。研究人员强调,我们通过改进方法来保持生成模型的完整性,以及未经检查的生成过程的风险,并可能指导未来的研究,防止或管理模型崩溃。

“很明显,模型崩溃是 ML 的一个问题,必须采取一些措施来确保生成式 AI 继续得到改进。”

相关新闻

猜你喜欢

“GPT

2023-06-13

上汽集团:计划实施10亿至20亿资金范围的股份回购计划,目标为员工持股计划和股权激励_当前消息

2023-06-13

快看点丨南京的特产都有什么(南京有什么特产可以带回家)

2023-06-13

世界即时看!突发!央行宣布降息!扬州房贷利率有望再降?

2023-06-13

上国际高中好吗 什么是国际高中

2023-06-13

全球新资讯:35000000克=多少吨_350000

2023-06-13

天天讯息:感谢信的模板参考

2023-06-13

当前消息!高凌信息董秘回复: 公司注重股东回报,施行稳健的分红政策

2023-06-13

天天热头条丨兆易创新(603986.SH)2022年度权益分派:每股派0.62元 6月19日股权登记

2023-06-13

农机送检下乡筑牢安全生产防线

2023-06-13

当前看点!宝钛股份:公司作为国产大飞机C919的合格供应商 未来将为公司发展提供良好的市场机遇

2023-06-13

硬核科技论丨从概念到现实 车外后视镜大变革即将到来(上)

2023-06-13

【世界热闻】2023年6月13日6月澳元期货行情 开盘价0.6752

2023-06-13

电子小报模板图片_电子小报模板

2023-06-13

观察:航天发展:仿真公司的模拟仿真业务主要服务特殊领域客户

2023-06-13

四川建筑职业技术学专业有哪些内比较好的科校各录取分数线|全球热资讯

2023-06-13

数字版河南财经字典来了,最全说明书看这里

2023-06-13

欧元区经济陷入“技术性衰退”,欧洲加息决心遭遇考验 焦点滚动

2023-06-13

今日热文:河钢股份:拟向控股子公司乐钢增资48亿元

2023-06-13

多家商业银行近期下调人民币存款利率

2023-06-13

今日精选:公牛智能锁获全球首批“安心守护”认证

2023-06-13

dnf卡片升级需要什么材料_dnf卡片升级|当前要闻

2023-06-13

今日看点:6月12日国内邻苯产业链价格汇总

2023-06-13

最新!陕西出台19条措施稳就业惠民生!

2023-06-13

世界热文:苹果xr怎么录高清视频(苹果xr怎么录视频)

2023-06-13

精彩图集