从婴儿谈话到婴儿人工智能

2025-05-16 20:52来源:本站

  

  我们小时候对自己要求很多。无论如何,我们必须在短短几年内从感官的斑点成长为可移动的、理性的、细心的沟通者。

  你是一个没有词汇的婴儿,在一个堆满玩具和毛绒动物的房间里。你拿起一个林肯原木,你的管理员告诉你,“这是一个‘原木’。”最终,你会明白,“原木”并不是严格地指这种特殊的棕色塑料圆柱体,也不是一般的棕色塑料圆柱体,而是指体现了被砍伐、剥落的树木部分特征的棕色塑料圆柱体,当然,这些部分也是“原木”。

  关于婴儿如何做到这一点,有很多研究和激烈的争论。一些科学家认为,我们大部分的语言习得可以用联想学习来解释,因为我们把声音和敏感性联系起来,就像狗把铃声和食物联系起来一样。另一些人则声称,人类大脑中存在一些固有的特征,这些特征塑造了所有语言的形式,对我们的学习至关重要。还有一些人认为,幼儿对新单词的理解是建立在对其他单词的理解之上的。

  最近的一个周日上午,当塔米·关(Tammy Kwan)和布伦登·莱克(Brenden Lake)把黑莓从一个碗里递给他们一岁的女儿露娜(Luna)时,这种讨论得到了进一步发展。露娜穿着粉色的打底裤和粉色的短裙,脖子上围着硅胶围兜,头上戴着一顶柔软的粉色帽子。一个轻便的gopro型相机安装在前面。

  “巴布加,”她说着,用圆圆的手指指着那些浆果。关把剩下的给了她,莱克看着空碗,觉得很有趣。“那就像10美元,”他说。照相机上的一盏灯闪烁着。

  在过去的11个月里,纽约大学(New York University)的心理学家莱克(Lake)每周花一个小时的时间给露娜(Luna)安装一个摄像头,并在她玩耍时从她的角度记录下事情。莱克的研究重点是人类和人工智能。

  他的目标是使用视频来训练语言模型,使用与蹒跚学步的孩子接触到的相同的感官输入——可以这么说,一个LunaBot。通过这样做,他希望创造更好的工具来理解人工智能和我们自己。

  莱克说:“我们认为这项研究最终在这两个研究领域之间建立了联系。”“你终于可以让他们彼此对话了。”

  使用人工智能模型来理解人类思维有很多障碍。毕竟,这两者截然不同。现代语言和多模态模型——比如OpenAI的GPT-4和谷歌的Gemini——是在几乎没有内置结构的神经网络上组装起来的,它们的改进主要是由于计算能力的增强和更大的训练数据集。谷歌最新的大型语言模型Llama 3接受了超过10万亿个单词的训练;一个5岁的孩子平均接触到的辐射量超过30万。

  这样的模型可以分析图像中的像素,但无法品尝奶酪或浆果或感觉饥饿,而这些对儿童来说是重要的学习经验。研究人员可以尽最大努力将孩子的全部感觉流转化为代码,但他们的现象学的关键方面将不可避免地被遗漏。

  “我们看到的只是一个主动学习者的残余,”斯坦福大学(Stanford University)心理学家迈克尔·弗兰克(Michael Frank)说,他多年来一直试图用相机捕捉人类的经历。他的实验室正在与包括卢娜在内的全国25多名儿童合作,记录他们在家庭和社会环境中的经历。

  人类也不像神经网络那样仅仅是数据的容器,而是有意识的动物。我们看到的每件事,触摸到的每件物品,听到的每句话都与我们此刻的信念和欲望相关联。

  印第安纳大学(Indiana University)的心理学家琳达·史密斯(Linda Smith)说:“你想学的东西和得到的数据之间存在着深刻的关系。”“这些模型只是预测。他们会全力以赴,迈出最好的一步。”

  虽然你可以通过结构化训练数据来模仿人类的意图——史密斯的实验室最近一直在尝试这样做——但最能干的人工智能模型,以及制造它们的公司,长期以来一直致力于高效地处理更多的数据,而不是从更少的数据中获得更多的意义。

  还有一个更概念性的问题,它源于AI系统的能力看起来很人性化,尽管它们是以非人类的方式出现的。最近,在谷歌(Google)和微软(Microsoft)的工业实验室发布新机型后,出现了关于意识、一般智能和感知能力的可疑说法。

  今年3月,人工智能研究初创公司Anthropic的最新模型Claude 3在分析了一长串不相关文件中隐藏的一个关于披萨配料的随机句子后,表示怀疑自己正在接受测试,这引发了争论。这样的报告往往闻起来更像是营销策略,而不是客观的科学项目,但它们突显了我们对赋予人工智能科学意义的渴望。

  但人类的思维在其他方面也与虚拟思维趋同。普林斯顿大学(Princeton University)的认知科学家汤姆·格里菲斯(Tom Griffiths)提出,通过描述人类智能的局限性,并建立具有类似局限性的模型,我们最终可以更好地理解自己,并获得更可解释、更高效的人工智能。

  Griffiths说:“更好地理解人类智能有助于我们更好地理解和模拟计算机,我们可以使用这些模型来理解人类智能。”“所有这些都是非常新的。我们正在探索各种可能性。”

  今年2月,莱克和他的合作者利用十多年前弗兰克实验室拍摄的视频,创建了第一个以儿童经历为基础的人工智能模型。该模型发表在《科学》杂志上,基于60小时的镜头,它能够将不同的时刻与单词匹配起来。

  输入“沙子”,模型就会回忆起11年前那个男孩和妈妈一起去海滩的瞬间。输入“汽车”,模型就会显示一个第一人称视频,视频中男孩坐在他的增高座椅上。

  训练视频陈旧且粗糙,数据也相当稀疏,但该模型对世界形成某种概念映射的能力表明,语言可能主要是通过联想来学习的。

  “我们的一名审稿人说,‘在我读到这篇文章之前,我认为这是不可能的,’”纽约大学研究员、参与领导这项工作的王伟健(Wai Keen Vong,音)说。

  对莱克和其他像他一样的研究者来说,这些环环相扣的问题——我们能制造出多么像人类的人工智能?是什么让我们成为人类?-展示即将到来的最激动人心的研究成果。通过对社会互动、意图和偏见进行建模,通过收集一岁孩子头上的摄像头拍摄的综合视频片段,一点一点地回答前一个问题,就离回答后一个问题更近了一步。

  莱克说:“如果这个领域能够达到这样的地步,即模型只根据单个孩子看到的数据进行训练,并且它们在大量任务中表现出色,那将是一项巨大的科学成就。”

  在他们的公寓里,莱克和关正在召集卢娜和她的哥哥洛根参加一个生日聚会。孩子们挤进门口,穿上袜子和鞋子。莱克停止了对卢娜相机的录制,递给她一副毛茸茸的白色连指手套,上面有羊的脸。“那些是什么,卢娜?”他问。

  “咩咩。”卢娜说。

  关颖珊说:“曾经有一段时间,她不知道‘不’这个词,对任何事情都只会说‘是’。”她对卢娜说:“吻你,你想要吻吗?”

  “没有。”卢娜说。

  “哦,”莱克笑着说。“我确实很怀念‘是’这个阶段。——《纽约时报

  ×

跑跑网声明:未经许可,不得转载。