人工智能 70 年,AI 十大里程碑
本文来自公众号全媒派(ID:quanmeipai),作者
近期,人工智能频上热搜:Facebook 直击现代人「今天穿什么」的痛点,推出 Fashion++,通过算法调整服装穿搭;美国作家安德鲁•卡普兰则将利用对话 AI 技术和数字助理设备在云上实现「永生」;ZAO 利用 deepfake 技术实现视频换脸,「以假乱真」……
从 AI 换脸到 AI 试穿,再到 AI 助「数字永生」……如今,人工智能正全方位渗透到我们的生活中,重要且不可忽视。
人工智能是如何走到今天的?本期全媒派(ID:quanmeipai)独家编译 Fast Company 文章,盘点与人工智能发展相关的七十余载,看看这些高光与低潮时刻如何推动人工智能不断「进化」,改变人类生活的世界。
艾萨克·阿西莫夫提出「机器人三大定律」(1942)
1942 年,艾萨克·阿西莫夫(IsaacAsimov)发表了短篇小说《转圈圈》(Runaround,又译作《环舞》)。这位著名的科幻作家首次完整地阐述了他的「机器人三大定律」:
第一定律:机器人不得伤害人类,或因不作为而让人类受到伤害。
第二定律:机器人必须服从人类的命令,除非这些命令违背了第一定律。
第三定律:在不违背第一与第二定律的前提下,机器人必须保护自己。
《转圈圈》讲述的是一个名叫速必敌(Speedy)的机器人,它接受了人类的命令,去危险的硒溶池执行采集任务。当它越来越靠近目的地,危险的程度越来越高,第三定律让它不得不离开以保护自己;但当它开始远离目的地,第二定律又让它必须服从命令前进。因此,它被置于一个前后两难的矛盾境地,围绕着硒溶池不停地转圈圈。
▲ 水星上,两名宇航员寻找不停转圈圈的速必敌
阿西莫夫的「机器人」系列故事吸引了很多科幻迷,其中的一些科学家开始思考机器拥有思考能力的可能性。直到现在,仍有许多人使用阿西莫夫的三大定律,进行人工智能的智力练习。
艾伦·图灵提出模仿游戏(1950)
1950 年,艾伦·图灵(Alan Turing)写道:「我提议考虑一个问题——‘机器能思考吗?’」
这句话是其开创性的研究论文《计算机器与智能》的开头。该论文提出了一个思考机器智能的模型。他反问道,如果一台机器能够模仿人类有意识的行为,难道它不会有意识吗?
▲ 艾伦·图灵在 1950 年首次提出了判断机器意识的基准
受到理论性问题的启发,图灵经典的「模仿游戏」诞生了。游戏设置了三个角色,人、机器和人类「询问者」。「询问者」需要与其余二者在物理空间上分隔开。「询问者」发起提问,且根据二者的纯文本回应(避免声音回答产生干扰),区分机器和人。如果一台机器能够与人类沟通(注:图灵认为理想情况是使用 Teleprinter,即「电传打字机」),且让「询问者」难以分辨人与机器的分别,那么这台机器就被认为具有智能。
在图灵时代,没有一台机器能够通过这样的测试,直到今天也没有。但他的测试为区分机器是否具有智能提供了一个简单的标准。它帮助塑造了人工智能的哲学。
达特茅斯举办人工智能大会(1956)
到 1955 年,世界各地的科学家已经开始思考一些概念问题,比如神经网络和自然语言,但还没有统一的概念来概括这些与机器智能有关的领域。
达特茅斯学院(Dartmouth College)数学教授约翰·麦卡锡(John McCarthy)创造了「人工智能」这个术语来囊括这一切。
由麦卡锡领导的一个小组申请了拨款,在第二年举办了一场人工智能大会。1956 年夏天,他们邀请了许多顶尖科研人员到特茅斯礼堂参加会议。科学家们讨论了人工智能研究诸多的潜在发展领域,包括学习和搜索、视觉、推理、语言和认知、游戏(尤其是国际象棋),以及人机交互(比如个人机器人)。
这场讨论达成的普遍共识是,人工智能具有造福人类的巨大潜力。他们得出了一个「机器智能可能产生影响的研究领域」的总体框架。这次会议规范并促进了作为一门研究学科的人工智能在此后多年的发展。
弗兰克·罗森布拉特创造了感知机 (1957)
神经网络的基本结构被称为「感知机」(Perceptron),相当于节点(node),接收一系列输入并进行计算,对其进行分类和置信水平分析。举例而言,「输入」可能会分析一张图片的不同部分,并对图像中是否有人脸进行「投票」。节点将会对投票行为和置信水平进行计算,并得出结论。今天,在强大的计算机上运行的人工神经网络,连接了数十亿计这样的结构。
但在强大的计算机出现前,感知机就已经存在了。20 世纪 50 年代末,一位年轻的心理学家,弗兰克·罗森布拉特(Frank Rosenblatt),为一台名为 Mark I 的感知机建立了一个机械模型。
▲ 弗兰克·罗森布拉特在康奈尔航空实验室建立了一个「神经网络」
这台机器是为图像识别而设计的。它是一个模拟神经网络,其中的感光单元矩阵通过导线与节点相连。罗森布拉特开发了一种「感知机算法」,引导网络逐渐调整其输入强度,直到它们始终正确地识别图像,从而有效地让它进行学习。
当时,罗森布拉特受到美国海军的经费资助,召开了新闻发布会。《纽约时报》抓住了发布会的要点:「海军透露了一种电子计算机的雏形,希望未来它能够走、说、写、看、自我复制并意识到自己的存在。」
如今,这台最早的感知器存放在美国的史密森尼博物院(Smithsonian)中。
直到 20 世纪 80 年代,科学家们还在激烈地讨论感知机的相关问题。这对于创建神经网络的物理实体非常重要,而在此之前,神经网络主要是一个学术概念。
人工智能的第一个冬天(20 世纪 70 年代)
人工智能已经将其大部分的历史投入到研究领域中。在 20 世纪 60 年代的大部分时间里,美国国防部高级研究计划局(DARPA)等政府机构为研究投入大量资金,但对于最终的回报要求不多。与此同时,为了保证经费充足,人工智能的学者经常夸大他们的研究前景。这一切在 60 年代末 70 年代初发生了改变。
1966 年,语言自动处理咨询委员会(ALPAC)向美国政府提交了一份报告;1973 年,英国科学研究委员会(SRC)向英国政府提交了一份由知名应用数学家 James Lighthill 爵士带头起草的报告。两份报告都对人工智能研究各个领域的实际进展提出了质疑,它们看待技术前景的态度也非常悲观。Lighthill 报告认为,用于语音识别等任务的人工智能很难扩展到对政府或军方有用的规模。
▲ 1973 年 BBC 录制的 AI 拥护者与反对者 James Lighthill 的辩论
因此,美国政府和英国政府都开始削减大学人工智能研究的资金。在上世纪 60 年代的大部分时间里,DARPA 一直慷慨地提供人工智能研究经费。如今,DARPA 要求研究计划必须有明确的时间表,并且详细描述项目成果。
当时的人工智能似乎是让人失望的,它的能力可能永远达不到人类的水平。人工智能第一个「冬天」一直持续到 70 年代,并且继续蔓延到 80 年代。
人工智能迎来第二个冬天(1987)
20 世纪 80 年代的人工智能发展,是随着「专家系统」(Expert Systems)的发展与大获成功开始的。
专家系统是一种模拟人类专家解决领域问题的计算机程序系统。系统内存储了大量领域知识,并模仿人类专家来做出决策。
这一系统最初是由卡内基梅隆大学为数字设备公司(Digital Equipment Corporation)开发的,后者迅速采用了这项技术。
但是专家系统需要昂贵的专用硬件支持,这就出现了一个问题:当时,Sun Microsystems 的工作站、Apple 和 IBM 的个人电脑都拥有近似的能力,但价格却更低。1987 年,专家系统计算机的市场崩溃了,主要供应商黯然离场。
上世纪 80 年代初,专家系统的繁荣让 DARPA 增加了对人工智能研究的资金投入。但后来情况再次发生了改变,除了少数人为挑选的项目以外,DAPRA 再次切断对于其他人工智能项目的大部分资助。
「人工智能」一词再次成为研究领域的禁忌。为了避免被视为不切实际、渴求资助的「梦想家」,科研人员开始为人工智能相关的研究冠上不同的名称——比如「信息学」、「机器学习」和「分析学」。
第二个「人工智能冬天」延续到了 2000 年代。
IBM 的深蓝击败卡斯帕罗夫(1997)
1997 年,当 IBM 的深蓝国际象棋(Deep Blue chess)电脑在国际象棋比赛中击败了当时的世界冠军加里•卡斯帕罗夫(Garry Kasparov)时,人工智能的公众形象大幅提升。
在电视直播的六场比赛中,深蓝赢了两场,卡斯帕罗夫赢了一场,其中三场以平局告终。在前一年,卡斯帕罗夫击败了早期版本的「深蓝」。
▲1997 年,IBM 的深蓝击败了世界上最好的人类棋手加里·卡斯帕罗夫
深蓝拥有强大的计算能力,它使用了一种「蛮力」的方法,每秒评估 2 亿种可能的走法,从而找到最佳走法。而人类每回合只能检查大约 50 步。深蓝达到的效果就像人工智能一样,但是计算机此时还并没有真正地在下棋中思考策略、自主学习。
尽管如此,深蓝的胜利还是将人工智能非常高调地带回了公众视野。有人很着迷,也有人则对机器打败顶尖的人类棋手这件事感到很不自在。令投资者难以忘怀的是:深蓝的胜利推动 IBM 股价上涨了 10 美元,创下了历史新高。
神经网络看到猫(2011)
到 2011 年,世界各地的科学家都在讨论并创造神经网络。那一年,谷歌工程师杰夫·迪恩(Jeff Dean)遇到了斯坦福大学计算机科学教授吴恩达(Andrew Ng)。两人萌生了建立一个大型神经网络的想法,利用谷歌的服务器资源为其提供强大的计算能力,并向它输送海量的图像数据集。
他们建立的神经网络在 16000 个服务处理器上运行。他们随机上传了 1000 万张没有标签的来自 YouTube 的截图。杰夫和吴恩达并没有要求神经网络提供任何特定信息,或标记图像。当神经网络在「无监督」的状态下运行时,它们自然会试图在数据找到模式,并形成分类。
神经网络对图像数据进行了为期三天的处理。然后,它返回了一个输出,该输出包含了三个模糊图像,这些图像描述了它在测试图像中一次又一次看到的「图案」——人脸、人体和猫。
▲ 神经网络对图像数据的处理
在计算机视觉任务中使用神经网络和无监督学习,该研究是一个重大突破。这个事件也标志着「谷歌大脑项目」(Google Brain Project)的开始。
在杰夫和吴恩达取得突破性进展之后的一年,多伦多大学教授杰弗里·辛顿(Geoffrey Hinton)和他的两个学生建立了名为 AlexNet 的计算机视觉神经网络模型。2012 年,在著名的 ImageNet 的图像识别大赛当中,AlexNet 一举夺冠。参赛者必须使用自己的系统来处理数百万的测试图像,并且以尽可能高的准确率进行识别。AlexNet 赢得了比赛,错误率不到亚军的一半。AlexNet 的 Top-5 错误率是 15.3%;而在 2012 年以前,最好成绩是 26% 的错误率。
注:Top-5 错误率是 ImageNet 大赛的评价标准之一。简而言之,大赛给图片类别设置了近千项「分类」,而模型识别图片时,会给出其预测的「分类」概率排名。对于某个图片,如果该模型预测结果中,预测概率最大的前 5 项都不吻合实际结果,则算「错误」。
▲「深度学习教父」——杰弗里·辛顿
这一成功有力地证明,深度神经网络在对图像进行准确识别和分类方面远远优于其他系统。这次夺冠影响极其深远,使深度神经网络得以复兴,也为辛顿赢得了「深度学习教父」的绰号。
辛顿和他的同事约舒亚·本乔(Yoshua Bengio)、扬·勒昆(Yann LeCun)一起获得了 2018 年图灵奖。
AlphaGo 打败人类围棋冠军(2016)
早在 2013 年,一家名为 DeepMind 的英国初创公司的研究人员发表了一篇论文,展示了他们如何使用神经网络来赢得 50 种老式的雅达利游戏(Atari)。令人印象深刻的是,谷歌以 4 亿美元的价格收购了这家公司。
不过,DeepMind 的光辉岁月还未到来。
几年后,DeepMind 的科学家们(现属于谷歌)从雅达利游戏转向人工智能的长期挑战之一——围棋。他们开发了一个名为 AlphaGo 的神经网络模型用于玩围棋,并通过玩来学习。该模型与其他版本的 AlphaGo 进行了数千场比赛,学习 AlphaGo 的输赢策略。
它居然成功了。2016 年 3 月,AlphaGo 在一系列比赛中以 4 比 1 击败了世界上最伟大的韩国棋手李世石(Lee Sedol)。整个事件被拍成了纪录片。
▲人类顶尖棋手与 AlphaGo 的交战
观看这部片子的时候,我们很难忘记李世石被击败时的悲伤。看起来就好像人类——而不仅仅是一个人——被打败了。
在深度学习产生了广泛影响的同时,人工智能的故事只是刚刚开始。
我们已经进入一个崭新的时代。人工智能仍将充满希望,裹挟着炒作与浮躁。它所带来的,也许将远远超过个人计算和互联网在过去 30 年对世界造成的改变。带着对未来的期许,让我们回到图灵一开始提的问题:「机器能思考吗?」
可能不需要再次历经 70 年的求索,答案也许就在这个十年。