非科幻思考（第5/17页）

这种综合能力让我们能跨领域认知。我们可以把喝酒、下围棋、钻井和看病的信息放在头脑中的同一个世界，但是对于AI来说，这些专业知识就是四个不相关的领域，要四个AI来分别处理。人的综合认知能力，使知识连成一体，但人工智能目前只能是专业化人工智能，一旦下围棋的人工智能学习了金融知识，就把围棋知识完全忘记了，等它再学习钻井知识，又把金融知识忘记了，这被称为“遗忘灾难”。专业人工智能的知识至少在目前，还无法相互连接构成“世界模型”。于是人类仍然有它们不具备的视野和大局观。

我们的人脑如何具有这样的综合能力和对世界的建构，仍然是一个谜。

第二个难点，理解他人的能力。

即便人工智能未来能够把各个学科的相关知识都学习到，建构起“世界知识体系”，但在理解情境相关的问题时，仍面临如何调用正确信息的问题。当一个人对另一个人生气，应该从他们环境和背景的海量信息中调用哪些知识，来理解他生气的理由？

对人而言，这不成问题，我们能非常容易猜测到，对生气的两个人而言，什么是重要的因素，什么是有可能导致他们愤怒的导火索。这主要是源于我们对人的理解，对我们自己和周围人的理解，我们知道什么样的信息会引人兴奋，什么样的信息会让人沮丧。读心的能力让我们轻易做出推断。

至少目前人工智能还不具备这样的能力。且不说理解复杂的场景，仅仅就“树上蹲着五只鸟，开枪打下来一只，还剩几只”这样的问题，它们也还回答不上来。它们无法推断，鸟儿因为害怕，就会逃走。

正如著名心理学家、语言学家史蒂芬·平克所说：“如果不是建立在一个庞大的关于外部世界以及他人意图的内隐知识结构的基础之上，语言本身并不起作用。”缺乏对于他人心理的常识系统，使得人工智能仍然难以“理解”人类日常的语言。

未来人工智能有可能学会读懂人类的情感和意图吗？

很多人都提到，目前人工智能已经可以精细识别人类的表情，能够读懂人的情绪。是的，人类的情绪属于一种外显图像，是比较容易识别的，这和识别东北虎、识别癌细胞类似，是图像识别的一个范畴。但这和理解人的情感完全是两回事。即便它们未来能从图像上识别出一个人此时的情绪，想要“解释”此人的情绪，也需要远为复杂的对人心的理解。

也有很多人提到，人工智能可以通过与人对话理解人的情感。但这实际上也离得很远。目前它们能做的只是智能对应，当听到人类说出句子A，在语料库中寻求识别匹配最合适的行为或回应。当你说“我不开心”，它们可以匹配说“多喝点热水”，但不理解什么是开心。如果想让它们分析不开心的理由，推测不开心之后的做法，就远远不够了。其中的差别可以形容为：人工智能使用语言，是匹配句子和句子。而人类使用语言，是匹配句子和真实内心的感觉。

那如何让人工智能学会读懂人类的情感和意图呢？

一种可能的路径是让它学习足够大的数据库，记录下人的足够多情感和行为的数据库。“深度学习”的一个特点在于必须要足够大的数据库，拥有一亿数据的“深度学习”比只有一百万数据的学习效果好得多。任何一个领域想要有所突破，首先都需要足够大的数据库。因此有人认为，21世纪最宝贵的资源不是石油，而是数据。

那我们有可能建立如此大的人类情感和行为数据库吗？理论上当然是有可能的，靠各种摄像头视频和人类自己拍摄上传的视频。但这里面最大的问题，或者说我个人的疑问在于，人工智能对于人类的情感和行为，能否进行“非监督学习”。

所谓监督学习，就是每一个数据由程序员做一个标注：“这个数据是好的。”“这个数据是猫。”“这个数据是男人因为嫉妒而殴打老婆。”不管数据本身是数字、棋谱、语言、图像还是视频，都需要程序员先给数据做标注，才能让人工智能学会这些标注。但是对于人类的情感与行为的超级数据库一一识别和标注，实在是太过于烦琐困难的工作。而非监督学习就是完全没有人进行标注，只把原始数据丢给人工智能，看看它能学到什么规律。我相信非监督数据在很多工程领域可以自动进行，因为步骤和成败的结果是自然可观测的。但是在人类情感与行为领域，如果不以人的解释做标注，如果没有人来诠释情境中发生了什么故事，机器能够学习和领会吗？我觉得很难。

另一种可能性，就是每个人和自己的人工智能助理之间的数据学习。由一个人不断告知人工智能所有情感和行为的前因后果：他碰到我，所以我不高兴；他没有记得给我买东西，所以我不高兴；餐厅的灯光太昏暗，所以我不高兴。若所有人都将前因后果事无巨细地解释给人工智能听，就像父母将这个世界的机理解释给孩子，那么它肯定可以全都记住。如果足够详细，那它至少能学会这一个人的情感行为特征和心理因果特征。这相当于是每个人自己给行为数据做标记。这种路径在未来有可能成功，但取决于每个人是否愿意详细教它。