也许将来有一天,我们可以拍摄带有音频和气味的视频。这将是除了视觉和听觉之外,科学技术解决的又一重大问题。
视觉和声音的复现
我今天要讲的是气味的复现以及如何对其进行评价。首先,从视觉和声音的复现谈起。图1是人类历史上的第一张照片——《窗外》,是由法国人尼埃普斯(NicéphoreNiépce)拍摄于年,因在其公寓的窗户处拍摄而得名。当我第一次在博物馆中看到这张照片时,我非常激动,因为这是人类第一次用相机捕捉一个场景。这张照片非常粗糙,而且拍摄技术也很原始,但它却是我们能够看到的第一张照片。它不是画的,而是19世纪初由一些装有光学透镜和电子装置的设备拍摄而成的。
我们将视线从照片或者说视觉上移开。恰好50年后,类似的情况发生在声音(听觉)上,也就是亚历山大·格雷厄姆·贝尔(AlexanderGrahamBell)打通历史上第一个电话的时候。
图2不是贝尔打第一个电话时的照片,而是之后拍的,应该是贝尔打第一个长途电话时的场景复现。贝尔发明电话被广为传颂的故事是:年,贝尔将这个设备放在他的耳朵和嘴上,喊道:“沃森先生,我需要你过来一下。”沃森是他的助理,当时正在另一个房间。接着,振奋人心的事情发生了,沃森居然听到了并且理解了这个声音,真的走了过去。至此,我们在科技史上有了两个突破性的时刻:一个是我们第一次捕捉并保存下来一个视觉场景,另一个是50年后,我们在听觉上实现了利用音频传输声音。
气味再现系统
在这里,我想讨论同样的问题,但不是视觉上或听觉上的,而是嗅觉。
我们要讨论的是气味再现系统(OdorReproductionSystem,ORS)。如图3所示,假设我们有一些有气味的东西,比如玫瑰花。我们想要使用一个输入设备来捕捉这种气味,就像摄影设备的摄像头一样,能够借助编码技术得到该气味的指纹或称之为数字签名,且这个数字签名可以传到任何地方,并可以被具有程序、计算或其他功能的计算机读取,然后该计算机将指令传递给类似打印机的输出设备,该输出设备可以输出分子,因为人类是通过分子嗅到气味的。这些由输出设备释放的分子如果被一个正常人闻到,他就会有一种闻到了玫瑰花的感觉。但这并不意味着这些由输出设备输出的分子要与输入设备捕获的分子完全一样,只要足够近似就行,近似得让这个人以为他正在闻玫瑰花。用一种更有趣的方式讲,我们希望这个人闻到的这支“玫瑰花”就像一支贴近鼻子的真的玫瑰花。其中最重要的是气味足够近似,因为这个人并不是在闻真的玫瑰花,而是闻到了一些与玫瑰花香味非常近似的仿制气味。这种仿制气味让他觉得他正在闻真的玫瑰花。就像摄影一样,如果我是一个摄影爱好者,有非常昂贵的相机和镜头。我拍了照片之后,使用喷墨打印机将照片打印出来,只要照片的颜色与原始图片的颜色足够近似就行,不需要%一致,因为图片不是现实中真正的场景,只是对真实场景的再现。如果打印得足够近似,就会让我们觉得我们看到的是真的场景。我们把捕捉气味的输入设备称为嗅探器(sniffer),因为它能“嗅”到气味,把输出设备称为气味释放器(whiffer),因为它可以释放分子。
我们今天讨论的主要问题就是构建这样一个气味再现系统。这是一个非常难的问题,我预计大约需要5~15年的时间才能完成。我不知道GoogleX、微软或者一些中国企业在该领域的进展如何,也许这个问题明天早上就有了解决方案。但是以我对该领域的了解,这应该需要很长一段时间才能实现。
这样一个系统将会有很多应用场景。我能想象的是电视或者电影将带有气味通道,这样我们不仅能看到警察追逐罪犯的车,而且当他们急转弯的时候,除了听到轮胎与地面的摩擦声之外,还能闻到橡胶灼烧的味道。当我们在网上为朋友买花时,如果我们不仅能看到这些花,还能闻到它们的气味,那将是一种全新的体验。当我们坐在客厅的沙发上看烹饪节目时,除了看和听之外,如果还能闻到从屏幕里释放出来的气味,岂不是很好?游戏、医疗中也可以有类似的应用。我有一位已故的医生朋友,他能通过闻婴儿呼出的气味来诊断病变,且正确率在90%以上,这也可以成为这种系统的一种应用场景。有些行业非常依赖气味,比如食品、化妆品、葡萄酒等行业。顺便说一个大家都很熟悉的事实,就是当我们品尝某些食物的时候,其中很大一部分味道是来源于进入了鼻腔的气味。舌头能够尝到酸、甜、苦、咸、鲜等五种不同的味道,但大多数味道是通过嗅觉获得的。所以如果我们能够解决气味重现问题,我们就能很好地传送味道。
气味再现系统的构建
为什么在声音和视觉复现问题解决了这么多年之后,嗅觉复现问题还没有得到解决呢?答案很简单,视觉和听觉涉及到的都是波,我们可以通过傅里叶变换和傅里叶逆变换将光波或声波编码并解码显示在打印机或扬声器上。但是对于气味来说,涉及到的是分子。嗅觉体验是建立在分子的基础上的,也就是说,除非有真正的分子进入我们的鼻子,否则我们无法闻到任何气味。
气味再现系统涉及众多领域
人类的嗅觉系统有上百个嗅觉感受器,大脑编码这些分子的过程非常复杂,涉及成百上千个信号的组合。
气味再现系统涉及8个主要领域,如图4所示,反映了气味再现系统的复杂性。我们不得不了解嗅觉的化学原理,以及分子如何混合才能给人以某种感觉。为了使输出设备能够释放分子,我们还需要了解电子学。为了了解这些设备内部发生的物理变化,我们还需要了解物理学。当然,我们还需要知道当大脑接收到嗅觉信号之后会做什么。我们还需要工程设计知识来恰当地设计这些输入输出设备。举个简单的例子,假如我们已经解决了系统的问题,就必须确保这些设备能够将分子送到鼻子所在的区域,而且不被其他气味污染。比如我们在玩游戏、看电影或看烹饪节目时,气味会随着时间改变,我们不希望后出现的气味被之前出现的气味影响到。所以这就要求用来释放分子的材料也要足够智能才行。
此外,我们还需要了解心理物理学,不仅要知道大脑如何接收信号,还要知道当大脑接收到这些信号时对气味的体验是什么。为了解决该问题,大量的数学和计算机相关知识也是必要的。
硬件设备
对于硬件部分,嗅探器或者说输入设备,就像相机一样,是将分子映射为向量的设备(见图5)。通常来说,向量的大小取决于所使用的传感器的种类,可能是氧化物传感器或者其他化学传感器。我们会得到一个传感器空间,也就是说,给定一定浓度的气味,通过某种变换,将其映射为该空间中的一个数字向量。显然,我们希望两种不同的气味对应两种不同的数字签名。现在已经有这种嗅探设备了,叫做电子鼻,但大多数体积都非常大,构造复杂且价格昂贵(见图6),尤其是那些性能比较好的电子鼻,大概要花费5万~20万美元。这些电子鼻在不同行业中应用于不同的任务。然而,大部分应用场景都非常简单,比如做二分类决策。例如,这块奶酪有没有坏?这个包裹中有没有包含爆炸物?这个包装材料是否会在两个月内导致巧克力棒的味道或者气味发生改变?这些都是非常简单的“是”或“不是”的二分类任务。而我们想要嗅探器做的是给气味一个电子签名,这是比二分类更加复杂的任务。以摄影为例,假设目前我们还没有摄影技术,如果有个人说:我发明了摄影技术和设备,这些设备所能做的是二分类决策任务,比如我们所在的这个会议室外面是否比里面更亮,外面的光是暖光(红色、橘色)还是冷光(绿光、蓝光)。然而我们想要的是拍一张这个会议室的真实照片。所以,目前嗅探器所能做到的,与我们想要做的之间还存在很大的差距。
至于其他硬件,比如气味释放器,就像打印机一样,它必须包含一些基本气味。例如打印照片时,我们只需要对三到四种原色进行组合就能以合理的精度合成任何颜色。同理,在仿制气味时,如果我们能够对经过仔细挑选的50~种基本气味实现1%、3%、12%……的混合精度,那么就能仿制出人类可辨识的任何气味。当然,这个气味释放设备还要能够在时间上非常精准地控制释放出的分子的量,而且还要能够随着时间而改变,以实现嗅觉上的良好体验。需要强调的是,只要有少量的分子就足够了,因为只要有少量的分子进入到我们的嗅觉系统就足以让我们闻到某种气味了。
年,我曾加入一家创业公司,参与制造了一种非常好的气味释放器(见图7),它可以对60种基本气味进行组合以较高的精度仿制气味,然后以比较智能的方式将气味释放出去。
尽管我们已经有了嗅探器,并且这些嗅探器正在变得越来越小,越来越便宜。而且我们也有了气味释放器,现在市场上应该有比我们当时做得更好的气味释放器。但是,制造这两个设备是整个系统中比较简单的部分。就像你有了相机和打印机,但不知道如何从相机中读取图片,并产生指令控制打印机将颜料打印在纸上一样,或者如何将数组显示在电子屏幕上。所以气味再现系统最难的部分就是找到一种使用数字签名或者数组向量的方法,使得该方法可以控制输出设备,使输出设备可以对其包含的50~60种基本气味进行组合,实现无论输入什么气味,其输出都能让人觉得是在闻真的气味一样。我再次重申,目前还没有方法能完全解决此问题,因为它必须能复现所有的输入气味,比如咖啡、橙汁、鸟粪等,还包括大家没有闻过的气味,比如我奶奶家阁楼中的味道,甚至还包括地球上没有人闻过的气味,比如某个偏僻的垃圾堆中一些非常奇怪的、大家平时闻不到的气味。我们想要实现的是,人类可以利用自身的实际经验实现对结果的辨别。就像我一开始说的,在图像和音频领域,这一问题在好多年前就已经解决了,第一张照片和第一通电话就是证据。
构建与气味相关的空间映射
除了上述知识,我们还需要数学和计算机知识,来构建与气味相关的4个空间之间的映射,这4个空间是电子鼻输出的向量空间、分子特征空间、大脑响应空间和人类感知空间。
上文我们已经讨论了由电子鼻给出的带数字签名的向量空间,接下来讲分子特性空间。分子在混合物中的组合方式、分子的折叠方式等都会影响分子的性质,所以成百上千的特性构成了分子的特性空间。当大脑接收到由几百个接收器组成的复杂编码时,会将编码送到大脑深处的嗅觉系统,在大脑中形成响应空间。
最棘手、最让人难以捉摸的是感知空间。即使我们的大脑做出了两种非常相似的大脑响应,也并不意味着对气味的感知是相似的,反之亦然,差异很大的大脑响应可能会有相似的感知。如何构建大脑响应与感知之间的一一映射是一个非常复杂的问题。
我想简单地向大家展示几个我参与过的项目。年,我们给出了一些如何由基础气味预测各种混合气味的例子。图8是由两种不同气味组合得到的二维图像。这里显示了其中50%的组合,所以我们能够预测这两者之间的中值。我们把25%的一种气味和75%的另一种气味混合,就可以得到另一种混合气味。所以在一定的浓度范围内,我们能够很好地预测混合之后的结果,这对于解决该问题非常重要。
我们也能够建立一种映射,不是分子和感知之间的映射,也不是电子鼻和大脑响应之间的映射,而是两个不同的电子鼻之间的映射。这里给出几个案例,来说明将一个设备的签名映射到另一个完全不同的设备的签名是可行的,而且结果非常接近,如图9所示。这样的映射就比较好。
大约10年前,在一个非常复杂的为期三年的项目中,我们还实现了如何利用数学和电子学从电子鼻的编码中预测人类闻到某种气味时的愉悦程度。愉悦程度大概分四到五个等级。零等级表示这气味很难闻,我这一辈子都不想接近它。四或五意味着这气味很好闻,像在天堂一样,我可以闻一辈子。这样我们就能够给出一个很好的愉悦程度的预测。
气味再现系统的评价
很快就会有一篇关于气味的新论文发表在《自然》杂志上。我现在还不能讲,因为现在还没有发表。但建议大家到时候看一下,我认为这是一篇令人鼓舞的文章。它让我们在深入地了解气味再现这个问题上迈出了重要的一步,也许能够帮助我们在未来解决这个问题。但它不是这个问题的最终解决方案,只是前进了一小步。可以确信的是,它很快就会出现在《自然》杂志上。
最后,我想提出一个与该问题相关,但是更容易解决的问题,并给出一个解决方案。假设有人声称他已经解决了这个问题,并给出他们的嗅探器和气味释放器,但我们应该如何测试这个解决方案,判断问题是否得到了解决呢?我们不能仅仅利用这些潜在的设备来解决问题或者声称解决了问题,然后做一些实验,让人们说出他们闻到的气味即可。例如嗅探器闻了咖啡之后,从气味释放器中释放出一种气味,闻到的人说是咖啡,这当然很好,橙汁、披萨、寿司的实验也是如此。但问题是,一般来说,我们不知道如何命名或口头描述某种气味。咖啡和橘子很容易描述,但是我们每天闻到的大多数气味是无法用语言描述出来,并且让对方明白我们闻到了什么。如果你到我奶奶家的阁楼,你可能会说有点闷热,还有点灰尘,但是你无法给出一个足够好的描述,让别人彷佛也闻到这个气味。这就是主要问题之一。
我这里给出一个简单的判别气味再现系统完整性与有效性的解决方案。这个方案并不是我通过深入研究数学或科学,或花费很多钱制造出来的设备得到的,而仅是通过思考提出的解决方案。我花了几个月的时间,用了一些常识来思考这个问题。其主要思路是基于音视频沉浸的方法,即借助于音频和视频场景来进行气味测试,这么做的目的是借助音视频信息,通过检验测试者匹配气味与场景的准确率,达到检验气味再现系统有效性的目的。具体来说就是,挑战者给出一些在世界各地拍摄的视频片段,拍摄这些短片使用了影音和嗅探器。测试组成员需要判断这种气味来自哪个片段,把气味和视频片段匹配起来。
这将非常有效。但挑战者可能会故意刁难,给测试组提供一些气味和场景毫不相关的短片。在这种情况下,研究者需要进行条件测试。将测试者分为两组,第一组辨别的是从真实场景中抓取的气味,即真正的分子;第二组辨别的是从气味释放器中释放的仿制气味。两个测试组分别给出各自的测试结果。研究者的目标是统计辨别仿制气味的测试者能够将气味成功地匹配到与其对应的视频片段的准确率。之所以设置第一组测试者,是为了保证气味样本的有效性。假如拿到真实气味样本的测试者都不能将气味匹配到对应的视频片段,那么就有理由认为这种样本是挑战者故意设置的困难样本,不计入最终对气味再现系统的性能评价指标中。
我相信这个问题将会解决,并且希望能在几年内得到解决。这是一个非常困难的问题。我刚刚提到的测试方案,大家可以在我发表在JournaloftheRoyalSocietyInterface上的论文“Niépce-BellorTuring:HowtoTestOdorReproduction”中找到。我希望这个问题能在一些重大行业中得到深入研究,目前在全世界已经有好几个课题组正在开展相关的研究工作。也许将来有一天,我们可以拍摄带有音频和气味的视频。这将是除了视觉和听觉之外,科学技术解决的又一重大问题。
(本文根据CNCC特邀报告整理而成)
特别声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任
演讲视频:(