程序员罗晟昨天在 Twitter 上说:
每次和 Siri 说「帮我设置一个半小时的倒计时」Siri 都会给我设置一个 1.5 小时的倒计时……
很多朋友给出了语法上的改进建议,这当然是可以讨论的。例如为了避免歧义,「一个」的发音是否足够轻?每个人的口音不同,一定有人哪怕以最自然、最日常的方式说这句话,也足够混淆活人,遑论 Siri。
但令我感兴趣的恰恰是为什么要避免歧义,或者说妳有多信任 AI。
先说说我自己平时在这个场景下的用词:timer 30 minutes。(我用的是英语,但改成「倒计时半小时」,中国的 Siri 也能听懂并正确执行。)在美国,每次把衣服丢进自助洗衣店的滚筒里之后,我都会对 Apple Watch 说这句话。我需要手表提醒我三十分钟之后回来把衣服挪进乾衣机。
从一开始我就决定用这种简陋的语法和 Siri 说话,从未想过其它。我看过大多数的苹果发布会,知道苹果是如何在台上演示 Siri 的。那些演示者的措辞总是那么日常和自然,但我一直就认定了那是精确控制的产物。天,就算他们在台上作假又如何?不要忘了,第一代 iPhone 发布会上的整个演示就是造假。乔布斯用的那台 iPhone 是彻底的半成品。它没法从头到尾播完一首歌,同样的操作(例如发封邮件然后浏览网页)把顺序颠倒过来可能就会完蛋。「经过了无数次尝试,iPhone 团队的工程师设计出了一条所谓『黄金路径』:为了让人们相信这台手机已经完工,必须按照这种特定的方式和顺序进行一系列操作演示。」(见 Fred Vogelstein 在《纽约时报》的文章。)
但 Vogelstein 的稿件发于 2013 年。2007 年的看客们没人知道台上正在进行的是一场假唱。没有实体键盘的纯触屏智能手机是人们从未见过的东西,乔布斯赌了一把:他在一月说了个谎,但在六月把它精彩地圆了回来。(初始的 iPhone 团队居功甚伟。)
Siri 的情况不同。一个喜欢科技的人,在头一次看到 Siri 的演示前多少都用过一些语音输入软件。我们大体知道它是怎么回事,知道它目前依然是一个相当蠢笨的谈话对象。就像和学龄前儿童说话会自动换用「吃饭饭」之类的幼齿语言一样,我在面对 Siri 时也自动降低了语言的复杂性。我不信任它(的理解力)。
这里可以提出一个类比:妳会用按照苹果在发布会上演示的那种方式来操作和使用 OS X 吗?我不会。我的 Dock 不放在屏幕下方,我不用 Spotlight Search,我也不用 Notes。绝大多数程序员更是有一套定制化程度高得多的工作流程。她们使用的 Mac 和苹果试图卖给世人的 Mac 几乎不是同一台电脑。
IPN 旗下的播客节目《内核恐慌》主播吴涛说,「timer 30 minutes」这种措辞像是跟声控汽车说话,需要固定的格式。但这恰恰是我从苹果的演示中得出的结论。我知道发布会是精心设计的结果,那种所有参数都事先设定好的场景本身就是一种「固定的格式」,它和我们在复杂混乱的世界中遇到的格式绝不相同。简化自己的语言去配合这套格式,在今天是更加实际的做法。
但罗晟的做法或许从长远看更加有益。正如学龄前儿童不会永远使用学龄前语言,Siri 的「智力」也可以接受「训练」。把充满歧义的日常语言喂给她,是帮助她成长的唯一方法。每个使用自然的日常语言和 Siri 说话的人,都是她的测试助理。
—
延伸阅读:不鸟万书评《AI 还是 IA?》。