给你一个调戏 IBM 沃森的机会

2011 年在智力精彩节目 Jeopardy 中和人类大战三百回合的沃森（Watson）近几年一直在尝试商业化，并在去年的 5 月份投资 10 亿美元成立沃森集团，专注于人工智能的商业化运作。

今天，沃森开放五项功能给开发者测试，包括语音转文字、文字转语音、视觉识别、概念解读（concept insights）和多维分析（trade-off analytics）。其中最后一项的多维分析常见于商业决策中，可以根据一组数据和预期结果给出最佳选择。比如，IBM 演示了如何基于多个标准，如最小风险、最大长期收益等，选择最合适的互惠基金产品。其实，沃森还可以某个价位段性价比最高的手机，感觉人类的智商已经不够用的话可以找沃森来帮忙。

其余四项功能大多可以基于沃森现有的语料和数据库立即投入使用。概念解读如其字面意思，就是对你给出的概念进行解释，如你输入“太阳能”它会自动检索，输出与此相关的文章，类似于知识图谱索引。目前这项功能主要基于维基百科，但 IBM 并未说明是实时联网查询还是本地化的维基百科数据库。

文字转语音和语音转文字在智能手机上已经有提供，但直接通过 API 接口利用沃森的人工智能还是很值得期待的。在文字转语音方面，沃森输出的语音文本相对来说还比较自然，但仍旧免不了有一股机器人的味道。InfoWorld 记者在体验了语音转文字之后表示，沃森没能逃脱同类产品遇到的语音识别障碍，比如“他”把“go into”识别成了“guns”。

最后的视觉识别是一项比较有意思的功能。但其实早在去年 IBM 就与 Twitter 达成合作，分析 Twitter 上的照片流，用尽可能多的图片数据来训练沃森，此次开放这项功能给用户测试也多半是这个目的。在实际体验中，沃森会将画面中的物品分成不同的维度，并依次用百分比标注出可能性。对于这项面向开发者进行测试的服务，IBM 回避了识别的精度问题。在我的测试中，有几次会被告知“处理该项请求遇到问题”，不清楚是识别不出还是在照片上传中出现问题。但对于一些花花草草和人物的特写照片还是可以轻易识别的，甚至连一些没有明显主题，对比不鲜明还有点跑焦的照片也能分析得头头是道，比如下面这一幅图：