沃森 (人工智能程序)

Watson中使用的IBM DeepQA的高級體系結構The high-level architecture of IBM's DeepQA used in Watson[12]

沃森是IBM制造的电脑问答(Q&A)系统。[2]IBM介绍时说“它是一个集高级自然语言处理、訊息检索、知识表示、自动推理、机器学习等开放式问答技术的应用”,并且“基于为假设认知和大规模的证据搜集、分析、评价而开发的DeepQA技术”。[2]

硬件

编辑

根据IBM的说法:

沃森是一台专为复杂分析而优化设计的系统,整合大规模并行处理器POWER7(英语:POWER7)和IBM DeepQA软件使其能在3秒内回答危险边缘的问题成为可能。沃森是由90台IBM Power 750服务器(还包括10个机柜里额外的输入输出端口、网络和集群控制器节点)组成的集群服务器,共计2880颗POWER7处理器核心以及16TB内存。每台Power 750服务器使用一个3.5GHz、8核心,每核心4线程的POWER7处理器。只有POWER7处理器强大的并行计算能力才能勉强运行沃森安装的IBM DeepQA软件。[13]

John Rennie说,沃森每秒可以处理500GB的数据,相当于1秒阅读100万本书。[14]IBM研发负责人和高级顾问Tony Pearson估计沃森的硬件花费近300万美元,[15]其80 TeraFLOPs的处理能力在超级电脑世界500强排名第94,在超级电脑世界50强排名第49。[16]Rennie还说,比赛的数据是存放在沃森的内存中的,因为硬盘的存取速度太慢了。[14]

软體

编辑

沃森的软件由數種不同語言寫成,包含Java、C++和Prolog等,并且采用Apache Hadoop框架做分布式计算,还有Apache UIMA(Unstructured Information Management Architecture)框架、IBM DeepQA软件和SUSE Linux Enterprise Server 11 操作系统。[8][17][18]“……超过100项不同的技术被用在自然语言分析、来源识别、寻找并生成假设、挖掘证据以及合并推翻假设。”[19]

数据

编辑

沃森的信息来源包括百科全书、字典、词典、新闻和文学作品。沃森也使用数据库、分类学和本体论。特别是DBpedia, WordNet,和Yago(英语:YAGO (database))。[20]

IBM小组为沃森提供数百万的文档,其中包括字典、百科全书和其他能建立知识库的参考材料。[11]尽管沃森在比赛中没有链接互联网,[21]它4TB的磁盘上仍有2亿页结构化和非结构化的信息供其使用,[8]其中包括了维基百科的全文。[9]