02:40 2021年09月27日
经济
缩短网址
作者:
0 171

中国开发了一种自然语言处理 (NLP) 算法,其性能优于谷歌公司(Google)或非盈利人工智能公司OpenAI的现有产品。北京智源人工智能研究院(BAAI)创建了“悟道2.0”(WuDao 2.0)自然语言处理预训练模型。这个模型能够模仿口语、识别图像、生成信息消息,甚至是诗歌。该模型使用 1.75 万亿个参数进行训练。

相比之下,直到最近都被认为是最通用和最先进的OpenAI公司的 GPT-3 自然语言处理模型,只使用了 1750 亿个参数。每个参数都是由机器训练模型改变和决定的。随着模型的训练,参数可以根据已积累的数据进行修改。模型训练中使用的参数越多,模型最后就越先进。另一方面,参数数量的增加会使训练过程变得更长、更昂贵,因为它要求极大的计算能力。例如,GPT-3自然语言处理模型是在 Microsoft Azure AI 超级计算机上训练的。

GPT-3自然语言处理模型去年发布时,尚属首个专业宽泛的模型。自然语言处理是人工智能 (AI) 的重要应用领域,旨在发展计算机分析和自然语言合成。换句话说,主要任务是教机器理解文本或话语,并相应地正确生成文本或话语。自然语言处理的首批模型是专业性很强的:聊天机器人、语音助手等。但是在大量参数上训练的模型可以得到更广泛的应用。据 GPT-3自然语言处理模型的开发者称,该模型可用于解决“任何英语问题”。为了训练算法,收集了 570 GB 的文本数据集。GPT-3自然语言处理模型确实能够做到了以前的人工智能所无法做到的事情。例如,在2020 年夏天,GPT-3 生成了一篇关于思维活动和新主意产生方法的文章。事实证明,这篇文章非常合乎逻辑且有趣。

今年早些时候,谷歌公司创建了自己的Google Switch Transformer预训练模型,已经使用1.6万亿个参数进行了训练。但中国模型仍然更先进。“悟道2.0”自然语言处理预训练模型在1.2TB的文本数据上进行了训练,而且既有英语,又有中文。此外,图像也作为初始数据加载到模型中。共有4.9TB的数据用于训练模型。

这样,截至目前,中国“悟道2.0”自然语言处理预训练模型大大优于美国模型的研发产品,北京师范大学-香港浸会大学联合国际学院教授许粲昊告诉俄罗斯卫星通讯社:

“我们可以看到,‘悟道’模型的复杂程度基本可以达到美国谷歌模型的10倍左右,在这方面中国毫无疑问是暂时处于世界领先地位的。包括在图像识别领域,中国也在一些国际大赛上包揽了诸多奖项,名列前茅。另外,在人工智能领域最关键的是中国拥有庞大的数据量,在用于训练模型的基本效果方面成效显著”。

中国制定了到2030年在人工智能领域取得领先地位的雄心勃勃的目标。在2017年发布的《下一代人工智能发展规划》说,到2030年,中国人工智能产业至少将积累1500亿美元。谷歌大中华区前总裁、风险投资人李开复曾多次承认,由于人工智能尤其是机器训练的现代发展原则是基于数据组的,中国具有重要的竞争优势。中国近15亿人口为数据组的积累和处理奠定了基础。廉价劳动力丰沛则为中国提供了另一个可能性:成为世界数据处理工厂。问题在于,零散数据本身对机器训练没有多大价值。它们需要先被做标记。例如,从可用的图像组中挑出带有猫的图片并相应地为它们打上记号。实际上,在20年前农民工在缝纫机上缝制衣服的同一栋厂房里,现在标记工正在工作。他们每天坐在电脑前12个小时,标记大量数据组,供人工智能系统后来在数据组上训练。这样,像在传统工业中一样,中国正在努力接通人工智能发展的供应链。

但存在一定的困难。许粲昊说,在人工智能的一些基础领域,中国仍像过去一样远远落后于其主要竞争对手美国。

“以前在人工智能领域我们有两个最大的短板:一是硬件设施。因为人工智能的训练和推理需要非常强大的硬件支持,包括在半导体硬件设计制造方面,我国也仍然有很长的路要走;二是基础理论。比如现在人工智能的模型算法已经足够成熟,也做得非常好,但是能否取得下一个突破?基础理论突破又在哪里?这些都还是大家仍然在摸索的内容”。

目前,美国在设备生产(芯片、微电路)和软件制造方面都处于领先地位。比如,Tensorflow、Pytourch等全球最大的开源机器学习平台都是由美国公司创建的。在其他相关领域,欧洲和日本公司保持领先地位。例如,在硅片上雕刻集成电路所必需的深紫外(EUV)光刻先进设备是由荷兰光刻机设备供应商阿斯麦(ASML Holding N.V.)以及日本佳能(Canon)公司和尼康(Nikon)公司制造的。美国意识到可能失去科技领先地位,开始为中国制造障碍。例如,他们限制向中国供应芯片、设备和技术。同时,随着算法和模型将向所谓的普遍人工智能发展,数据将逐渐失去其在人工智能发展中的重要性。

“目前来看,数据量仍然是非常关键的问题。因为人类所有的知识都是日积月累所得,如果没有足够的数据支撑,AI是无法进行下一步的。不过当拥有了一定的数据量后,AI是否能够自己生成一些新的东西,做一些自我推理,或者自己学习新知识,我想也是一种可能性。只是从中短期来看,数据量具有必要性。”

© AP Photo / Mark Schiefelbein
事实上,这个过程已经开始了。“悟道2.0”自然语言处理模型确实是在庞大的数据组上训练的。但这样做是为了将来重新训练模型时不再需要大量新数据。科学家们正努力使人工智能越来越像人类智能,也就是说,它可以根据已经积累的数据组学习一些新东西,这些数据并不与当前任务100%相关,但可以推论出新问题的解决方案。从这个意义上说,发展基础能力以保持未来竞争力对中国来说的确是重要的。实际上,2017年出台《人工智能发展规划》恰好在这个方向上划定了重点。

与美国的贸易和技术战再次证明了北京所选择路线的正确性。明显,依赖全球供应链实在是不安全的。在政治趋势的影响下,昨天的合作伙伴可能会突然变成对手,停止任何合作。中国的“十四五”规划恰好规定对基础科学进行大规模的投资。

实际上,美国也明白这一点,并努力不让中国继续前进。过去,私有公司和投资是进步的主要推动力,那么现在政府资助也参与这件事情。美国总统乔·拜登已向国会提议把联邦研发总支出增加135亿美元。此外,根据《无尽前沿法案》(Endless Frontier Act) 改革国家科学基金会(NSF)的计划,美国准备在2025年之前再投入1000亿美元用于发展基础技术以对抗中国。

另一个问题是,中国为发展科技不吝资金。为此目的计划在2025年前至少花费1.4万亿美元。中美之间的人工智能竞赛很可能会采用多种方法。现任美国人工智能安全委员会主席、谷歌及其母公司Alphabet的前首席执行官埃里克·施密特(Eric Emerson Schmidt)表示,为阻止中国科技能力的快速发展,并使美国在芯片制造领域至少领先中国两代,有必要继续限制对中国的芯片和其它高科技产品的供应。此外,需要放宽移民法以吸引来自世界各地的最优秀人才。

人工智能安全委员会(NCSAI)向总统和国会提出的建议中甚至提出“加速”中国的“人才流失”过程,为中国专家创造有吸引力的条件。实际上,目前尚不清楚这将如何付诸实施。至少在特朗普时代,越来越多的中国专家无法忍受签证、行政和其它限制,越来越多地离开美国返回祖国。

关键词
中国, 美国
社区公约讨论