AI大模型(Foundation Models):是指经过大规模数据训练且在经微调后即可适应广泛下游任务的模型。随着参数规模不断扩大,AI大模型在语言、视觉、推理、人机交互等领域涌现出新能力。由于各类AI大模型可有效应用于多种任务,各类AI大模型同质化特征愈发明显。
根据最新发布的《2022年全球人工智能产业研究报告》,伴随2017年Transformer模型的提出,深度学习模型参数数量突破1亿个。此后,模型参数数量迅速增长,其中BAGUALU模型于2021年7月发布,参数规模已达到174万亿个。
报告称,模型参数规模的增大,有助于进一步提高模型的运算精度。AI大模型的应用向多个应用场景提供预训练方案,其使用的自监督学习方法也可减少标注数据的使用,降低训练研发成本。具体而言,AI大模型在医疗和生物医药、法律和教育等领域拥有广阔应用前景。
清华大学、阿里达摩院等机构的研究人员提出的“八卦炉”(BAGUALU),是第一个针对在超算,也就是新一代“神威”上,训练参数量达到“百万亿级”模型的工作。“八卦炉”通过结合特定硬件的节点内优化和混合并行策略,在前所未有的大型模型上实现了体面的性能和可扩展性。
“八卦炉”可以训练14.5万亿个参数的模型,使用混合精度的性能超9过1 EFLOPS(每秒浮点运算次数),并且有能力训练174万亿个参数的模型。显然,这已经相当于人脑中突触的数量了。