本文中指的是斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)挑战赛,是在文本认识领域中最复杂的测试之一。
SQuAD是基于500多篇“维基百科”的文章的10万多个问答对。几天前,公司的程序通过了测试,获得82.44分,这个分值超过人类参与者的最高分——82.30分。
该公司的代表称这个结果是“历史性的里程碑”。
SQuAD是基于500多篇“维基百科”的文章的10万多个问答对。几天前,公司的程序通过了测试,获得82.44分,这个分值超过人类参与者的最高分——82.30分。
该公司的代表称这个结果是“历史性的里程碑”。