首页  > 科技动态  > 

AI中文语言理解得分首超人类,阿里达摩院创造新纪录,大模型又立功了

  • 浏览
  • lengsiwei.com
  • 评论6条
  • 导读AI中文语言理解得分首超人类,阿里达摩院创造新纪录,大模型又立功了,据新浪网2022年11月25日最新关于AI中文语言理解得分首超人类,阿里达摩院创造新纪录,大模型又立功了的报道,本次,这个来源于阿里通义大模型系列的alicemind,一举...

    丰色 发自 凹非寺

    量子位 |qbitai

    最新中文语言理解领域权威榜单 clue,诞生了一项 新的纪录

    来自阿里达摩院的大模型,获得了超越人类成绩的 86.685高分

    这是该榜单诞生近三年以来,首次有ai超过人类得分。

    这也意味着ai理解中文的水平又达到了一个新的高度。

    那么,创下这一纪录的 alicemind,是如何做到的?

    4项任务超人类水平,同时实现总榜平均分首次超越

    作为业界最权威的中文自然语言理解榜单之clue从文本分类、阅读理解、自然语言推理等9项任务中全面考核ai模型的语言理解能力。

    AI中文语言理解得分首超人类,阿里达摩院创造新纪录,大模型又立功了_第1张

    过去三年,该榜单吸引了众多国内nlp团队的参与,尽管榜首位置多次易主,但参评ai模型一直未能超越人类成绩。

    据介绍,alicemind一共靠下面 两个关键技术获得这一成绩。

    首先,基础模型迭代升级

    alicemind的基础模型在通用语言预训练模型structbert1.0 (入选iclr 2020)之上,进行了迭代升级。

    这使机器在面对语序错乱或不符合语法习惯的词句时,仍能准确理解并给出正确的表达和回应,大大提高机器对词语、句子以及语言整体的理解力。

    本次,达摩院通过使用此前团队用于plug/中文gpt-3等超大规模模型训练所使用的海量高质量中文文本,以及近两年训练技术的经验,进行了以下改进。

    替换激活函数,用glu替换gelu;

    使用更大规模的字/词混合的词表,替换了原始的字级别词表;

    使用相对位置向量替代绝对位置向量;

    选取5亿规模的模型,在增加约60%模型参数和计算量的前提下,获得性能显著提升。

    此外,阿里达摩院配合alicemind在大规模预训练领域训练端和推理端的加速技术的积累,利用uhold (superputing 2022)等技术实现了在16卡a100上用14天时间完成超过500b tokens的训练。

    其次,finetune

    预训练模型是语义理解的重要基础,但是如何将其应用于下游任务同样也是一项重要的挑战。

    达摩院nlp团队面对语义相似度、文本分类、阅读理解等下游任务,从迁移学习、数据增强、特征增强等方面进行了一系列的探索,来提升下游任务的性能表现。

    以clue榜单中的wsc任务为例:

    target”: {

    span2_index”: 25, “span1_index”: 14,

    span1_text”: “小桥”, “span2_text”: “它”

    idx”: 14,

    label”: “true”,

    text”: “村里现在最高寿的人,也不知这小桥是什么年间建造的。它年年摇摇欲坠,但年年都存在着。”

    输入样本构建方式。

    村里现在最高寿的人,也不知这名词小桥/名词是什么年间建造的。代词它/代词年年摇摇欲坠,但年年都存在着。

    在常规的分类方法中,一般使用[cls]标签的最后一层隐藏状态作为输入分类器的特征,要求模型通过标记隐式地学习指代任务。

    为了加强分类器的输入特征,阿里达摩院从编码器最后一层隐藏状态中提取出指代词和名词所对应的向量表示并进行mean pooling。

    随后将名词和代词的向量表示进行拼接,并用分类器进行0-1分类。在加入增强输入特征后,在dev集上,模型表现从87.82提升至93.42(+5.6)。

    通过分析structbert的预训练任务,我们也可以发现,这种特征构建的方式,更符合structbert预训练任务的形式,缩短了pretrain阶段和fine-tune阶段的gap,从而提高了模型表现。

    structbert预训练任务 关于alicemind

    阿里达摩院历经三年研发出阿里通义alicemind。

    该模型体系涵盖预训练模型、多语言预训练模型、超大中文预训练模型等,具备阅读理解、机器翻译、对话问答、文档处理等能力。

    并先后登顶了glue、clue、xtreme、vqa challenge、docvqa、ms marco在内的自然语言处理领域的的六大权威榜单,斩获36项冠军。

    alicemind已于去年6月开源。

    models/damo/nlp_structbert2_fill-mask_chinese-large/summary

    meet 2023 大会定档!

    首批嘉宾阵容公布

    量子位「meet2023智能未来大会」正式定档12月14日!

    首批嘉宾包括 郑纬民院士、msra 刘铁岩、阿里 贾扬清、百度 段润尧、高通 ziad asghar、小冰 李笛、浪潮 刘军以及中关村科金 张杰等来自产学研界大咖嘉宾,更多重磅嘉宾陆续确认中。

    点击 “预约”按钮,一键直达大会直播现场!

    一键三连「分享」、「点赞」和「在看」

    科技前沿进展日日相见 ~

    叶幻轻风云灵纤舞现
    孤寂之海
    为了加强分类器的输入特征,阿里达摩院从编码器最后一层隐藏状态中提取出指代词和名词所对应的向量表示并进行mean pooling
    回答于 2022-11-25 15:29:30
    76
    Soul、悦行ゝ
    在常规的分类方法中,一般使用[cls]标签的最后一层隐藏状态作为输入分类器的特征,要求模型通过标记隐式地学习指代任务
    回答于 2022-11-25 15:19:26
    94
    低调↓青春
    此外,阿里达摩院配合alicemind在大规模预训练领域训练端和推理端的加速技术的积累,利用uhold (superputing 2022)等技术实现了在16卡a100上用14天时间完成超过500b tokens的训练
    回答于 2022-11-25 14:47:07
    60
    追风的少年
    本次,这个来源于阿里通义大模型系列的alicemind,一举在4项任务中超过了人类水平,并实现总分的首次超越
    回答于 2022-11-25 14:35:11
    25
    陆蓉英/jump
    作为业界最权威的中文自然语言理解榜单之clue从文本分类、阅读理解、自然语言推理等9项任务中全面考核ai模型的语言理解能力
    回答于 2022-11-25 13:41:56
    72
    广州海云服饰
    达摩院nlp团队面对语义相似度、文本分类、阅读理解等下游任务,从迁移学习、数据增强、特征增强等方面进行了一系列的探索,来提升下游任务的性能表现
    回答于 2022-11-25 12:37:42
    34
  • 18个中文雅称,心动18次

    中文 之美 翻阅古籍,再一次陶醉于中文之美! 天地万物,草木摇落,飞禽走兽,稚子鱼虫,均有我们古人途经人间时赋予的...

    2022-07-19 722596阅读 13587人支持 3366篇回答
  • 教育部:76个国家将中文纳入国民教育体系

    田立新介绍,十年来,教育部推进国际中文教育高质量发展:制定发布首个面向外国学习者、全面评价其中文水平的规范标...

    2022-06-28 2058阅读 25人支持 27篇回答
  • 中文已死?骇人听闻

    这是语言的巨婴化和低幼化在杀死中文;称赞好只会说绝绝子,有情绪叫作emo,这是网红化和跟风化在杀死中文;敏感字无...

    2022-05-22 125769阅读 1791人支持 370篇回答
  • 美国学生“不及格”中文试卷走红,汉语,为什么这么难?

    至于有些中文试卷中给出的“绕口令”,又比如像“中国队大胜美国队,中国队大败美国队,到底是谁赢了”这样的逻辑“...

    2022-04-08 58227阅读 297人支持 142篇回答
  • 让外国人头疼的中文,蕴含着东方的哲学智慧

    外国人在学习我们的母语中文的时候,也会遭受不小的挑战。例如在英文里并不存在阴阳上去四个声调,所以外国人在学...

    2022-08-08 32051阅读 441人支持 46篇回答
  • “全世界都在说中国话”?官方数据来了

    推进国际中文教育高质量发展。 制定发布首个面向外国学习者、全面评价其中文水平的规范标准《国际中文教育中文水...

    2022-06-29 2183阅读 18人支持 2篇回答
  • 教育部:外国正在学习中文人数超2500万

    76个国家将中文纳入国民教育体系,外国正在学习中文人数超2500万,累计学习和使用中文人数近2亿。来源: 中国青年报

    2022-06-28 440阅读 6人支持 3篇回答
  • 教育部:76个国家将中文纳入国民教育体系

    会上,教育部语言文字信息管理司司长田立新透露,截至2021年底,180多个国家和地区开展中文教育,76个国家将中文纳入...

    2022-06-28 1243阅读 22人支持 6篇回答
  • 国际中文教育志愿者:向世界播撒中文种子

    今年4月20日是第13个联合国中文日,联合国教科文组织总部首次举办中文日庆祝活动。 世界各地的中文教育机构及中文...

    2022-04-21 69阅读 5人支持 2篇回答
  • 爱尔兰首次将中文纳入高考外语选考科目

    【环球时报综合报道】当地时间9日,中文口语测试在爱尔兰开考,这是该国首次将中文纳入高考外语选考科目。 据《爱...

    2022-04-11 630阅读 5人支持 6篇回答