- A+
??雷锋网 AI 研习社按:第十六届北美核算言语学会议 NAACL 于 6 月初在美国路易斯安那州的新奥尔良举办。NAACL 是天然言语处置与核算言语学领域的顶级学术会议之一。在言语学习建模竞赛中,国内助工智能公司先声教育在英语组竞赛中夺得第一。其他参赛者包括来自全球顶尖学术界和工业界的研讨团队,如剑桥大学、纽约大学、加利福尼亚大学等。
英语组冠军团队先声教育由其联合创始人及 CTO 秦龙博士带队参赛,参赛队员还包括首席语音科学家陈进和天然言语处置科学家徐书尧。秦龙博士结业于卡内基梅隆大学,具有 10 多年的人工智能作业经历。因为这一竞赛对自习气学习技能的前进有无量意义,雷锋网 AI 科技谈论特邀秦龙博士,与他交流了大赛中的自习气领域最新研讨作用。
官网:https://www.cs.rochester.edu/~tetreaul/naacl-bea13.html
值得一提的是,本次竞赛夺冠也为先声教育在雷锋网学术频道 AI 科技谈论旗下数据库项目「AI 影响因子」
获得加分。
雷锋网 AI 研习社:众所周知 NAACL 是世界天然言语处置与核算言语学领域的顶级学术会议,为啥 NAACL 举办言语学习建模这一竞赛的意图是啥?
先声教育 CTO 秦龙:把天然言语处置技能使用到教育有关领域一向是 NAACL 的重要议题之一,每一届 NAACL 都会举办 BEA 教育技能专题研讨会,本年现已是第 13 届。本年 BEA 有两个揭露使命,一个是单词凌乱度辨认(Complex Word Identification),一个是第二言语习得建模(Second Language Acquisition Modeling)。第二言语习得建模是指根据学生曩昔的答题 (第二言语学习) 前史,猜测该学生能否对将来的标题作出正确应对。这关于构建可以作出智能举荐的自习气学习体系具有严峻意义,是自习气学习最中心的模块。
(图为大会组织方进行 SLAM 竞赛的总结陈述)
这次 SLAM 竞赛是由言语才能查验的声威机构 ETS 与世界上最大的言语学习使用 Duolingo 联合组织的。Singsound AI 团队参加了该使命的悉数三个子使命:英语学习、西班牙语学习以及法语学习。先声教育的 CLUF 模型在英语学习上获得了第一名的好成果,在西班牙语学习及法语学习上获得了第二名的成果。
雷锋网 AI 研习社:竞赛进程中的最大难点是啥?
先声教育 CTO 秦龙:首要难点有二:一是言语类学习以词汇、短语量巨大,且语法、分配凌乱著称,是自习气学习最难落地的学科,此外本次大赛查询多个语种,包括英语、西班牙语、法语;二是学习行为数据时刻跨度长达 3 个月,数据量极端巨大,跨越 100 万个语句,掩盖 6000 多论理学生,使学习行为的数学模型愈加凌乱。
跟着这些年互联网、人工智能等技能与教育的交融,核算机使用程序添加,教育作业堆集了许多学生学习数据,可以使用来驱动完成特性化学习,当前数学学科方面也获得了一些发展。但关于一门言语的学习,常识点更纤细、触及词汇的互动常识、形状句法处置等更为凌乱,加上需要分析极端巨大的数据群,关于数学模型的练习难度极大。
雷锋网 AI 研习社:据咱们晓得,当前国内自习气学习大多是根据常识图谱这样的一个体系,第二言语习得建模这样的使命跟常识图谱有啥差异吗?
先声教育 CTO 秦龙:自习气学习可以分为两个期间:1)以举荐体系为基础的浅层自习气期间;2)以学习行为建模为基础的深度自习气期间。当前国内大大都公司仍处于浅层自习气期间,从本次大赛英语第一的作用看,先声教育自习气体系已成功首先步入自习气学习的中心深度期间。
咱们先声团队运用的 CLUF 是一种根据深度学习的 Encoder-Decoder 模型,它由四个 encoder 构成,别离是语境编码器 Context Encoder、言语学特征编码器 Linguistic Encoder、用户信息编码器 User Encoder、题型信息编码器 Format Encoder,最终由解码器使用编码器输出的高维特征作出猜测。
语境编码器用来编码语句的言语环境,它由一个字母等级的编码器与一个单词等级的编码器构成。字母等级编码器是一个层级式的循环神经网络规划,单词等级编码器则是一个双向长短期回想神经网络 LSTM;言语学特征编码器也是一个 LSTM 规划,首要用于编码获取的言语学特征,为语境编码器供给额定的信息;用户编码器是一个全联接的规划,用于记选用户的第二言语才能与学习前史;题型编码器则是用来编码题型、答题方法等信息。
雷锋网 AI 研习社:先声的模型和其他参加团队具体有哪些不一样,优势在哪里呢?
先声教育 CTO 秦龙:咱们的 CLUF 模型最大的优势在于,经过把不一样类型的特征分组,用契合相应特征的网络规划进行编码来发掘数据的内在方法,CLUF 获得了非常超卓的作用,在该使命上 Singsound AI 团队打败了来自于剑桥大学、纽约大学、首都东京大学、加州大学等团队。
在其他参赛部队中,纽约大学也获得了不错的成果。他们的体系会获取用户、词汇、上下文等根据认知科学、言语学的特征,然后运用梯度前进抉择计划树 GBDT 模型进行建模。在西班牙和法语学习中获得最佳分数的是来自于瑞典的 SanaLabs,他们选用了 ensemble 的办法,也就是运用多个不一样的模型进行猜测,然后对多个模型的猜测成果进行加权组合的办法。实践上,关于类似的竞赛使命,大会组织方是不建议选用 ensemble 的办法的,因为这样无法判别具体的模型究竟对该使命是不是有用。为此,在组织方的总结陈述中,大会组织者进行了的 ensemble 模型交融分析。很显着,交融一切团队的体系可以获得非常好的作用。一起,在该交融体系中,先声教育的 CLUF 的奉献最大,其次是纽约大学的体系,SanaLabs 的体系权重最低。
雷锋网 AI 研习社:关于本次大赛一切参赛团队的全体成果,您关于自习气学习技能的将来抱有怎样的观点呢?
先声教育 CTO 秦龙:从大赛的全体成果看,现
期间自习气学习技能的作用比照旷达。在同天然言语处置/核算言语学领武士物、斯坦福大学核算机系 Christopher D. Manning 教授的交流进程中,Manning 教授点评道:「在天然言语处置与核算言语学领域,这些年不断地有新的办法新的疑问被提出,致使了学术界工业界的广泛重视,在有关领域的研讨人员部队也在不断健壮。经过本年的 NAACL SLAM 竞赛,可以看到自习气学习技能落地的显着作用,也等待将来自习气学习技能跨界教育,使用于更广泛的领域。」
先声教育创始人及 CEO 陆勇毅关于公司的打开和期望曾这样标明:「先声作为一家人工智能公司,当前现已效能业界近百家公司,咱们一向坚持着翻开的心态,非常情愿将每个期间的研讨作用翻开给国表里更多公司,助力 AI 晋级教育作业。而且将来期望凭仗技能的优势,跨界赋能更多作业,推进智能化年代到来。」AI 研习社也将持续重视先声教育在自习气学习技能的打开。