让机器“读懂”医疗 天衍实验室获CHIP2020评测两大奖项

  日前,第六届中国健康信息处理大会举办的中文医学信息处理评测竞赛圆满结赛,腾讯天衍实验室依托其在医学领域的长期技术积累和创新探索,一举获得“中文医学文本命名实体识别”赛道冠军、“中文医学文本实体关系抽取”赛道亚军。

新浪棋牌

  信息抽取技术方案突破升级

  对于医学领域的自然语言文献,例如医学教材、医学百科、临床病例、医学期刊、入院记录、检验报告等,这些文本中蕴含大量医学专业知识和医学术语。将实体识别技术与医学专业领域结合,利用机器读取医学文本,可以显著提高临床科研的效率和质量,并且可服务于下游子任务。但要想让机器“读懂”医学数据,核心在于让计算机在大量医学文本中准确的提取出关键信息,这就涉及到了命名实体识别、关系抽取等自然语言处理技术。

  新浪棋牌游戏命名实体识别和关系抽取是信息抽取的两大核心任务。命名实体识别旨在抽取所需实体,以医疗领域为例,需要从非结构化医学文本中找出医学实体,如疾病、症状的过程;实体关系抽取则需要同时提取出医学实体及实体间的关系信息,即实体关系三元组[头实体,关系,尾实体]。

  实体关系三元组示意

新浪棋牌

  在两大评测任务中,腾讯天衍实验室从数据和模型层面做出了针对性设计。在命名实体识别任务中,天衍实验室使用的数据集由北京大学等院校及科研单位智慧医疗课题组联合构建。基于医疗领域对专业性、准确性的高标准要求,及目前命名实体识别任务存在的实体频次稀疏和实体长度偏长问题,天衍实验室采用指针解码的特殊方式,对单个实体的头尾位置进行解码,经过试验证明,该方法在较长实体中的表现确有明显提升。同时,天衍实验室基于自身在医疗领域的经验,尝试结合大量医疗文本训练领域自适应的新预训练模型,进一步提升了模型表现。最终在评比测试集上,结合多种不同策略,天衍实验室以F1值68.35获得第一名。

  新浪棋牌实体关系抽取评测任务的数据来源于中文医学信息抽取数据集CMeIE,也是目前最大的中文医学关系数据集。因该数据中存在大量实体重叠和关系重叠的现象,天衍实验室则采用了层叠指针网络的基础架构。首先通过两个二值分类器提取头实体的首尾位置,继而采用Conditionallayernormalization的方式融入头实体信息,再针对每种关系,分别预测对应的尾实体。此外,为了更好地利用医疗词汇的语义信息,天衍实验室在输入层融入领域词向量,有效提升了实体边界预测的准确率。最终在测试集上取得单模型第一,融合模型第二的成绩。

(责任编辑:新浪棋牌)

本文地址:http://www.uxun8.com/qinggan/202109/2530.html

上一篇:湖北宜昌“回礼”蒙古国 7000份“好茶”启运

下一篇:安倍或公开接受“赏樱会”相关质询自民党正探讨

相关阅读

留下评论

(必填)

(必填)