蒋德焕,1796022368@qq.com
汤步洲,tangbuzhou@hit.edu.cn
王磊,lei.wang01@yiducloud.cn
汤步洲,哈尔滨工业大学(深圳)
陈清才,哈尔滨工业大学(深圳)
张江涛,清华大学知识工程实验室
王磊,医渡云(北京)技术有限公司
平安医疗科技智能患者健康咨询问句匹配大赛是由平安医疗科技提供语料支持并负责组织实施的真实场景语句意图匹配任务。
语句匹配是自然语言处理的最基本任务之一,是自动问答、聊天机器人、信息检索、机器翻译等各种自然语言处理任务基础。语句匹配问题的目的是判断两个语句的语义是否等价。语义等价判别主要从语句(主要是问句)所蕴含的意图来判断两个语句是否等价,而不直接判断两个语句是否表达相同的语义,所以其核心是语句的意图匹配。由于来源于真实问答语料库,该任务更加接近于智能客服等自然语言处理任务的实际需求。
本次评测任务的主要目标是针对中文的真实患者健康咨询语料,进行问句意图匹配。给定两个语句,要求判定两者意图是否相同或者相近。所有语料来自互联网上患者真实的问题,并经过了筛选和人工的意图匹配标注。平安云将为报名的队伍提供GPU的训练环境。
给参赛选手的文件由question_id.csv、word_embedding、char_embedding、train.csv、test.csv五个文件构成。question_id.csv为所有脱敏后的问句和其id,有分词和分字两种形式(包含标点符号)。word_embedding和char_embedding分别为预训练好的词和字的embedding(经过脱敏处理)。
train.csv和test.csv分别为训练集和测试集,包含若干对由问题id组成的pair。以label表示问句之间的语义是否相同。若相同,标为1,若不相同,标为0。其中,训练集label已知,测试集label未知。
每个问句均有其唯一的id,选手最终按照以下格式提交评测文件:
question_id_1 | question_id_2 | label |
2 | 4 | 0 |
2 | 5 | 1 |
本任务的评价指标包括宏观准确率(Macro Precision),宏观召回率(Macro Recall),Averaged F1值。最终排名以Averaged F1值为基准。设Q为问题集合,A_i为选手对第i个问题给出的答案集合,G_i为第i个问题的标准答案集合,相关计算公式如下:
4.1 数据来源
本次测评数据主要来自于人工构建与标注。
4.2 训练集&验证集
在数据发布阶段,我们会发布20000条左右标注好的数据(经过脱敏处理,包含标点符号)作为训练数据,供参赛人员进行训练和测试。同时发布10000条左右不含标注结果的测试数据,作为验证集。(数据已发布)
本次任务将采取刷榜的方式,验证集发布后,允许参赛队伍多次向平台提交结果,文件命名为“参赛队名称_valid_result.csv”,格式与任务描述中的示例输出相同,排名随时更新。参赛队伍可在评测集发布之前随时上传验证集的计算结果,管理系统会及时更新各队伍的最新排名情况
评分采用AB榜形式,AB榜是随机划分。A榜数据占40%,B榜使用全量测试集,即占100%。提交文件必须包含测试集中所有pair的预测值。排行榜显示A榜成绩,竞赛结束后切换成B榜单。B榜成绩以选定的两次提交或者默认的最后两次提交的最高分为准,最终比赛成绩以B榜单为准。
测试集发布后,允许参赛队伍多次提交测试集结果文件。
最终提交文件要求:每一个参赛队需提交的材料如下。
1.问句匹配任务测试集结果文件,用“参赛队名称_test_result.csv”命名(UTF-8格式)
2.相关代码及说明
3.方法描述文档
以上三个文件需在任务提交截止日期前发送至邮箱920625863@qq.com。邮件的标题为:“CHIP2018评测2-参赛队名称”,例如“CHIP2018评测2-宇宙队”。
代码及其文档需打包成一个文件(tar,zip,rar等均可),要求提交所有的程序代码及相关的配置说明,程序应当可以运行且所得结果与提交测试集结果文件内容相符。如果方法使用了额外资源,要求说明并提供资源文件或地址。
本次评测将依托biendata平台展开,请有意向的参赛队伍关注平台上的最新消息。
参赛队伍由1~5人自由组队,通过邮件提交报名信息,发送报名表至920625863@qq.com,邮件标题为CHIP2018评测2+参赛队伍名称,报名信息包含参赛队名,成员姓名,联系邮箱,手机号码和参赛队伍名称(报名表见附件一)
此外,请已报名队伍加比赛官方QQ群:628516599。后续比赛信息会在本群公布。联系人:骆迅,920625863@qq.com
平安医疗科技 倪渊,NIYUAN442@pingan.com.cn