最近,信息检索领域国际顶级学术会议WSDM(Web Search and Data Mining)宣布了WSDM CUP 2023竞赛成绩。
来自腾讯研究团队在无偏排序学习和互联网搜索预训练模型赛道上的两项任务中获得冠军。
ACM WSDM(Web Search and Data Mining) 会议是信息检索领域顶级会议之一,由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会协调筹办,在互联网搜索、数据挖掘领域享有较高学术声誉。
WSDM Cup正是由WSDM会议举办。本届 WSDM Cup 共计400余支队伍参加,分别来自中国、美国、新加坡、日本、印度等国家的知名高校和公司。
大赛共设置三个赛道:
无偏排序学习和互联网搜索预训练模型赛道(Unbiased Learning to Rank and Pre-training for Web Search);
跨语言连续体的多语言信息检索赛道(Multilingual Information Retrieval Across a Continuum of Languages);
视觉问答挑战赛道(Visual Question Answering Challenge)。
此次,腾讯机器学习搜索团队在第一个赛道的两项子任务中(Pre-training for Web Search和Unbiased Learning to Rank)获得冠军。
目前两项成果代码和论文均已发布到GitHub上。
两项任务冠军
深度学习领域,数据标注的质量对于模型的效果有着较为显著的影响。
但是较高的标注数据成本一直是研究团队的阻碍之一,如何从技术上利用无标注的数据训练模型自然成为了成为学术界和工业界关注的热点。
本次比赛,针对基于搜索的预训练任务(Pre-training for Web Search),腾讯团队通过大模型训练、用户行为特征去噪等方法,在点击日志上进行基于搜索排序的模型预训练,进而使模型有效地应用到下游相关性排序的检索任务。
通过预训练、模型微调、集成学习等多方面的优化,在人工标注的相关性排序任务上取得了较大的领先优势。