复旦大学团队发布中文医疗健康个人助手

机器之心发布

机器之心编辑部

随着远程医疗的兴起，在线问诊、咨询越发成为患者寻求便捷高效的医疗支持的首选项。近来大语言模型（LLM）展示出强大的自然语言交互能力，为健康医疗助手走进人们的生活带来了希望。

医疗健康咨询场景通常较为复杂，个人助手需要有丰富的医学知识，具备通过多个轮次对话了解病人意图，并给出专业、详实回复的能力。通用语言模型在面对医疗健康咨询时，往往因为缺乏医疗知识，出现避而不谈或者答非所问的情况；同时，倾向于针对当前轮次问题完成咨询，缺少令人满意的多轮追问能力。除此之外，当前高质量的中文医学数据集也十分难得，这为训练强大的医疗领域语言模型构成了挑战。

复旦大学数据智能与社会计算实验室（FudanDISC）发布中文医疗健康个人助手 ——DISC-MedLLM。在单轮问答和多轮对话的医疗健康咨询评测中，模型的表现相比现有医学对话大模型展现出明显优势。课题组同时公开了包含 47 万高质量的监督微调（SFT）数据集 ——DISC-Med-SFT，模型参数和技术报告也一并开源。

DISC-MedLLM 是基于我们构建的高质量数据集 DISC-Med-SFT 在通用领域中文大模型 Baichuan-13B 上训练得到的医疗大模型。值得注意的是，我们的训练数据和训练方法可以被适配到任何基座大模型之上。

DISC-MedLLM 具有三个关键特点：

可靠丰富的专业知识。我们以医学知识图谱作为信息源，通过采样三元组，并使用通用大模型的语言能力进行对话样本的构造。
多轮对话的问询能力。我们以真实咨询对话纪录作为信息源，使用大模型进行对话重建，构建过程中要求模型完全对齐对话中的医学信息。
对齐人类偏好的回复。病人希望在咨询的过程中获得更丰富的支撑信息和背景知识，但人类医生的回答往往简练；我们通过人工筛选，构建高质量的小规模指令样本，对齐病人的需求。

模型的优势和数据构造框架如图 5 所示。我们从真实咨询场景中计算得到病人的真实分布，以此指导数据集的样本构造，基于医学知识图谱和真实咨询数据，我们使用大模型在回路和人在回路两种思路，进行数据集的构造。

复旦大学团队发布中文医疗健康个人助手

复旦大学团队发布中文医疗健康个人助手

图片新闻

热门

推荐