医疗大模型训练数据,除了脱敏之外,至少还要做下面的工作
1、完整的医疗数据,即便做了基础的去标识化工作,也很容易反向推断定位到某个个体,所以要进一步加强:泛化(32岁改为30~40岁)、模糊、并引入噪声
2、医生不是神,并非所有的诊断都是对的、并非所有治疗方案都是最佳的,不合适的数据剔除很难
3、医疗数据的归属权有争议(极端一些,比如一个人在一家医疗机构做了全基因测序,测序结果是这家医疗机构的吗),需要获取患者授权,最好能给予收益分成
4、医学伦理、社会道德、大众接受程度这些问题,要考虑在前面
5、医疗数据在部分国家地区是不允许高度集中的,分散在各机构服务器中(医院、体检机构、公卫机构),所以要数据不动模型动,采用类似联邦学习的技术