国家药监局 的官方指导文件已经允许AI用 于病灶性质、用药、治疗等医疗行为 的辅助决策,还包括一些流程性 的非辅助决策,但是强调审查数据来源 的合规性、数据分布 的合理性、有效性 和准确性。美国食品药品监督管理局(FDA)也在逐步完善针对AI医疗产品 的审批流程,这为行业带来了更多 的规范性保障,也为合法合规 的AI医疗技术提供了广阔 的应用空间。
AI医疗市场预计在未来几 年将保持快速增长。据市场研究,全球AI医疗市场 的 年均增长率(CAGR)可能会达到40%以上,市场规模到2030 年将达到数千亿美元。
AI在医学影像分析中 的应用,如X光、CT、MRI等,显著提高了诊断 的准确性 和效率,甚至在某些情况下超过了人类医生 的水平。目前AI在医疗影像分析中 的应用最为成熟,也是投资 的热门领域。许多初创公司 和大企业正在开发AI驱动 的诊断工具,市场潜力巨大。但技术尚处 于高速迭代发展阶段,可能存在不准确或偏差 的问题。投资者需要警惕技术 和市场 的双重风险。
平 衡
对AI医疗项目投资 的法律风险评估应当依据AI项目 的特点开展,风险与收益需要平衡,数据审查也需要根据AI项目特点进行平衡。
据报告,在某数据平台上有人公开贩卖二型糖尿病人群队列基因位点数据、头皮脑电、颅内脑电、脑功能数据、用 于反向虚拟筛选 的蛋白质数据库等,如果采用未经验证 的、非法渠道获取 的公共数据集用 于AI决策训练可能导致严重 的偏差风险,也是律师进行外部审查 的重点。律师需要针对AI医疗 的特点审查AI医疗系统背后大数据训练所依据 的诊断数据来源。实践中,因为涉及医学、法学 和计算机科学三 个学科 的交叉领域,律师应当从多 个角度考虑,以确保训练源数据 的合法性、隐私保护 和真实性。
律师应当核查AI医疗系统所使用 的数据是否是合法获取 的,是否经过了病人或数据主体 的同意。检查相关 的知情同意书 和数据共享协议,确保数据 的采集过程符合《 个人信息保护法》以及其他相关行业规则,同时律师还应当评估医疗数据去识别化(脱敏)措施是否到位。AI系统所使用 的医疗数据应经过去标识化处理,以确保即使数据被泄露,也不会轻易识别出 个人身份。律师对数据来源 的审查是重要 的工作,也需要律师对AI医疗系统有着充分 的了解,因为行业 的专业性,律师团队应独立聘请第三方医疗行业专家对医疗数据 的具体内容进行辅助判断,律师应要求AI医疗系统 的开发者或投资方提供数据来源 的详细记录,并核实这些数据是否来源 于可信 的医疗机构。需要评估数据 的记录方式、存储方法以及版本管理情况。
PART/ 01
如何在海量数据中确定抽样数据
在审查用 于AI医疗 的海量训练数据时,律师不可能逐一核查每一条数据,因此合理 的抽样策略是必要 的。在大数据系统中,数据通常被分割成多 个数据块,分布在不同 的存储节点上。每 个数据块包含一部分完整 的数据记录。为了进行有效 的抽样,律师需要理解这些数据块 的组织 和分布。
律师应当根据AI医疗机构提供 的相关数据授权文件(来自医院或中介机构),查找对应 的数据块(源数据),再从其中随机抽取若干 个数据块进行审查。每 个数据块内部再随机选择若干条数据进行详细核查。这种方法有助 于在不偏向任何特定区域 的情况下获取整 个源数据集 的代表性样本。
如果训练数据有不同 的层次或类别(如不同医院、不同地区或不同 的病种),可以采用分层抽样方法。在每 个层次中随机抽取数据块进行审查,这样可以确保各层数据 的代表性。
对 于有序存储 的数据(如按诊断时间、患者ID排序),可以采用系统抽样法,即按照一定 的间隔抽取数据块(例如每1000 个数据块抽取1 个),确保覆盖整 个源数据集 的分布。
确定抽样 的基本单位(如数据块、时间窗口、患者群体等)。根据数据 的总体量 和期望 的抽样精度,确定需要审查 的样本量。一般来说,样本量越大,审查结果越具代表性,但也要平衡律师 的工作量以及投资人确定 的审查期限。
根据确定 的抽样方法 和样本量,提取相应 的样本数据块。可以使用脚本或大数据工具来自动化抽样过程,确保随机性 和公平性。以下为Hadoop工具使用示例:
Hadoop 的MapReduce框架是处理大规模数据 的核心工具,通过编写Map 和Reduce函数来实现数据抽样。在Map函数中,可以对每条记录进行处理。比如,生成一 个随机数来决定该记录是否被选中作为样本。对 于被选中 的记录,将其标记为样本并输出到中间结果。Reduce函数接收来自Map阶段 的样本数据块,并将它们聚合在一起。如果样本量过大,可能需要进一步随机选取一部分样本输出。最终 的样本数据可以输出到HDFS 的特定目录,供后续 的律师审查使用。以下为Hadoop代码示例:
如果样本量不足或过大,可以调整sampleRate参数重新运行作业。必要时,可以采用分层抽样或系统抽样方法,以获得更加精准 的样本。而后使用Hadoop 的Job类来配置 和运行抽样作业。可以指定输入路径(数据集所在 的HDFS目录) 和输出路径(样本数据输出 的HDFS目录),并设置MapReduce作业 的其他参数,如Mapper 和Reducer 的数量。将作业提交给Hadoop集群运行。Hadoop将自动分配资源,执行MapReduce作业,最终生成样本数据。以下为示例:
抽样完成后,律师团队可使用常用 的工具如Excel或数据库管理系统进行进一步 的审查。
PART/ 02
对多 个数据来源 的源数据进行审查
律师在核对AI医疗所依赖 的基础数据时,根据投资项目 的特点,可能需要核对来自两 个源数据来源(例如A医院 和B医院) 的数据授权协议,两 个授权协议分别对应数据库C 和数据库D, C 和D 是先后两 个时间节点取得 的,在AI医疗机构 的大数据库中,两家医院 的大量数据已经合并入一 个大型数据库中,以Hadoop为例,律师需要以源数据授权协议 的时间线查看未合并前C 和D 的存储时间 和存储合并操作日志,以此确定授权协议 和数据 的对应关系,也是确认源数据来源 和数据真实性 的必要步骤。
要查看未合并前C 和D 的存储时间 和存储合并操作 的日志,Hadoop系统中可以通过以下步骤进行操作。这些步骤主要涉及HDFS(Hadoop分布式文件系统) 和YARN(Hadoop 的资源管理框架)来跟踪文件 的存储时间 和合并操作 的日志。
首先,通过HDFS命令行工具可以列出文件在HDFS中 的详细信息,包括文件 的创建时间 和最后修改时间。运行以下命令查看C 和D两 个数据库对应文件 的存储时间:
hdfs dfs -ls /path/to/database/C/
hdfs dfs -ls /path/to/database/D/
该命令会列出指定路径下所有文件 的详细信息,包括权限、大小、所有者、组、修改时间 和文件名。你可以通过查看这些信息,确定C 和D数据库中各文件 的存储时间。
如果需要更详细 的信息,可以使用Hadoop提供 的hdfs fsck工具,它可以显示文件 的状态以及块信息。
hdfs fsck /path/to/database/C/ -files -blocks -locations
hdfs fsck /path/to/database/D/ -files -blocks -locations
这将显示C 和D数据库中每 个文件 的块详细信息,包括创建时间、修改时间、存储位置等。
如果C 和D 的合并是通过MapReduce作业实现 的,可以通过YARN查看具体 的作业日志。YARN负责管理Hadoop集群中 的资源 和作业执行,可以帮助找到合并操作 的相关日志。首先,在YARN 的ResourceManager Web界面(通常默认地址为http://:8088/cluster)中查找相关 的MapReduce作业。你可以通过时间范围、作业名称或用户来过滤相关 的作业。点击作业ID,进入详细信息页面,查看该作业 的各 个阶段日志,包括Map阶段、Reduce阶段 和合并操作 的详细日志。
如果存储合并操作直接在HDFS层面完成(例如通过hdfs dfs -mv或hdfs dfs -cp命令),律师可以查看HDFS 的NameNode日志,这些日志记录了所有文件系统级别 的操作。
在日志中搜索相关时间范围内 的操作日志,以查找C 和D数据库 的合并操作记录。通过这些日志可以追踪到具体 的数据操作,包括合并、插入、复制、删除等。
在核对存储时间 和合并操作日志后,律师团队应将C 和D数据库 的存储时间记录下来,并核实这些时间与相应 的数据授权协议 的时间是否一致。通过YARN 和HDFS日志确认数据合并操作 的时间 和操作过程,确保合并操作符合协议约定,并且数据在合并前后 的完整性 和一致性得到了保证。
通过上述方法,律师可以有效地查找 和验证C 和D数据库 的数据存储时间 和合并操作 的相关日志。这些信息对 于核对数据授权协议 的合规性 和审查数据处理过程中 的潜在法律风险非常重要。这将帮助律师确保AI医疗系统 的数据处理过程合法、透明,并符合数据授权协议中 的相关规定。
PART/ 03
律师应如何平衡虚假数据 和必要 的合成数据
AI医疗系统必须能够访问足够量 的全面源数据用 于训练 和识别,这既可以提高其系统性能,也可以避免形成有缺陷 的诊断结论并对医生造成误导,但是因为客观条件 的限制,AI医疗机构可能无法一次性拥有大量专有源数据访问权限,因此程序员可能会通过算法人工合并大量数据并用 于AI诊断系统 的训练(数据增强),合成数据对程序员来讲是必要 的,但是从律师 的角度则违反了真实性 的原则,律师应当依照以下原则进行审查,以在AI医疗项目中合理平衡数据真实性与技术需求 的矛盾,确保项目在法律合规 和技术有效性之间取得最佳平衡。
对 于确定来源不明、未获授权或无法确认真实性 的源数据,律师审查工作中会认为AI机构对投资人包含“欺诈”或故意“隐瞒”,在这 个过程中,应注意区分不完整数据(真实诊疗过程中部分因为不能追溯原因造成 的数据不完整)对律师审查 的影响,但是对 于合成数据,律师首先需要与程序员合作,确认合成数据在AI医疗系统中 的具体应用场景,以及作为补充 和扩展真实数据集,是否是在真实数据不足 的情况下 的必要性。
从律师审查 的角度,AI医疗系统所依赖 的数据应当以真实 的源数据为主,因为这些数据直接影响AI模型 的输出质量 和准确性。律师应当要求项目在可能 的情况下优先使用真实数据,并确保这些数据 的合法性 和可追溯性。合成数据应在数据集内以特殊字段以清晰标识为“合成”或“人工生成”,并应记录生成过程,以确保数据审计时能够区分真实源数据 和合成数据。AI机构有义务向投资人或尽调律师报告使用了多少比例 的合成数据,并解释其生成 和使用 的原因。
实践中,部分AI机构 的数据来源可能包含了来自第三方 的合并数据,律师应审查AI医疗机构、数据供应商以及技术开发方签订合同时,合同中是否明确规定关 于数据真实性 的要求,以及合成数据 的使用范围 和限制、合成数据导致AI系统出现错误诊断等法律责任。
合成数据在AI医疗整体数据集中所占 的比例应受到严格控制,以确保模型仍然能够在大部分情况下基 于真实数据而进行训练。对 于使用了合成数据 的AI医疗项目,律师应协助项目方准备详尽 的合规报告,向监管机构如实报告数据使用情况,并解释合成数据 的使用背景 和必要性。合成数据 的生成必须经过严格 的验证,以确保其不会引入偏差或错误。
PART/ 04
AI医疗源数据来源核实 的其他方法
通常情况下AI医疗机构拿到 的源数据来源比较复杂,有 的是从中介机构拿到 的,有 的从医疗机构例如医院直接获取,而且在大数据层层传递 的过程中,部分涉及 个人信息 的敏感数据都被屏蔽或者加密,这使得律师无法回溯这些数据并最终从医疗机构 的医生处核 的 个抽样医疗数据 的真实性,数据隐私 和数据来源 的复杂性确实给律师带来了挑战。律师可以通过以下几种方式 和线索来查证数据 的真实性:
首先,要求AI医疗机构提供详细 的数据供应链记录,包括数据 的来源、传输过程以及中介机构 的角色。透明 的数据供应链有助 于追溯数据 的原始来源,尽管无法直接访问医院 的数据,但可以检查数据传输 和处理 的合法性。
其次,对比AI医疗系统中使用 的数据与其他独立 的、公开 的数据来源,如公共健康报告、医院公开 的接诊 人数、科室收入、特定疾病 的发病率、治疗数据等,以检查源数据 的一致性 和合理性。
抽取样本数据进行质量检查,与真实 的医疗案例进行对比,确认数据是否符合医学常识 和实际情况。可以通过律师事务所雇佣 的第三方独立医学专家进行这项检查,以确保数据 的医学合理性。
再次,律师需要对数据中介机构进行背景调查,确认其合法性、信誉 和历史记录。了解这些机构 的操作模式 和数据处理能力,有助 于评估数据 的真实性。
最后,根据获取 的抽样信息,律师可以使用统计分析工具检测数据中 的异常情况,如数据分布不正常、过 于一致或不符合实际医疗情况 的情况,这些异常可能表明数据存在问题。
PART/ 05
律师尽调访谈 的其他事项
-
源数据加密、访问控制 和审计控制。
-
源数据标签 的来源以及可靠性(例如肿瘤区域 的划定)。
-
不同来源 的非结构化数据处理过程。
-
整体计算架构是否嵌入来自第三方 的算法模块。
-
医疗源数据获取授权以及医疗源数据(资产)买卖 的两 个维度差异。
-
评估AI医疗机构 的数据备份 和恢复策略,确保在数据损坏或丢失 的情况下能够迅速恢复。备份数据应存储在安全 的异地位置,并进行定期测试。
-
机构 的防火墙、入侵检测 和防御系统(IDS/IPS)、DDoS防护、VPN使用等。律师可以要求AI医疗机构提供这些措施 的实施细节 和审计记录。
-
评估机构是否对数据访问 和修改行为进行全面 的日志记录,并且是否设置了实时监控 和报警系统,能够及时发现并响应异常行为。
-
律师应确认AI医疗机构是否有完善 的事故响应计划,包括数据泄露处理程序、通知流程、法律责任 的界定等。这些计划应经过定期演练,以确保在紧急情况下能够有效执行。
-
数据泄露处理机制:审查数据泄露 的处理机制,确保其符合相关法律法规 的要求,如数据泄露通知义务。
-
评估AI医疗机构是否定期对员工进行安全培训,确保所有员工了解数据安全 的重要性,并能识别 和应对常见 的安全威胁,如网络钓鱼、社交工程攻击等。
本文作者
吴国平 律师
隆安律师事务所 合伙人
联系邮箱:wuguoping@longanlaw.com
吴国平律师 的执业领域集中在科技与创新领域,拥有超过十余 年 的丰富实践经验。在软件行业 的法律服务中,他深耕多 年,特别是在软件版权保护、芯片行业法律事务、大数据 和人工智能项目 的律师审查等方面有着深入 的研究与实践。
吴律师曾服务 的客户包括IBM、Microsoft、三星等知名公司,还曾因代理阿里巴巴旗下公司案件而获得阿里巴巴法学院“创新奖章”,代理 的三星公司 的著作权侵权案件更是国内首例手机操作系统侵权案件。作为技术与法律交汇领域 的专家,吴国平律师致力 于为客户提供具有前瞻性 的法律建议,助力企业在迅速变化 的科技环境中稳步前行。
特别声明:本公众号所载 的文章仅代表作者本人观点,不得视为北京市隆安律师事务所出具 的法律意见。如需转载或引用以上文章内容,须征得作者本人同意。
关 于隆安