《人工智能医疗器械监管研究进展.docx》由会员分享,可在线阅读,更多相关《人工智能医疗器械监管研究进展.docx(21页珍藏版)》请在第一文库网上搜索。
1、人工智能医疗器械监管研究进展目录1 .序言12 .人工智能医疗器械的监管挑战23 .人工智能医疗器械的监管思路34 .人工智能医疗器械的监管考量44.1. 分类界定44 .2.技术审评55 .3.体系核查66 .人工智能医疗器械的监管研究展望77 .附录:美国人工智能医疗器械监管与应用分析86.1.本文摘要:86.2.引言86.3.美国人工智能医疗器械注册框架96.3.1.上市前风险分类管理96.3.2.软件预认证试点项目106.3.3.人工智能医疗器械预修正框架116.4.上市产品情况126.4.1.产品分类及用途126.4.2.产品审批特点166.5.讨论与总结176.6.参考文献181
2、.序言人工智能医疗器械具有自身特性其监管问题已成为国际医疗器械监管领域的研究焦点之一,亟需深入研究。本文介绍了人工智能医疗器械所面临的监管挑战,提出了人工智能医疗器械监管的总体思路,在分类界定、技术审评、体系核查等方面重点讨论了人工智能医疗器械的监管考量,并就今后的人工智能医疗器械监管研究方向提供相关建议。2019年7月,我国成立人工智能医疗器械创新合作平台,以促进人工智能医疗器械监管研究;同时在全球率先发布深度学习辅助决策医疗器械软件审评要点,明确人工智能医疗器械审评关注重点,引发国际广泛关注。2020年至今,我国大力推进人工智能医疗器械监管研究积极参与国际医疗器械监管机构论坛(IMDRF)
3、人工智能医疗器械工作组、国际电信联盟/世界卫生组织医学人工智能焦点组(ITU/WHOFocusGrouponArtificialIntelligenceforHealth)等国际监管协调工作;先后制定和发布多项相关指导原则、审评要点和行业标准,陆续批准20余项第三类深度学习辅助决策类独立软件产品上市,标志着我国人工智能医疗器械监管研究已取得阶段性成果。时值医疗器械监督管理新法规实施之阮及时对人工智能医疗器械监管研究进行总结和展望,不仅有利于提升监管能力和水平,持续推进人工智能医疗器械监管研究,而且有利于指导注册申请人做好产品质控工作,切实促进人工智能医疗器械产业健康发展。2 .人工智能医疗器械
4、的监管挑战人工智能医疗器械是采用人工智能技术实现其医疗用途的医疗器械其监管挑战主要源自于人工智能技术所具有的特性。人工智能技术具有快速迭代特性,特别是基于数据的算法。算法更新对于人工智能医疗器械安全性和有效性的影响具有不确定性,可能会提升产品性能,也可能会降低产品性能,甚至导致产品召回。若每次算法更新均需变更注册,不仅会大幅增加注册人负担,而且会占用大量监管资源。如何规范人工智能医疗器械算法更新的监管要求,是监管研究的重点。人工智能技术需要高质量医学数据进行算法训练,尤其是基于数据的算法。由于受多方面客观条件的限制,算法训练所用数据存在数据质量不高、数据量不足、数据多样性不够、数据分布不合理等
5、问题,易引入算法偏倚,降低算法泛化能力,导致产品难以在临床落地。如何控制人工智能医疗器械的算法偏倚以保证算法泛化能力,也需要深入研究。人工智能技术包含黑盒算法黑盒算法可解释性差。由于医疗决策路径复杂存在不确定性和开放性,故因果性对于医疗决策至关重要。而黑盒算法仅是反映输出与输入的相关性而非因果性,难以与现有医学知识建立有效关联,用户知其然不知其所以然,不利于后续医疗决策。如何提升人工智能医疗器械所用黑盒算法的透明度以增强可解释性,亦需加强研究。此外,人工智能技术包含多种算法,不同算法虽有不同技术特征,但相互之间存在着交叉、包含等关系,没有清晰严格的划分界线。同时,不同算法在医疗场景应用的情况和
6、程度也不同,存在着单独使用、组合使用等情况,划分界线也不清晰。这些模糊性使得人工智能医疗器械的监管范围难以确定。3 .人工智能医疗器械的监管思路人工智能医疗器械从医疗器械软件角度可分为人工智能独立软件(软件本身即为医疗器械,SaMD)和人工智能软件组件(医疗器械内含的软件,SiMD),二者虽存在技术差异,但软件生存周期过程质控原则相同,故监管要求基本一致。人工智能医疗器械作为医疗器械软件的子集亦属于数字医疗(DigitalHealth)范畴,其监管思路遵循数字医疗监管的框架和原则,同样采用基于风险的全生命周期管理方法进行监管,同时兼顾国际监管经验和技术发展趋势。基于风险是指人工智能医疗器械的监
7、管要求取决于其风险水平,风险水平越高监管要求越严,其风险水平采用软件安全性级别进行表述,分为轻微、中等、严重三个级别,可结合人工智能医疗器械的预期用途、使用场景、核心功能进行综合判定。全生命周期管理是指在医疗器械质量管理体系框架下,明确人工智能医疗器械生存周期过程质控要求,涵盖上市前和上市后监管要求,并可参考良好机器学习实践(GMLP)进行完善。同时,需要将国际监管经验和中国国情相结合,综合考虑人工智能医疗器械的监管要求。不同国家的国情不同,医疗器械监管的范围、模式、资源、条件等方面均有所不同,因此国际监管经验可以参考借鉴但不能简单照搬照抄。比如,美国FDA正在制定“预定变更控制计划”用于控制
8、人工智能独立软件的更新,待成熟时扩至人工智能软件组件,其核心思想是取消原有“算法锁定”要求,制造商可在经美国FDA批准的软件预定更新计划下进行软件更新而无需重新申请注册。由于软件预定更新计划所含内容可能涉及重大软件更新,按照我国现行法规要求需要申请变更注册,因此“预定变更控制计划”在我国存在法规冲突,难以完全实施。再比如,美国FDA正在试点“软件预认证”项目,尝试将独立软件监管模式由基于产品改为基于制造商质量与组织卓越文化(CultureofQualityandOrganizationalExcellence,CQOE),也适用于人工智能独立软件,后续将扩至软件组件。“软件预认证”在优化产品上
9、市流程等方面虽有参考借鉴价值,但从产品上市角度类似于我国已取消的免检产品项目,不适合当前国情。此外,需要结合人工智能技术发展趋势,稳妥考虑人工智能医疗器械监管要求。采用传统人工智能技术的医疗器械已有众多产品获批上市,需要考虑监管要求的延续性,不能置之不顾推翻重来。采用深度学习技术的医疗器械是当前人工智能医疗器械的代表产品,并且处于快速发展阶段可作为切入点予以重点研先采用人工智能新技术的医疗器械处于研发阶段,亦需提前开展监管研究,做好技术储备以应对新挑战。4 .人工智能医疗器械的监管考量围绕人工智能医疗器械所面临的监管挑战基于人工智能医疗器械的监管思路,人工智能医疗器械监管研究在分类界定、技术审
10、评、体系核查等方面取得相应进展。4.1. 分类界定人工智能医疗器械需要明晰分类界定原则确定监管范围。因其属于医疗器械软件子集,故可参考医疗器械软件的分类界定原则,结合其自身特性予以考虑。独立软件是否作为医疗器械管理,通常结合预期用途、核心功能进行判定,管理类别主要基于风险水平进行判定。软件组件作为医疗器械的组成部分,其管理类别通常与所属医疗器械相同,特殊情况参考独立软件分类界定情况并按风险从高原则进行判定。下面以独立软件为例进行重点讨论。由于医学知识的真伪优劣评判不属于医疗器械监管范围,故基于知识管理的医学人工智能软件不是人工智能独立软件,其代表产品是采用自然语言处理(NLP)技术对电子病历的
11、文本信息进行处理分析,生成知识图谱或量表并以此为基础向用户提供医疗决策建议。此类软件的预期用途、核心功能与人工智能独立软件类似,需要引入易于操作的分类界定新维度加以区分。考虑到人工智能独立软件的处理对象基于医疗器械数据(即医疗器械产生的用于医疗用途的客观数据),而此类软件的处理对象基于非医疗器械数据,并且处理对象概念清晰易于操作,故可引入处理对象作为分类界定新维度。因此,医学人工智能软件是否为人工智能独立软件,需结合其预期用途、核心功能、处理对象进行综合判定。人工智能独立软件的管理类别判定需要基于其风险水平,兼顾已上市产品的监管延续性。风险水平可从预期用途、算法成熟度两个维度细化,其中预期用途
12、可分为辅助决策和非辅助决策前者提供医疗决策建议后者提供医疗参考信息前者风险高于后者;算法成熟度可分为成熟算法和全新算法,前者是指算法安全性和有效性已在医疗应用中得到充分证实后者是指算法未上市或其安全性和有效性尚未在医疗应用中得到充分证实,后者潜在风险多于前者。全新算法若用于辅助决策按第三类医疗器械管理,若用于非辅助决策按第二类医疗器械管理;成熟算法无论何种预期用途管理类别保持不变,以保证监管延续性。4.2.技术审评人工智能医疗器械的技术审评不仅要考虑人工智能医疗器械指导原则要求而且要考虑数字医疗等相关指导原则要求,包括但不限于医疗器械软件、医疗器械网络安全、医疗器械人因设计、移动医疗器械、医疗
13、器械临床评价、医用软件通用名称命名等指导原则。技术审评主要结合算法特征和产品特性,综合权衡风险和受益,系统评价安全性和有效性。算法特征不同,评价重点也不同,比如,黑盒算法可解释性劣于白盒算法,需要关注其可解释性提升问题;有监督学习数据标注要求高于无监督学习,需要关注其数据标注质控问题;基于数据的算法对于训练数据量的要求高于基于模型的算法需要关注其数据质控问题。产品的预期用途、使用场景不同,即使采用同一算法,其产品特性亦不同,评价亦有所侧重。风险主要关注过拟合和欠拟合等算法风险,以及假阴性和假阳性等医疗决策风险,进口产品还需考虑中外差异风险。系统评价需结合算法训练、算法性能评估、临床评价等结果对
14、产品的适用范围、使用场景、核心功能进行规范和必要限制,对于前期已开发且不满足要求的产品允许开展差距分析并采取补救措施。在算法更新控制方面,将算法更新分为算法驱动型更新和数据驱动型更新并区分要求,前者是指算法发生实质性变化或者重新训练,属于重大软件更新,需申请变更注册;后者是指仅由训练数据量增加而发生的算法更新,若算法性能评估结果与前次注册相比存在统计学差异则属于重大软件更新,需申请变更注册,反之属于轻微软件更新,无需申请变更注册,通过质量管理体系进行控制,待下次变更注册时提交相应注册申报资料,即无需“算法锁定”。同时,通过软件版本命名规则进行算法更新控制,软件版本命名规则需涵盖算法驱动型更新和
15、数据驱动型更新,列举重大算法更新常见典型情况,在方法学上实与“软件预定更新计划”相同,但更早实施。在算法泛化能力保证方面,训练数据需结合目标疾病流行病学特征,尽可能来源于多家、多地域、多层级的代表性临床机构,以及多家、多种、多参数的代表性采集设备,从而提高数据充分性和多样性,从源头保证算法泛化能力。算法训练需提供训练数据量评估指标曲线等证据,持续监测算法泛化能力。算法验证所用测试集需不同于训练集,以客观评价算法泛化能力,并可结合压力测试和对抗测试深入评价算法泛化能力。算法确认需保证临床评价数据集不同于训练数据集,机构数量尽可能多,地域分布尽可能广泛,以全面评价算法泛化能力。上市后亦需在真实世界持续开展算法泛化能力研究。在黑盒算法可解释性提升方面,算法设计需对黑盒算法开展算法性能影响因素分析,研究影响算法性能的主要因素及其影响程度,根据分析结果明确产品使用限制,并在说明书中予以警示和提示,以提升算法可解释性。同时,明确算法开发生存周期过程质控要求,以提升算法透明度。此外,建议与现有医学知识建立关联,以进