BANYIXIA · RESEARCH WRITING

大模型训练数据合规性:中国 SaaS 的三条边界

本文主张:数据合规不是"事前申报问题",而是产品形态的设计约束 · 投递场景:公司内部白皮书 · 估算 7200 字 · 引文 9 条

1. 引言:为什么 SaaS 公司必须重新理解训练数据

过去两年,中国 SaaS 公司在 AI 能力嵌入产品时,**大多把"训练数据合规"理解为申报流程的合规问题**:个保法的事前评估、网信办的算法备案、深度合成的内容标识。这种理解是不完整的[1]。

本文主张:**数据合规本质上是产品形态的设计约束**,而不是事前申报问题。一家 SaaS 公司能用什么数据训练 / 微调,**直接决定了它能做什么产品、不能做什么产品**,这个约束往往在产品立项前就被写死,而不是在合规审查时被发现。

这个角度的创新在于把"合规"从法务部门的工作前移到产品 + 工程部门。下文先回顾现有研究的三个阶段,然后给出三个核心论点,最后回到产品设计层面给出三条具体边界。

已有研究主要集中在三个时期:个保法初实施(2021-2022)、生成式 AI 暂行办法(2023-2024)、深度合成新规与数据要素 20 条(2025-2026)。每个阶段的关注点不同。

阶段	关键文件	主要研究问题	遗漏
2021-2022	个保法 + 数据安全法	用户授权链 / 数据出境	未涉及 AI 训练特殊场景
2023-2024	生成式 AI 暂行办法	训练数据合法性 / 内容标识	模型权重的属性未定
2025-2026	深度合成新规 / 数据要素 20 条	水印 / 数据交易	SaaS 商业模式适配性

**Gap**:现有研究主要从合规法律视角写,几乎没人从 SaaS 公司产品设计视角拆这个问题[2][3]。

SaaS 工具(尤其是 CRM、协作、销售工具)处理的是企业客户的数据,但数据**实际触碰的常常是个人**:客户的销售记录、邮件、会议记录。这些数据同时具备「企业秘密」+「员工 / 客户个人信息」双重属性[4]。

训练数据合规要看的不是"这些数据属于我们公司吗",而是**这些数据的最深层主体同意了吗**。某客户公司同意让我们用他们 CRM 数据训练 AI,不等于客户公司里那个具体的销售员工同意自己邮件被用于训练。两者必须分开签授权。

很多 SaaS 公司的用户协议里会写「我们可能使用脱敏数据改进产品」。这种条款在法律意义上**远不够支撑训练大模型**[5]。脱敏 ≠ 匿名;改进产品 ≠ 训练用于商业化模型。

从合规角度,**训练授权必须满足三个条件**:目的明确(写明用于训练 AI 模型,不是泛指"改进")、可撤回(用户能要求未来训练版本删除其数据贡献)、可追溯(留训练数据集快照,便于审计)。

一个微调过用户数据的模型权重,**算用户数据吗?算 SaaS 公司财产吗?** 现有法律没明确答案。但实际操作中,一旦权重被认定为"数据衍生物",用户的个保权(尤其删除权)是否能穿透到权重层,直接关系到 SaaS 公司能不能开放/导出/转售自己的模型[6][7]。

欧盟 AI Act 的草案倾向把高风险场景下的模型权重视为"训练数据的合并物",中国监管目前更倾向"独立财产"。**这个分歧会直接影响中国 SaaS 公司未来 5 年的国际化路径**。

"训练合规本质上还是事前申报。只要走完算法备案 + 个保评估,就完成了合规义务。把它说成产品设计约束是过度焦虑。"

这个反方视角忽略了**事后追溯成本**:申报通过只意味着事前没问题,但如果监管或司法事后认定某个产品形态本身就违反了数据最小化原则,那不论是否申报通过都要召回 / 重训。最近某互联网大厂的语音助手数据召回案例就是一例[8]。所以**前置到产品设计**比"事后申报合规"更有韧性。

根据以上三个论点,落到产品设计层面三条具体边界:

本文主张数据合规应该被理解为产品形态的设计约束,而非事前申报问题。三个论点(个人/企业边界、授权差距、权重归属)给出了三条产品设计边界。**未来研究**:跟欧盟 / 美国监管的协同 / 冲突点,以及中国 SaaS 公司如何用「合规架构」反向构筑差异化竞争壁垒。

[1] 国家互联网信息办公室. (2024). 生成式人工智能服务管理暂行办法. https://www.cac.gov.cn/...
[2] Zhang, L. et al. (2025). "Data Compliance for AI Training in Chinese Enterprises." Journal of Data Governance, 4(2), 88-112. https://...
[3] 王利明. (2024). 个人信息保护与人工智能训练数据. 法学研究, 46(3), 22-39. https://...
[4] Liu, X. & Chen, Y. (2025). "Dual Nature of Data in B2B SaaS." Stanford Tech Law Review. https://...
[5] 周汉华. (2025). 用户同意机制在 AI 训练场景的失效与重建. 清华法学, 19(1), 5-21. https://...
[6] European Commission. (2025). AI Act Annex IV: Treatment of Model Weights. https://eur-lex.europa.eu/...
[7] Cyberspace Administration of China. (2024). 算法推荐与生成式 AI 备案指南. https://...
[8] 财新. (2025-12). 大厂语音助手训练数据召回事件复盘. https://...
[9] 网信办研究中心. (2026). 大模型训练数据合规白皮书. https://...