英伟达卷入大规模版权侵权诉讼被曝非法获取500TB盗版图书数据

作为全球芯片产业的关键参与者，英伟达因人工智能芯片需求旺盛而业绩持续攀升。

然而，这家科技巨头近日被卷入一场涉及版权侵权的重大法律纠纷，再次将科技企业的数据获取合规问题推至舆论焦点。

根据多位图书作者提交的修订起诉状，英伟达在开发NeMo、Retro-48B等多款自主人工智能模型过程中，蓄意从"安娜档案馆"等"影子图书馆"平台获取海量盗版资料。

涉案数据规模达500TB，包含数百万部受版权法保护的图书著作。

这一指控标志着对英伟达数据合规性的质疑从去年初的Books3数据集问题进一步扩大。

事件的核心在于英伟达的主观故意性。

根据诉讼方在证据开示阶段获得的内部通信记录，英伟达数据战略团队成员曾主动联系"安娜档案馆"，明确寻求获取数百万份盗版资料用于大语言模型预训练。

更为关键的是，"安娜档案馆"在通信中明确告知英伟达其藏书均系非法获取和保存，并要求英伟达高管确认是否已获得内部授权。

尽管如此，英伟达管理层在知晓数据非法性的数天后，仍在一周内批准了合作方案，随后获得了约500TB的盗版数据访问权限。

这一事件反映出当下人工智能产业发展中的深层矛盾。

一方面，大规模文本数据对于训练高性能AI模型至关重要，这使得数据获取成为各大科技企业的战略竞争焦点。

面对激烈的市场竞争和技术迭代压力，一些企业可能倾向于采取更为便捷但风险更高的数据获取方式。

另一方面，传统的知识产权保护制度与人工智能时代的数据需求之间存在明显张力，相关法律框架的滞后性为企业的不当行为留下了空间。

英伟达此前对类似指控的辩称——称书籍对其AI模型仅为"统计关联数据"，属于"合理使用"范畴——已在业界引发广泛争议。

从法律角度看，这一论证面临多重挑战。

首先，"合理使用"原则在美国版权法中虽有一定空间，但通常要求使用者能够证明其行为具有变革性质、不损害原作品的市场价值。

而大规模商业化AI模型训练难以满足这些要件。

其次，英伟达知悉数据非法性仍予批准的事实，进一步削弱了其"善意合理使用"的辩护基础。

这起诉讼的曝光也标志着一个重要转变。

这是美国大型科技公司与"安娜档案馆"往来函件首次被公开披露，说明在司法程序推进下，科技企业与盗版平台之间的合作关系正逐步浮出水面。

此举可能对其他科技企业产生连锁效应，促使业界重新审视数据获取的合规成本与收益权衡。

从更广泛的影响看，这一事件涉及多个相关方的利益平衡。

对于内容创作者而言，未经授权的大规模数据使用威胁到其合法权益。

对于人工智能产业而言，数据合规问题的解决需要建立更加透明、公正的机制。

对于监管部门而言，这要求进一步完善人工智能时代的知识产权保护规则，在鼓励技术创新与保护创意劳动之间找到平衡点。

目前，诉讼程序仍在推进中，英伟达是否向"安娜档案馆"支付数据访问费用等关键问题尚未明确。

可以预见，这一案件的最终判决将对人工智能产业的数据治理产生重要示范效应。

生成式技术的发展离不开数据这一“燃料”，但创新不能以侵蚀他人合法权益为代价。

如何在尊重版权与鼓励创新之间建立可执行、可持续的规则体系，考验企业治理能力，也考验制度供给的前瞻性。

唯有让数据来源更透明、授权机制更顺畅、责任边界更清晰，技术进步才能在法治轨道上释放更大社会价值。

英伟达卷入大规模版权侵权诉讼 被曝非法获取500TB盗版图书数据