英伟达被指接触“影子图书馆”获取大规模盗版书数据引发集体诉讼再升级

英伟达因人工智能模型训练数据来源问题陷入新的法律困境。

根据原告方最近提交的修订起诉状,这家全球领先的芯片制造商被指控主动与盗版图书馆建立合作关系,以获取数百万本受版权保护的书籍用于模型训练。

这一指控基于英伟达的内部邮件和文件,反映出科技企业在追求商业利益过程中可能面临的伦理和法律风险。

问题的根源在于人工智能模型训练对海量文本数据的迫切需求。

作为人工智能芯片和数据中心服务的主要供应商,英伟达在过去几年内获得了巨大的商业收益。

在这一背景下,该公司也自主研发了包括NeMo、Retro-48B、InstructRetro等多个人工智能模型。

与业界其他主要参与者相同,英伟达的模型训练同样依赖于大规模文本库。

然而,获取合法、授权的高质量文本数据成本高昂且流程复杂,这在一定程度上推动了企业寻求替代方案的动力。

根据诉状披露,英伟达数据战略团队采取了主动出击的方式。

诉状称,公司员工主动联系了"安娜档案馆"——一个因提供非法获取的学术文献和书籍而臭名昭著的影子图书馆——以了解其能否提供所需的数据资源。

这一举动表明英伟达的决策层对数据来源的合法性问题可能存在明知故犯的态度。

诉状进一步指出,"安娜档案馆"在明确告知英伟达其藏书均为非法获取和保存后,英伟达管理层仍在一周内"开绿灯"批准了这项合作。

这个快速决策过程本身就引发了对企业治理和合规意识的质疑。

根据协议内容,"安娜档案馆"向英伟达承诺开放约500TB的数据访问权限,其中包含数百万本受版权保护的图书。

这些书籍通常仅能通过互联网档案馆的数字借阅系统合法获取,而该档案馆本身也面临相关的版权诉讼。

英伟达是否为这一高速访问权限支付了费用,诉状中并未明确说明。

这起诉讼并非英伟达首次因版权问题面临法律挑战。

早在2024年初,多位作者就曾以侵犯版权为由将其告上法庭,指控其人工智能模型基于包含盗版网站Bibliotik资源的Books3数据集进行训练。

英伟达当时的辩护策略是主张其行为属于"合理使用"范畴,声称书籍对其模型而言仅是一组统计关联数据。

然而,这一论点在学界和法律界都引起了广泛争议。

本次修订诉状的提交标志着诉讼范围的大幅扩大。

原告方在证据开示阶段发现了更多支持性证据,新诉状不仅增加了涉案书籍和作者的数量,还纳入了更广泛的影子图书馆相关指控。

包括作者阿布迪·纳泽米安在内的原告方援引英伟达的多份内部通信记录,进一步强化了"市场竞争压力驱使英伟达走上盗版之路"的论点。

这一事件反映出当前人工智能产业发展中存在的深层次矛盾。

一方面,人工智能模型的训练确实需要大规模的高质量数据支撑,这推动了企业对数据的渴求。

另一方面,创意工作者的知识产权保护同样不容忽视。

如何在两者之间找到平衡点,既推动技术进步又维护创作者权益,已成为全球科技和法律界的重要课题。

对于英伟达而言,这起诉讼可能产生多方面影响。

在商业层面,若最终败诉,公司将面临巨额赔偿。

在声誉层面,被指控主动与盗版平台合作的事实,可能对其品牌形象造成损害。

更广泛而言,这一案例将为整个人工智能产业树立警示,促使其他企业重新审视其数据获取策略和合规流程。

当前,美国法律界对"合理使用"在人工智能领域的适用范围仍存在争议。

英伟达案的最终判决结果将对行业产生重要的指导意义。

业界普遍预期,未来关于人工智能训练数据合法性的法律框架将进一步明确和完善,可能包括对企业数据来源的更严格要求和对创作者权益的更有力保护。

这起诉讼不仅关乎一家企业的商业伦理,更折射出技术创新与知识产权保护之间亟待平衡的深层矛盾。

在人工智能突飞猛进的时代,如何构建既鼓励创新又尊重创作的数据使用生态,需要企业、立法者和创作者共同探寻解决方案。

正如一位法学专家所言:"技术革命的列车不会停驶,但必须行驶在法治的轨道上。

"