Meta用盗版书训练AI，拒绝赔偿作者。

科技的发展往往伴随着日益频繁的道德与法律的碰撞。这种碰撞不仅考验着科技本身的发展方向，也不断挑战着我们对传统道德观念和法律制度的认识。

随着大规模语言模型(LLM)技术的发展，科技巨头们在数据使用上也受到了道德和法律界限的拷问。最近，科技巨头Meta(原名脸书)因使用包含盗版内容的“Books3”数据集来训练其LLAM模型而陷入版权纠纷的漩涡。

据悉，Books3数据集由AI研究人员Shawn Presser于2020年创建，涵盖19.5万本图书，总量近37GB，旨在帮助机器学习领域的进展。然而，在这个数据集的构建过程中，疑似从盗版网站Bibliotik中抓取了大量版权作品，目前已经成为争议的焦点。

作家理查德·卡德里和其他创作者已经对Meta提起集体诉讼，指控其侵犯版权。他们指控Meta不仅使用了包含盗版内容的Books3数据集，还拒绝向原作者支付任何形式的补偿。

对此，Meta承认曾使用Books3数据集进行模型训练，但坚称其行为属于“合理使用”，并未侵犯任何版权。公司发言人表示，在目前的AI R&D环境下，完全避免使用受版权保护的材料几乎是不可能的，公司也无意故意侵权。

然而，这一声明并未平息众怒。此前，《纽约时报》也以类似的理由对OpenAI和微软提起诉讼，指控它们利用报纸文章训练ChatGPT。这些文章是宝贵的财富，凝聚着记者和编辑的心血和创造力，应享有相应的版权保护。OpenAI也以“合理使用”为由进行辩护。他们认为，使用开放的互联网材料训练人工智能模型是合理的，在当前的技术环境下，完全避免使用有版权的材料几乎是不可能的。因此，他们声称自己的行为属于“合理使用”的范畴，没有侵犯《纽约时报》的版权，并要求法院驳回诉讼。

值得注意的是，Books3数据集中的部分内容来自盗版网站Bibliotik，这使得整个事件更加复杂。2023年，丹麦反盗版组织权利联盟(Rights Alliance)要求删除数据集，并对其实施数字存档禁令。

随着AI技术的不断进步，数据使用与版权保护的冲突越来越激烈。Meta面临的集体诉讼，无疑给整个行业敲响了警钟:在追求技术创新的同时，如何尊重和保护知识产权，成为亟待解决的问题。