科技的发展往往伴随着日益频繁的道德与法律的碰撞。这种碰撞不仅考验着科技本身的发展方向,也不断挑战着我们对传统道德观念和法律制度的认识。
随着大规模语言模型(LLM)技术的发展,科技巨头们在数据使用上也受到了道德和法律界限的拷问。最近,科技巨头Meta(原名脸书)因使用包含盗版内容的“Books3”数据集来训练其LLAM模型而陷入版权纠纷的漩涡。
据悉,Books3数据集由AI研究人员Shawn Presser于2020年创建,涵盖19.5万本图书,总量近37GB,旨在帮助机器学习领域的进展。然而,在这个数据集的构建过程中,疑似从盗版网站Bibliotik中抓取了大量版权作品,目前已经成为争议的焦点。
作家理查德·卡德里和其他创作者已经对Meta提起集体诉讼,指控其侵犯版权。他们指控Meta不仅使用了包含盗版内容的Books3数据集,还拒绝向原作者支付任何形式的补偿。
对此,Meta承认曾使用Books3数据集进行模型训练,但坚称其行为属于“合理使用”,并未侵犯任何版权。公司发言人表示,在目前的AI R&D环境下,完全避免使用受版权保护的材料几乎是不可能的,公司也无意故意侵权。
然而,这一声明并未平息众怒。此前,《纽约时报》也以类似的理由对OpenAI和微软提起诉讼,指控它们利用报纸文章训练ChatGPT。这些文章是宝贵的财富,凝聚着记者和编辑的心血和创造力,应享有相应的版权保护。OpenAI也以“合理使用”为由进行辩护。他们认为,使用开放的互联网材料训练人工智能模型是合理的,在当前的技术环境下,完全避免使用有版权的材料几乎是不可能的。因此,他们声称自己的行为属于“合理使用”的范畴,没有侵犯《纽约时报》的版权,并要求法院驳回诉讼。
值得注意的是,Books3数据集中的部分内容来自盗版网站Bibliotik,这使得整个事件更加复杂。2023年,丹麦反盗版组织权利联盟(Rights Alliance)要求删除数据集,并对其实施数字存档禁令。
随着AI技术的不断进步,数据使用与版权保护的冲突越来越激烈。Meta面临的集体诉讼,无疑给整个行业敲响了警钟:在追求技术创新的同时,如何尊重和保护知识产权,成为亟待解决的问题。