德国法院：非商业性人工智能训练数据符合版权侵权的科学研究例外

发布日期：2024-10-22 14:26:02

浏览次数：339

作者：小卓

在近日一项具有深远影响的里程碑式判决中，德国汉堡地区法院裁定，在Kneschke（克奈斯克）诉LAION案中，大规模人工智能开放网络（LAION）——一个提供数据集、工具和模型以解放机器学习研究的非营利性组织——复制图片的行为并未违反版权法的规定。

由汉堡地区法院审理的这起案件主要涉及LAION为人工智能训练目的自动下载图片的行为，图片包括摄影师罗伯特．克奈斯克（Robert Kneschke）的版权作品。

2021年，总部位于汉堡的LAION自动从互联网下载图像，包括从图片存储网站Bigstock下载的克奈斯克照片，以创建包含用于训练人工智能的图像—文字对应的数据集（LAION 5B）。克奈斯克声称LAION未经许可复制了他的图片，以创建一个将图像与描述性文字关联起来的数据集，从而侵犯了他的版权。LAION从一个获得许可的网站下载了这张照片，并使用其软件检查照片是否与描述相符。

LAION否认其侵犯了版权，辩称其行为属于德国和欧盟法律规定的三种版权例外情况之一。该案的重点是复制图片以创建人工智能训练数据集是否构成版权侵权，而不是人工智能模型训练或内容生成是否侵权。

2024年9月，汉堡地区法院第10民事法庭（案件编号310 O 227/23）驳回了克奈斯克对LAION的版权侵权索赔。该判决是可临时执行的，由原告承担法律费用。

该裁决涉及许多未解决的法律问题，例如人工智能数据抓取是否符合文本和数据挖掘的条件，以及权利人如何阻止此类活动。

可能的例外情况

克奈斯克要求LAION停止复制他的图像以创建人工智能数据集，而LAION则援引了德国和欧盟法律规定的三种可能的版权例外情况：

德国《版权法》（UrhG）第44条a款规定的临时复制行为；

UrhG第44条b款规定的用于商业目的的文本和数据挖掘；

UrhG第60条d款规定的用于科学研究的文本和数据挖掘。

根据2024年7月该案第一次听证会上的论点，人们普遍认为该案将根据UrhG第44条b款中版权侵权的一般文本和数据挖掘例外来裁决。然而，法院反而以UrhG第60条d款中“用于科学研究目的的文本和数据挖掘”例外驳回了克奈斯克的诉讼请求。

科学研究例外（UrhG第60条d款）

UrhG第60条d款[实施《单一数字市场版权指令》（《DSM指令》）第3条]允许研究组织为科学研究制作用于文本和数据挖掘的版权作品副本。研究机构被定义为进行非商业性研究、将利润再投资于研究或为公共利益行事的大学或研究机构。

克奈斯克认为，LAION不符合研究组织的条件，理由是它与商业实体有联系。他认为，根据UrhG第60条d款的限制性条款，LAION与私营企业的关系使其失去了资格，因为该条款禁止与施加影响或优先获得研究成果的私营公司合作。

然而，法院裁定克奈斯克未能提供足够的证据证明LAION不符合研究组织的标准。法院强调了LAION的透明度和非商业方法，因为其数据集可在线免费提供给所有研究人员。

“（数据集的创建）……是一个基本步骤，目的是使用数据集，以便日后获得知识……”

“可以肯定的是，在本案LAION也存在这样的目的。为此，毫无疑问，只要数据集是免费公布并因此提供给研究人员的，尤其是人工神经网络领域的研究人员就够了。”

因此，LAION的使用已获得UrhG第60条d款的授权，该诉讼被驳回。

一般文本和数据挖掘例外（UrhG第44条b款）

UrhG第44条b款（实施《DSM指令》第4条）允许复制可合法获取的作品用于文本和数据挖掘，前提是权利持有人未保留使用权。使用权的保留必须是机器可读的才有效。

此案中的一个问题是，Bigstock的使用条款中的以下措辞是否以机器可读的格式作为有效的权利保留：

“您不得……出于任何目的使用自动化程序、小程序、机器人程序或类似工具访问Bigstock.com网站或其中的任何内容，包括（仅举例说明）下载内容、编制索引、抓取或缓存网站上的任何内容。”

由于法院已决定适用UrhG第60条d款规定的例外情况，因此法院关于UrhG第44条b款的评论并不构成其判决理由的一部分，但这却表明法院在今后的案件中可能会如何处理这一问题。LAION辩称，网站的条款不够充分，应该使用robot.txt文件。法院评论道：

“然而，有一些迹象表明，UrhG第44条b款第2项的例外情况不适用于本案——这不需要最终裁决——因为在该条款第3项的含义范围内，实际上存在有效声明的使用权保留。特别是，在Bigstock网站上无可争议地宣布的使用权保留很可能满足UrhG第44条b款第3项第2句含义范围内的机器可读性要求。”

法院认为，必须根据复制时的技术状态来判断机器可读性。这意味着，随着人工智能工具变得更加先进，权利持有人可能不需要依赖计算机代码来阻止文本和数据挖掘，因为人工智能可能会解释自然语言指令。

对于为非商业目的进行文本和数据挖掘的非商业实体的人工智能开发人员来说，这一裁决具有重要意义。该裁决确认，UrhG第60条d款规定的用于科学研究目的的文本和数据挖掘例外适用于以人工智能训练为目的进行文本和数据挖掘的非商业研究组织。但是，那些不免费提供研究或拥有任何从研究中受益的营利性附属机构的组织可能不符合例外规定的条件。

更令人感兴趣的是法院对UrhG第44条b款规定的一般文本和数据挖掘例外的评论，特别是法官指出，网站使用条款中自然语言的权利保留可能足以构成“机器可读”的选择退出，因为人工智能系统，尤其是大型语言模型（LLM）现在已经足够先进和容易使用，可用于阅读和解释此类内容。但法院没有考虑这样一个事实，即在2021年，当LAION下载相关图像时，ChatGPT-3等高级的LLM尚未发布，法院也没有考虑到LAION当时实际使用或可能使用的系统。因此，这仍然是一个在法律上不明确的领域，人们正在等待对“机器可读”的选择退出要求的澄清。

法院驳回了这样一种观点，即根据版权法，人工智能内容抓取根本不应符合文本和数据挖掘的条件因此不应适用文本和数据挖掘例外。法院考虑了作者权利倡议（Authors' Right Initiative）委托进行的最新学术研究，该研究认为，无论是在法律的意图方面还是人工智能工具实际抓取内容的技术细节方面，人工智能内容抓取都不属于文本和数据挖掘例外。法官们对学者的意见提出了质疑，指出欧盟《人工智能法》明确考虑了文本和数据挖掘与人工智能训练的相关性（《人工智能法》要求通用人工智能服务提供商必须遵守版权法，包括尊重权利所有人根据欧盟《DSM指令》第4条阻止文本和数据挖掘的能力）。法官还认为，适用文本和数据挖掘例外不会违反欧盟版权法中的“三步测试法”，该测试将例外限制在不与正常利用相冲突或不损害权利持有人合法利益的情况下。

该裁决可能会被提出上诉，汉萨高等地区法院可能会重新审理有关LAION作为研究机构的地位以及人工智能抓取是否属于文本和数据挖掘例外的关键问题。

主要启示

该案件涉及关于人工智能、版权以及文本和数据挖掘相交叉的重要问题。虽然法院的裁决澄清了非商业性人工智能研究可能符合某些例外情况的条件，但这些例外情况的更广泛适用性，特别是对于商业实体的适用性，仍未得到解决。此外，随着技术和法律环境的发展，人工智能在解释版权保留方面的作用可能仍将是一个令人争论不休的话题。

上一篇：【一文悉知】如何查询美国版权？轻松规避侵权风险下一篇：必胜客联名周边被指抄袭文创产品，甘肃省博物馆发声明

返回列表