天天快看点丨树大招风的ChatGPT又遭起诉 用以训练的数据究竟值多少钱?

财联社6月29日讯(编辑 马兰)人工智能虽然是今年最大的趋势之一,但事实上业内外对这一技术现在都有些摸着石头过河的感觉,无论是监管还是行业内部都不知道如何规范其发展。


【资料图】

而ChatGPT作为掀起人工智能热潮的产品,更是处于风口浪尖。周三,美国一家律师事务所向加州北区联邦法院提起集体诉讼,指控OpenAI和微软使用互联网抓取的信息来训练ChatGPT时,严重侵犯了无数人的版权和隐私,要求公司赔偿30亿美元。

Clarkson律师事务所的执行合伙人Ryan Clarkson表示,希望代表信息被窃取并被商业应用的人采取法律行动。

其在诉状中指出,尽管制定了购买和使用个人信息的协议,但被告采取了不同的方式:盗窃。OpenAI和微软系统性地从互联网中窃取了3000亿个单词,包括未经同意获取的个人信息。

诉状称,OpenAI秘密进行了数据的窃取,而没有按照适用法律的要求,注册为数据经纪人。数百万人的个人信息,包括账户信息、姓名、联系方式、支付信息、聊天记录等隐私数据都在未经许可的情况下,被OpenAI和微软收集、存储、共享和披露。

课本费

这一诉讼无疑触到了生成式人工智能的一个重大问题,即训练人工智能用到的大量“课本”,需不需要相关公司来买单。

Clarkson认为,写下数十亿字的人们从未同意让OpenAI这样的公司用来训练模型并谋取私利,他希望法院能够就人工智能算法的训练方式,以及人们数据被使用时如何获得补偿制定一系列监管措施。

Clarkson律所还称,之所以起诉OpenAI和微软,也是枪打出头鸟。因为ChatGPT的推出引发了人工智能军备竞赛,刺激了大量对手推出AI模型,因此,OpenAI和微软当然是第一目标。

目前已有16名人士列席原告,Clarkson律师事务所还在寻找更多的原告。

虽然OpenAI并没有透露其最新模型GPT-4使用了那些数据,但此前的GPT版本已被证实使用了维基百科、各大新闻和社交媒体评论中的数据。谷歌和其他公司的聊天机器人也采用了类似的数据集。

Gunderson Dettmer事务所的知识产权律师Katherine Gardner分析,艺术家和其它创意专业人士若证明他们受版权保护的作品被用来训练人工智能模型,或许可以对人工智能公司提起异议,但仅仅在网站上发帖或评论的人,不太可能用版权保护来获得赔偿。

截至目前,OpenAI和微软尚未对此事发表评论。

关键词: