整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)
上个月,学而思曾透露消息称,目前其正在自研数学大模型 MathGPT,即面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心打造而成。
(相关资料图)
彼时许多人感慨,“理科生”版的 ChatGPT 终于要来了。
不曾想,MathGPT 还未真正面世,有关它的“丑闻”就先一步爆发了:本周二,笔神作文 App 指控学而思通过“爬虫”技术,非法访问、缓存其服务器数据多达 258 万次,以此开发 MathGPT 的新产品“作文 AI 助手”。
6 年成果,一个周末被爬取超 200 万次
此次事件的主角之一,笔神作文,是一个成立于 2017 年 12 月的 K12(从幼儿园到 12 年级的教育)作文教育平台,隶属于北京一笔两划科技有限公司。
当时的 AI 市场远不如现在火爆,笔神作文却凭借其“用人工智能技术,帮助写作者提升写作能力”的特色,在 2018 年 1 月获得了真格基金数百万元种子轮融资,后来又在 2019 年 7 月完成了数百万天使轮融资。
根据官方资料显示,笔神作文上线六年,每月会收到超过 30 万篇作文投稿和超过 40 万次的点赞评论,积累了数百万篇作文素材,月批改作文量超 3 万篇。
而伴随着去年年底 ChatGPT 的横空出世,笔神作文的投资方之一世纪天鸿曾表示,“笔神”与 ChatGPT 技术同源,都是采用基于 Transformer 的最新算法作为 AI 模型底层。笔神作文创始人宋嘉伟也曾介绍道:“一笔两划目前团队有超过 60% 为技术研发人员,在成立公司之前该团队就曾创立过 NLP 类公司,部分骨干在自然语言理解领域合作并深耕多年。”
因此整体而言,笔神作文的算法模型为一笔两划公司自研训练,其平台的大数据来自于自身累积。
因其在写作方面的技术积累和显著成果,三年前笔神作文与学而思达成了合作:与学而思旗下的学习工具 App “题拍拍”签约,主要负责提供作文素材查询服务。
而作为合作伙伴,本周笔神作文表示:在 4 月 13 日发生了一件我们都没有预想的事情,我们团队从创业以来的 6 年成果,被合作多年的“学而思”在短短一个周末的时间爬取了超过两百万次!
诉求:1 元赔偿金,公开道歉并删除数据
从笔神作文官方微博的声明来看,本身它没有完备的数据安全机制,而对于“合作伙伴”学而思,更是没有设置全部的提防,从而导致三体云联公司(学而思子公司)利用这份信任,即:在未经笔神作文 APP 授权许可的情况下,在 2023 年 4 月 13 日至 4 月 17 日期间通过“爬虫”技术非法访问、缓存笔神作文 APP 服务器数据多达 258 万次。
对此,笔神作文主张该行为违反了双方的合同条款,更违反了《数据保护法》第三十二条“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”的规定,严重侵犯了笔神作文 APP 的数据权益。
事后,笔神作文向学而思进行了求证,对方直接承认是他们的算法组在爬取数据并作为己用。因此笔神作文发送了律师函,却没有得到对方的实质性回复,而此时学而思的 AI 大模型 MathGPT 却即将上线新产品“作文 AI 助手”。
“我们作为一家体量远小于‘学而思’的公司已经别无他法,只能通过法律途径来维护我们的权益。”但笔神作文在声明中也指出,目前的法律法规并没有【AI 大模型数据盗取】的判决先例,因此只能“勇敢地走出这第一步”。
至于笔神作文的诉求,实际上也并非是索要大额赔偿金:只想要学而思支付 1 元赔偿金,公开道歉并删除已爬取的数据。
对此,笔神作文解释道:“数据是有价值的,但我们心血更是无价,索赔 1 元是因为公平公正并不能用金钱衡量,我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展,靠的是共同创造,而非觊觎和剽窃他人的成果。”
确实正如笔神作文所说,其体量并不大,因此这封声明也并未引起太多关注,不过仅有的几条评论中都在谴责学而思的行为。
学而思回应:均符合合同要求
经多家媒体报道后,这起事件逐渐发酵,于是昨晚学而思官方微博也对此发文回应:
首先,MathGPT 是专注于数学领域的自研大模型,没有任何作文相关数据;其次,“作文 AI 助手”目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。
而笔神作文声称被爬取二百多万次的数据,学而思指出合同中明确过“每月保底费用包含的调用次数为百万次量级”,其调用的接口“属于双方合同约定的正常合作范围”。
在回应的最后,学而思强调其“一直尊重知识产权、重视知识产权保护”,所有行为均严格按照合同约定履行,但是:“笔神作文的公开声明已经对学而思品牌声誉造成了伤害,我们将保留追究其名誉侵权责任的权利。”
AI 训练数据的版权问题
从目前双方给出的声明来看,此次纠纷还不能给出最终结论,但这也揭示了近来日益火热的 AI 大模型角逐下,一个容易被忽略却又十分重要的盲点:AI 训练数据的版权问题。
事实上,最近在外网闹得沸沸扬扬的“美版贴吧” Reddit 强制对 API 进行收费的决定也出于这个原因。
近年来 Reddit 上发布的聊天内容,已成为谷歌、OpenAI 和微软等企业训练 AI 大模型的素材,以此来开发 ChatGPT 等生成式 AI 产品。而伴随着这类 AI 工具的火爆,Reddit 创始人兼 CEO 表示:“Reddit 的数据语料库非常有价值,但我们不想把这些内容免费提供给一些巨头公司了。”
继 Reddit 带头表态要求科技巨头付费使用数据后,知名 IT 问答网站 Stack Overflow 也宣布计划从今年年中起,向大型 AI 开发商收取数据访问费用,其 CEO 也指出:“社区平台推动了大语言模型(LLM)发展,所作出的贡献也必须得到补偿。”
除了 Reddit 和 Stack Overflow 这类大型网站,甚至在开发者圈子中,部分程序员也因 Copilot 涉嫌侵犯代码版权宣称要弃用 GitHub:
毫无疑问,AI 大模型在变得更智能的过程中,海量的训练数据必不可少,但从目前来看,当今 AI 领域的“当红炸子鸡”OpenAI,对于训练数据的版权问题都没有很好的解决方案。
然而,伴随着 AI 热潮进一步推进,这个问题又势必要得到解决。正如北京大学计算机学院教授陈钟所说:“可能在研发初期,大家对数据来源并不在意,但当你产生了巨大的经济效益时,现实传统的经济模式、法律体系都将约束着你的行为。”
那么对于这个问题,你又是否有什么看法?
参考链接:
https://weibo.com/5308312222/4912235782345634?wm=3333_2001&from=10D6093010&sourcetype=weixin&s_trans=3830025800_4912235782345634&s_channel=4
https://www.36kr.com/p/1723938652161
整理|郑丽媛出品|CSDN(ID:CSDNnews)上个月,学而思曾透露消息称,目
5月“随手拍”举报受理情况发布北京交警依线索侦查处罚645起
用iPhone和用安卓的人为什么谁也不服谁
北京时间14日晚间,美股三大指数小幅低开,道琼斯工业平均指数低开167
DC这次口碑真的大爆了!DC年度口碑佳作《闪电侠》6月13 14日已点映,爆
导读:最近很多玩家都在关注艰苦生存这款手游,想知道具体的公测时间,
预计HONOR将在未来几天内在和全球市场推出一系列新产品。该品牌的多种
1、严重不同意楼上的!啥叫“自认倒霉”啊?要都是你这样处理事情,那
李火旺在庙里看见一尊观音像。素白的石像高居于帷幔之下,蛛网密布,蒙
最近有只黑熊在叙永出现还跟人类发生了点故事“熊出没”却被困民警:“
浙江安吉是我国著名的竹乡,竹林总面积超百万亩,每年的竹业总产值达数
RISC-V要想在半导体市场闯出一片天,不仅要从低功耗芯片上走量,也势必
来为大家解答以下的问题,儿墙压顶高度怎么看,女儿墙压顶这个很多人还
近年来,烟台高新区行政审批服务局以提升群众和企业办事的获得感和满意
西部网讯近日,全国高校人工智能与大数据创新联盟公布了“智能科学与技
中国自然资源部耕地保护监督司副司长杨祝晖14日在北京举行的新闻发布会
中餐连锁:为何中国的特色美食能够席卷全球?作为中国的传统文化之一,
1、具体点。2、在上海有个分公司。3、周思磊是中金国际集团的董事。本
1、莫洛镇,隶属于西藏自治区昌都市贡觉县,地处贡觉县中部,东与则巴
1、点击手机主界面上的“设置”图标。2、在设置界面的无线和网络中选择
“千村示范、万村整治”工程,简称“千万工程”,是“绿水青山就是
新民晚报“上海时刻”出品6月14日,上海浦东警方成功捣毁一买卖黄金洗
6月9日,第十二届中国(广州)国际金融交易•博览会如期开幕。澳门国际
6月16日,由青年演员成乔斯、贾博雅领衔主演,著名演员卢勇特邀出演的
随着扩内需促消费政策措施持续发力,今年国内消费市场明显回暖,尤其是
X 关闭
X 关闭