首页>云计算 > 正文
“盗”数据,AI大模型的黑暗面
来源: 虎嗅网 发布于:2023-06-19 10:16:14

本文来自微信公众号:深AI(ID:DeepAI2023),作者:黎明,编辑:魏佳,题图来自:《银翼杀手2049》

一个叫作“一笔两划”的创业公司,公开声讨曾经的教培龙头“学而思”,说它用“扒库”的方式,“偷”走了自己辛辛苦苦攒下的数据。

故事的起因,是在今年4月中旬,“笔神作文”(一笔两划公司旗下产品)发现,服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。


(资料图片仅供参考)

访问量远超日常平均值。笔神作文对深AI透露,平时的日访问量大约是几百或几千,那几天暴增至每天超过50万。一周之内,他们的数据被爬取了258万次。

笔神作文公布的数据库调用情况

通过查阅服务器日志,笔神作文发现,单一IP通过“爬虫”技术,高密度地爬取了他们的数据库。这个IP每次访问的搜索词,都是作文相关,系统会每页返回30篇作文,每次访问都是用搜索词从第一页逐页向后翻,基本上把库里同个题目的所有作文,全部抓取完了。

业内人士介绍,通常情况下,普通用户不会这么干。这种对数据库的搜刮式访问,也被称为“扒库”。

笔神作文认为,“扒库”的幕后黑手,是它的合作伙伴学而思。

“扒库”事件发生后没多久,笔神作文发现,学而思在进行数学大模型MathGPT的研发,并表示将于近期上线一款“AI助手”,其中一项功能,就是作文。

笔神作文被“扒库”,和学而思开发“作文AI助手”,这两起事件之间是否有关联,目前尚没有明确结论。

但笔神作文认为,自己的权益被侵犯了。它向对方发去律师函,并将这件事公之于众,试图讨要一个说法。学而思方面则给出公开回应,称对笔神素材内容的使用均符合合同要求,且其自研的MathGPT大模型和“作文AI助手”,没有使用笔神作文的任何数据。

此次事件中,值得探讨的不仅是作文素材。数据,对于大模型而言,意味着什么?

合作伙伴变成门口野蛮人?双方各执一词

我们先简单介绍一下笔神作文。

这家公司成立于2017年,产品“笔神”是一款人工智能辅助写作软件,算是AI+教育的产物。一开始“笔神”面向内容创作平台和相关工具厂商,后来深入到垂直领域,用AI教学生写作文,于是就有了“笔神作文”。

你可以简单理解:它处在教育行业,面向的是学生群体,利用了人工智能技术,解决的是写作文的场景。

AI写作文,跟今天大火的ChatGPT,在技术上有很多共通之处。它们都涉及到自然语言处理、语义分析预测、机器学习等技术。笔神作文创始人宋嘉伟,曾担任过索尼高级系统架构师、奇点机智CTO。

早在五年前,宋嘉伟就说过,在考虑如何将bert或GPT-2这些预训练语言模型技术运用到应用中去。当时GPT尚未出圈,不像今天这样广为人知。

开始做AI作文之后,笔神作文正式进入教育赛道,跟教培龙头学而思踏进了同一条河流。

据笔神方面介绍,2020年12月,笔神作文跟学而思达成合作。笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,按调用次数结算费用。为此,笔神作文为学而思开放了服务接口。

也就是说,学而思可以调用笔神作文数据库中的作文素材,并为之付费。

作文素材,是这项交易中的一个核心资产,也是笔神作文商业模式的基石。事实上,笔神作文最早就是从素材这个点切入的。它当年主打的“一键找素材”功能,用户通过搜索关键词,系统可以自动匹配素材,资源从古诗词经典、公文,到现代网文均有涵盖。在写作过程中,系统还可以实时推送素材。

这些素材不是来源于网络,而是笔神自有的数据库。通过AI技术的智能识别、翻译、匹配,笔神能向用户的搜索行为反馈回合适的素材。

当这些作文素材的量足够大、质量足够优质、匹配够精准,就具备了一定的商业价值,甚至可以对外售卖。这才有了跟学而思的合作。

问题是,这些素材有被“偷”走的风险,尤其是在开放部分接口的情况下。

按照笔神作文对深AI的介绍,他们对与学而思的合作范围进行了限定,“我们开放接口让他们调用我们的数据,显示在他们自己的APP里,但合同中并未包括存储数据或用于AI算法的权限。数据应仅供他们的用户调用,不能被存储在他们的机器上。”

相当于,当用户在学而思的产品端发起搜索,调用的作文范本来自笔神作文,学而思不能自己储存。

4月中旬的那次异常调用,让笔神作文认为,超出了正常的商业合作范围。“他们的行为触发了我们的防御机制,这才使我们发现了这一情况。”

笔神作文称,他们查看了后台的访问日志,发现是由单一IP通过“爬虫”技术发起的非法访问。“我们已经掌握了这个IP地址。”

笔神作文公布的IP地址情况(一部分)

国内某人工智能创业公司的CEO刘然对深AI分析,这种穷举关键词的方式,肯定是想要获取库里的数据,这是非常明显的行为。

笔神作文对深AI透露,事发后他们与学而思的运营人员求证,对方直接承认,是学而思的算法组在爬取数据并作为己用。不过,针对此说法,深AI尚未得到学而思方面的证实。

曾经的合作伙伴,突然变成了门口的野蛮人,让笔神作文非常愤怒,多次发出律师函。

学而思方面则在6月13日的公开回应中称,其对笔神作文接口的调用,并未超出双方合同范围,对笔神素材内容的使用均符合合同要求,未用于合同以外的任何用途。学而思专门强调,其自研的MathGPT大模型和“作文AI助手”,没有使用笔神作文的任何数据。

双方各执一词,目前未有定论。笔神作文称,该案件可能将会成为“AI大模型数据被盗第一案”。

一个值得探讨的问题是,数据,对于大模型而言,意味着什么?

数据从哪里来,是个大问题

算力、算法、数据,是人工智能进行机器学习的三大核心要素。

为了提升算力,很多科技公司都在花重金抢夺英伟达的GPU。在算法端,国内外的一些大厂将算法开源,大大降低了模型开发的门槛。

而在数据端,壁垒一直存在。去哪里找到高质量数据,是个关键问题。

生成式AI大模型需要使用大量且多样化的数据来进行训练,以提高模型的泛化能力和生成能力。不同的模型可能使用不同的数据来源。ChatGPT这类通用大模型,用了很多公开数据,如各类新闻网站、书籍、科学论文、网页等等。一些垂直领域的大模型,则需要找到有针对性的语料库和数据集。

国内某头部科技公司的大模型负责人对深AI表示,ChatGPT其实也用了很多非公开的数据,网上的公开数据很多都质量非常差,高质量的数据是有门槛的。数据的获得、清洗,都面临很大挑战。

好未来CTO田密在5月4日公开表示:“很多领域是有数据壁垒和行业know-how的,大模型还是得和领域知识深度结合,加上足够多的领域数据来训练领域大模型。”

就像田密说的,领域大模型要和领域知识深度结合。在AI作文领域,作文素材就是训练机器的重要数据。

早在2019年,笔神公司就开始有目的性地收集数据,训练自己的作文语料库,覆盖名人名言、诗词、公文、网络语言等。他们利用训练机器模拟人工标签的方式,对每条语料打标签。

在垂直语料库中,只有对数据打过标签,才能基于向量匹配、用户当前创作内容的语义分析和预测,进行精准的内容推送。

刘然对深AI说,建立模型需要大量经过验证的数据,如果这些数据已经整理好了,那么就可以节省大量的人力工作。笔神作文整理的作文,可能被当作标注数据使用。

这个过程是持续且漫长的。笔神作文称,创业六年,他们总共积累了超过500万篇作文素材,月批改量超3万篇。这些作文素材,是经过一篇篇人工审核、筛选投稿、打标签、分级、数据纠正,最后累积起来的。

这些数据不仅能在APP的页面以素材形式呈现,还能拿去在后台训练算法。所以在跟其他公司合作开放接口时,笔神作文在协议中专门加了一条——不得“缓存,存储,作为语料进行计算,训练”

笔神作文认为学而思“盗”走了数据,揣测学而思将数据用于数学大模型MathGPT以及学而思学习机“作文AI助手”的训练和研发。但这似乎很难证明。

刘然认为,正常来讲,作文数据应该会提前设置一些限制,比如不接受高并发,在数据里加密,而且应该能追踪到数据的去向和用途。不过他同时认为,作文数据不像用户关键行为数据那么关键。

“你可以让AI学习什么是好的作文,然后让它按照这些标准生成。但我认为,其实不需要那么大量的数据。几万篇高质量的作文应该就够了。”他说。

“AI大模型数据被盗第一案”,立得住吗?

笔神作文态度强硬,连发两篇公告,要求学而思道歉,同时索赔1元。它甚至想给这次事件扣上“AI大模型数据被盗第一案”的帽子。

上海曼昆律师事务所主任刘红林律师对深AI表示,笔神作文自建的语料库或素材库,本身是有知识产权权益的。但是否属于著作权法上的作品,需要看独创性是否符合相关的判定标准。

“如果笔神作文有足够的证据能证明学而思恶意抓取了他们的数据,那么可以发起知识产权侵权或不正当竞争诉讼。”他说。

另外,笔神作文与学而思有合作协议,如果对知识产权的尊重和授权进行了约定,他们也可以通过合同违约来保护自己的权益。

值得注意的是,笔神作文素材库中的很多作文,是用户投稿而来。笔神作文自称,每个月都会收到30万篇作文投稿。因此,在认定是否侵权之前,先要厘清这些素材的知识产权归属。

刘红林分析,这要看作文的创作者(投稿人)与笔神作文之间,如何对知识产权进行约定。如果用户在投稿时对笔神作文进行了知识产权授权,那么笔神作文就享有对应的权益。

深AI查询笔神作文的用户服务协议,发现其中有这么一条:用户在笔神作文发表的内容(包括但不限于留言、评论、笔记),授予笔神作文免费且不可撤销的非独家使用许可。

也就是说,笔神作文对素材库拥有知识产权。

刘然想不明白的是,笔神作文为什么会与学而思合作。“如果是我,绝对不会跟学而思合作,因为我们是强竞争关系。”他认为,“在大模型时代,仅仅提供作文数据库的做法是没有机会的。”

有业内人士分析,学而思有流量,有场景,有知名度,尤其是在面向用户的前端产品方面,学而思的优势要比笔神作文大。而在后端收集数据、建设素材库的工作,费时费力,短期难见成效。对于学而思而言,直接拿现成的素材库接入是最方便的。笔神作文则靠出售素材库的调用权限,实现了商业变现。

但对笔神作文这种创业公司而言,这样的合作就像是带刺的玫瑰。因为巨头随时可能打进你的领地,甚至在业务层面形成直接竞争。

AI批改作文是笔神作文很重要的一项功能。而早在三年前,好未来(学而思母公司)也曾推出过“中英文作文批改解决方案”,通过AI实现智能化中英文作文批改。

现在,AI改作文只是好未来庞大AI产品矩阵的冰山一角。在其最新的产品介绍中,中文作文批改,属于中英文听写批改中的一个模块。

ChatGPT带火生成式AI之后,人工智能行业的创业者既兴奋又焦虑。他们兴奋的是,行业终于又热起来了;焦虑的是,ChatGPT实在是太强大了,很多垂直领域的创业项目一夜之间失去了壁垒。

像笔神作文这样的公司,竞争壁垒在哪里,如何与巨头对抗,是很现实的问题。而人工智能行业的加速内卷,同质化竞争的加剧,会让创业公司与巨头的对抗升级。

抢数据,或许只是新一轮争夺战的冰山一角。

应受访者要求,刘然为化名。

本文来自微信公众号:深AI(ID:DeepAI2023),作者:黎明,编辑:魏佳

关键词: