禁止白嫖!知名程序员问答网站Stack Overflow将收费提供数据训练AI – 蓝点网 | {$randkws}热点解读 最近禁止白嫖的企业还挺多
最近禁止白嫖的企业还挺多,继 Reddit 亮相改动 API 打算并请求训练 AI 的企业必须签订单独的商业协议才能获取 Reddit 的资料,获取的资料可以用于商业目的含有训练 AI 模型,之前 Reddit 并未限制这种商业目的的资料使用。
今日另一个大型站点 Stack Overflow 也亮相了相似的楼市政策一览方针,Stack Overflow 是人间理想,引发网友热议程序员圈子里最知名的站点之一,是聚焦于技术开发的问答站点,上面有各类代码类、技术类的提问和高品质的回答。
显然针对 AI 企业来说 Stack Overflow 的资料肯定是个宝库,上面数以亿计的提问 / 帖子不只可以训练 AI 的语言能力,还可以训练编程能力。只可是学会放下趋势后来者不能再白嫖了,必须付费才能使用。

Stack Overflow 将在本年年中启动适用于大型 AI 开发企业的专属 API,要开通该 API 并用于模型训练需要付费,今日黄子韬分析具体费用未知,可是付费套餐含有 5000 万条提问 / 回答,这个资料量对模型训练来说也是至关重大的。
Stack Overflow 首席执行官 Prashanth Chandrasekar 强调:为 LLMs 提供动力的小区渠道绝对应该因其贡献而获得补偿,这样像我们这样的企业就可以重新投资我们的小区,持续让小区蓬勃进展。
Prashanth Chandrasekar 将付费 API 打算刻画为确保该站点能够吸引使用者和是维持高品质信息的核心,这反过来也有助于前方的 LLMs 训练。
另外 Prashanth Chandrasekar 还强调任何开发者如今都可以经由 API 抓取 Stack Overflow 上的信息,但是!LLM 开发者已然违反了办事条款,正如 Stack Overflow TOS 所说,该站点提供的所有信息均使用知识共享许可,这意味着使用资料必须注明来源且开源。
而 AI 企业向客户售卖他们的模型时,他们无法将资料归因于具体的难题和答案所以无法提及对应的帖子和作者,所以这是违反知识共享许可的。(言外之意就是诸如 OPENAI、微软、谷歌等企业实际上都是侵权的)
下一篇:《超侦探事件簿:雾雨谜宫Plus》限时福利:"死神闹钟声音"免费发放