OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽

简介: OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽



众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。


不难想象,训练 GPT-4 需要海量的数据,这可不是付费购买能解决的问题。大概率,OpenAI 用了网络爬虫。很多用户指控 OpenAI,理由就是这种手段会侵犯用户的版权和隐私权。


刚刚,OpenAI 摊牌了:直接公布从整个互联网爬取数据的网络爬虫 ——GPTBot。


这些数据将被用来训练 GPT-4、GPT-5 等 AI 模型。不过 GPTBot 保证了,爬取内容绝对不包括违反隐私来源和需要付费的内容。


OpenAI 表示:「使用 GPTBot 爬取网络数据是为了改进 AI 模型的准确性、功能性和安全性。」


网站所有者可以根据需要允许和限制 GPTBot 爬取网站数据。接下来,我们来看下 GPTBot 究竟是如何工作的,顺便了解一下屏蔽方法。


首先,GPTBot 的用户代理字符串(User-Agent String)如下:





User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)


使用如下方法可以将 GPTBot 添加到网站的 robots.txt,禁止 GPTBot 访问网站:





User-agent: GPTBot
Disallow: /


还可以允许 GPTBot 访问网站特定部分的内容:







User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/


近期,OpenAI 因为未经明确批准而在网站数据上训练 GPT-4 等大型语言模型而遭到强烈反对。批评者们表示,即使内容可以公开访问,像 OpenAI 这样的公司也应该遵循训练协议。人们还担心,内容在输入 AI 系统时会被断章取义。


但即使遵循了 robots 协议,鉴于其并不是规范,而只是约定俗成的,所以并不能保证网站的隐私。


GPTBot 发布之后,这条动态已经在 Hacker News 上引发了一场争论,焦点是使用抓取的网络数据来训练人工智能系统的道德和合法性。


一部分人认为,GPTBot 的推出展示了使用公开数据研发 AI 模型的「灰色地带」:


「在训练完模型后还爬取数据,这真是太好了。根据推测,这些 header 不会影响他们已经抓取来训练 GPT 的任何页面。」


「现在,他们可以游说反抓取的监管并阻碍其他任何的追赶了。」



鉴于 GPTBot 会识别自己的身份,因此网站管理员可以通过 robots.txt 阻止它,但有些人认为允许它这样做没有任何好处,不像搜索引擎爬虫会带来流量。


一个值得关注的问题是,受版权保护的内容会在未注明出处的情况下被使用。ChatGPT 目前没有注明出处。



还有人质疑 GPTBot 如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到,则可能构成版权侵权。


另外一些专家认为,如果 AI 编写的内容被反馈到训练中,爬虫生成的数据可能会降低模型的性能。


相反,一些人认为 OpenAI 有权自由使用公共网络数据,并将其比作一个人从在线内容中学习。但也有人认为,如果 OpenAI 将网络数据货币化以获取商业利益,那么就应该分享利润。


总之,GPTBot 引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循 robots.txt 是一个很好的步骤,但仍然缺乏透明度。


这或许是科技界下一个舆论焦点:随着 AI 产品的快速发展,「数据」到底该怎么用?


参考链接:

https://twitter.com/GPTDAOCN/status/1688704103554359296

https://searchengineland.com/gptbot-openais-new-web-crawler-430360

https://platform.openai.com/docs/gptbot

https://news.ycombinator.com/item?id=37030568

https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394/#close

相关文章
|
2天前
|
人工智能 API UED
为什么OpenAI突然把GPT-4o免费了?
OpenAI将GPT-4o免费开放,原因包括降低成本、推广品牌、占领市场、收集数据优化模型以及促进会员转化。免费服务吸引用户,同时提供高级功能和更大容量给付费用户,创造用户体验落差以提高付费转化率。通过先给予部分免费服务,培养用户依赖,未来可能推出更多高级产品引导消费升级。值得注意的是,免费使用仍有限制,普通用户和Plus用户有不同的权益。
为什么OpenAI突然把GPT-4o免费了?
|
5天前
|
人工智能 iOS开发 MacOS
[译][AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
我们推出了最新的旗舰模型 GPT-4o,并为免费版 ChatGPT 用户提供更多功能,包括更快的速度、改进的文本、语音和视觉能力,以及新的桌面应用程序和简化的界面。
[译][AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
32 1
|
5天前
|
机器学习/深度学习 人工智能 安全
[译][AI OpenAI] 您好,GPT-4o
GPT-4o 是OpenAI的新旗舰模型,能够处理文本、音频和图像,并生成各种组合的输出。它在语言理解、视觉感知和音频处理方面表现出色。本文介绍了GPT-4o的能力、评估结果、安全性和局限性,以及其可用性和未来计划。
[译][AI OpenAI] 您好,GPT-4o
|
5天前
|
人工智能 JSON API
OpenAI GPT-4 Turbo发布:开创AI新时代
OpenAI GPT-4 Turbo发布:开创AI新时代
72 2
|
5天前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
38 0
|
5天前
|
人工智能 算法 UED
OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
【2月更文挑战第26天】OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
33 7
OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
|
5天前
|
机器学习/深度学习 分布式计算 Python
OpenAI Gym 高级教程——分布式训练与并行化
OpenAI Gym 高级教程——分布式训练与并行化
206 1
|
5天前
|
JSON 人工智能 API
Azure Machine Learning - Azure OpenAI GPT 3.5 Turbo 微调教程
Azure Machine Learning - Azure OpenAI GPT 3.5 Turbo 微调教程
53 0
|
5天前
|
人工智能 自然语言处理 Java
OpenAI 发布 GPT 提示词工程指南,你不会是最后一个才知道吧?
OpenAI 最近发布了一份提示词工程指南。该指南列出了六种策略,旨在从 GPT 模型获得更好的响应,并着重关注 GPT-4 的示例。 该指南的六个高级策略包括:撰写清晰的说明、提供参考文本、将复杂任务分解为更简单的子任务、给模型时间“思考”、使用外部工具以及系统性地测试变更。每个策略都被细分为一组具体可行的策略,并附有示例提示词。许多策略都基于 LLM(语言模型)研究的结果,例如链式思维提示词或递归摘要。
http://www.vxiaotou.com