OpenAI也为数据犯难!公司承认使用爬虫,自我设限难消公众怀疑 siyushenqi.com • 2025 年 8 月 14 日 上午12:44 • 海外营销 • 阅读 14 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议 OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练;OpenAI表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据;这似乎并不能挽回公众对这家大模型头号公司的信任。 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 文|宋子乔 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。 据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。 但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.firethy.com/35619.html 赞 (0) 打赏 微信扫一扫 支付宝扫一扫 0 0 生成海报 关于作者 siyushenqi.com 关注私信 7.9K 文章 0 评论 296 问题 16 粉丝 私域神器:国内海外私域营销拓客软件 斯坦福的「虚拟小镇」开源了:25个AI智能体照进《西部世界》 上一篇 2025 年 8 月 14 日 上午12:44 AI产生自我意识,「古墓丽影」劳拉觉醒!电子游戏革命来了 下一篇 2025 年 8 月 14 日 上午12:44 相关推荐 海外营销 私域神器每周精选 No.60|上海尊飞三年打造精品SLG 现寻全球发行;多款社交产品寻资源合作 私域神器小程序是集资源、资讯、活动为一体的整合媒体平台,汇聚了10万多出海精英,1万多出海企业,吸引包括华为、腾讯、网易、Funplus、Google、Meta在内的国内外大厂精英入驻,帮助众多企业达成合作需求。 siyushenqi.com 2天前 3000 海外营销 禅游科技上半年业绩爆炸,营收10亿净利增73.3% 棋类游戏营收占比90.7% siyushenqi.com 3天前 6000 海外营销 腾讯发布首个工业级AIGC生产引擎,可提供一站式AI素材生成服务 腾讯的混元大模型在普通用户眼中较为“低调”,主要原因是其在C端实例较少,仅“腾讯元宝”使用了部分功能技术。 siyushenqi.com 6天前 3000 海外营销 搜索量暴涨数十万!这款产品让卖家成功爆单! 搜索排名短期飙升!大量卖家凭借这款产品爆单! siyushenqi.com 2025 年 8 月 12 日 14000 海外营销 一条投放视频获500万播放,海外爆火的Me+什么来头? 健康类应用又又又有新爆款了! siyushenqi.com 5天前 4000 海外营销 南非之后,Temu宣布进军尼日利亚 中国跨境电商平台Temu宣布进军尼日利亚市场,此前已在南非上线,标志着其在非洲电商市场的扩张。 siyushenqi.com 2025 年 8 月 5 日 22000 海外营销 英伟达开源新大模型:训练数据减少40倍,算力节省1.8倍 全球AI领导者英伟达(Nvidia)开源了最新大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。 siyushenqi.com 2025 年 8 月 13 日 11000 海外营销 一夜之间小红书上全是外国人:大量TikTok网民涌入小红书 2025年的第一个全网热门话题竟然是"中美关系闹在小红书",一夜之间小红书app上全是金发人,中国和美国网民第一次在小红书上做了非常亲切的沟通。 小红书上的内容,你看到的一定是这样子的: 事情的起因是这样子: 2024年12月6日,tiktok(国内叫抖音)在漂亮国败诉了,漂亮国要求字节跳动在2025年1月19日前出售或者剥离tiktok在美国的资产,否… siyushenqi.com 2025 年 1 月 14 日 479000 海外营销 TIKTOK视频播放过亿!Lululemon造就“瑜伽界爱马仕”神话 瑜伽裤界的“爱马仕”——Lululemon siyushenqi.com 2025 年 8 月 12 日 12000 海外营销 沙特物流市场规模约180亿美元,占整个海湾市场的55% 沙特阿拉伯的数字商务部门已经发生了重大的(数字化)转型,并且消费者行为发生了显着变化 siyushenqi.com 2025 年 8 月 13 日 14000 海外营销 2023 年 9 月全球突破游戏排行 2023年9月颇为热闹,有引人注目的新游戏发布,PC 端游戏转移到移动端,以及体育迷推动相关游戏季节性增长。我们将以 4 周为周期,对月度资讯进行分析。 siyushenqi.com 4天前 5000 海外营销 中美 AI 独角兽大 PK:中国88家,美国50家 作为全球拥有独角兽企业数量最多的两个国家,对比中国和美国的独角兽在产业、估值、城市分布等维度的差异,分析他们的发展路径、轨迹,有着更重要的意义。 siyushenqi.com 2025 年 8 月 13 日 14000 海外营销 腾讯网易急入局,桌崽留存超豆包,游戏新世代由AI队友开启 AI技术正从辅助制作工具转变为游戏的核心玩法,成为玩家在游戏中的“助手”和“队友”。 siyushenqi.com 2025 年 8 月 13 日 14000 海外营销 ChinaJoy二十年,中国游戏经历了什么? 当我们将ChinaJoy作为一种特别的时间维度,回头看那些带着时代印记的片段,以及那些在行业留下故事的人物,则可以回顾中国游戏产业近20年的坎坷与光辉。 siyushenqi.com 5天前 5000 海外营销 TikTok Shop放出大招,PEAKS出海经营方法论助力商家打破增长困局 中国跨境电商发展迅猛,2024年跨境电商进出口规模达2.63万亿元,同比增长超10%,成为外贸增长的重要引擎。然而,部分商家为抢占市场份额,陷入“低价竞争”的困境,导致利润空间被压缩。因此,从“产品出海”向“品牌出海”转变成为商家的破局关键。 siyushenqi.com 2025 年 8 月 5 日 21000 海外营销 8月版号喜下发,鹰角、腾讯、冰川、壳木、4399均有产品过审,IP大作、小游戏成主角! 这一批有不少值得期待。 siyushenqi.com 5天前 6000 海外营销 SHEIN式柔性供应加速卖家产品创新出海,卖家开年爆款销量翻倍 2024跨境电商火热开局,中国卖家在SHEIN平台上抢跑新年商机。 siyushenqi.com 2025 年 8 月 12 日 15000 海外营销 eMarketer 预测 2022 美国订阅电商销售额将提升 15% ,与店匠科技共同解读三大优势 预计 2022 年美国订阅电商销售额将增长 15%;食品、美容个护等生活必需品类是订阅电商增长的最强驱动力;订单履约能力是商家保持订阅服务稳定增长的关键 siyushenqi.com 2025 年 8 月 13 日 14000 海外营销 CareerTu职图 创始人兼CEO 徐瑞琬:《品牌出海3.0时代的高阶玩法》 CareerTu职图 创始人兼CEO 徐瑞琬受邀参会,并带来了《品牌出海3.0时代的高阶玩法》的主题分享。 siyushenqi.com 2025 年 8 月 13 日 10000 海外营销 梁文锋倒逼OpenAI重新Open 2025年5月6日,OpenAI宣布放弃将公司完全转为营利性机构的计划,决定让非营利组织控制公司,取消对投资者的财务回报上限,CEO山姆·阿尔特曼发布全员信,强调未来要成为“历史上规模最大、效果最佳的非营利组织”。这一转变是在DeepSeek爆火后,OpenAI的“江湖霸主”地位被动摇的背景下发生的。 siyushenqi.com 2025 年 8 月 13 日 12000 海外营销 迈向2024,AI创业投资的挑战与新机会:大力发展AI应用生态、AI Agent值得关注… 从2023到2024,AI的进击、挑战与新机会。 siyushenqi.com 2025 年 8 月 13 日 12000 海外营销 私域神器周报 No.13丨出海盛宴抢“鲜”看 互联网一周又有哪些大事 一起看看这周有哪些出海圈值得关注的大事记吧! siyushenqi.com 2025 年 8 月 15 日 10000 海外营销 2023年沙特阿拉伯斋月消费趋势 关注特殊购物节点的渠道选择与消费心理 siyushenqi.com 2025 年 8 月 12 日 11000 海外营销 2020 VS 2021,消费者都在美国亚马逊买什么? 一文概览2020年和2021年美国亚马逊上高增长品类和商品 siyushenqi.com 2025 年 8 月 13 日 12000 海外营销 印度封禁事件启示录:单一市场的隐患 类似印度的大规模封禁不会上演!原因有二,海外内需和中国竞争力。 siyushenqi.com 2025 年 8 月 13 日 15000 海外营销 TikTok 2024展望:收入增半+电商翻倍,好实现吗? 1、回顾2023:打破纪录 2、2024预测:更强增长 3、新年有新阻力:创新能力来抗压 siyushenqi.com 2025 年 8 月 12 日 10000 海外营销 2023 年聚焦游戏领域: 移动市场规模预计比 PC/Mac 市场多出 1.7 倍 data.ai 和 IDC 合作推出 2023 年聚焦游戏领域报告,深入分析游戏行业现状 siyushenqi.com 3天前 3000 海外营销 STOREEL COO 张睿 确认担任 PAGC 2025丨第五届全球产品与增长展会 短剧出海增长峰会圆桌嘉宾 STOREEL COO 张睿 确认担任 PAGC 2025丨第五届全球产品与增长展会 短剧出海增长峰会圆桌嘉宾 siyushenqi.com 6天前 8000 海外营销 AI动漫短剧杀进千亿市场 AI正在消解真人短剧与动漫短剧的形态边界,AI转绘的动漫短剧如《心动的信号》等作品的出现,标志着AI动漫短剧从技术试验阶段迈向规模化生产阶段。AI技术为短剧市场带来了新的活力和变革。 siyushenqi.com 6天前 5000 海外营销 外贸单据工作过于琐碎?6个小窍门,让你工作更高效! 外贸公司中有很多岗位是需要协助外贸业务员做单据的工作,比较繁琐,并且都是数字,很容易出错。 所以有什么小窍门可以提高做单据的工作效率,并且保持准确度,减少失误呢? 这个工作说简单也简单,说难也难,虽然主要是一些paper work,但是需要对外贸流程非常熟悉,了解每个单据的作用、功能和要求,对单据和实际业务之间的关系要熟知,做单据的时候能够抓住重点。比如出口… siyushenqi.com 2024 年 9 月 20 日 473000 发表回复 请登录后评论...登录后才能评论 提交