OpenAI也为数据犯难!公司承认使用爬虫,自我设限难消公众怀疑 siyushenqi.com • 2025 年 8 月 14 日 上午12:44 • 海外营销 • 阅读 59 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议 OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练;OpenAI表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据;这似乎并不能挽回公众对这家大模型头号公司的信任。 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 文|宋子乔 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。 据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。 但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.firethy.com/35619.html 赞 (0) 打赏 微信扫一扫 支付宝扫一扫 0 0 生成海报 关于作者 siyushenqi.com 关注私信 11.2K 文章 0 评论 298 问题 16 粉丝 私域神器:海外私域营销拓客软件 斯坦福的「虚拟小镇」开源了:25个AI智能体照进《西部世界》 上一篇 2025 年 8 月 14 日 上午12:44 AI产生自我意识,「古墓丽影」劳拉觉醒!电子游戏革命来了 下一篇 2025 年 8 月 14 日 上午12:44 相关推荐 海外营销 出海开发者谈丨光好玩是不够的 三招教你如何才能制作一款能“赚钱”的游戏 研发前该考虑的两三事 siyushenqi.com 2025 年 8 月 3 日 56000 海外营销 马云回归,淘宝涨700万会员,我听到一片欢呼 马云:接下来就是淘宝的机会。 siyushenqi.com 2025 年 8 月 5 日 61000 海外营销 连Facebook都忌惮的Snapchat,为什么没有中国本土同 满足巨头没精力关注的小众需求,聚集一小群用户,同样有可能流行起来,就像Snapchat。 siyushenqi.com 2025 年 8 月 3 日 58000 海外营销 自由都市、冰狐游戏、帝国互动确认参加第三届全球产品与增长大会-游戏研发发行对接会 自由都市、冰狐游戏、帝国互动确认参加第三届全球产品与增长大会-游戏研发发行对接会 siyushenqi.com 2025 年 8 月 22 日 61000 海外营销 《幻塔》能否实现国产原创科幻游戏的破局? 轻科幻废土题材+开放世界的《幻塔》手游似乎成为了国产原创科幻游戏这片沙漠中少有的绿洲。 siyushenqi.com 2025 年 8 月 25 日 74000 海外营销 AIGC成为必选项,游戏平台说不,监管白名单可期 用必须得用,关键是以后怎么用 siyushenqi.com 2025 年 8 月 20 日 68000 海外营销 我们也卖课了!月之暗面Kimi Chat使用指南 可不是免费的。 siyushenqi.com 2025 年 8 月 13 日 120000 海外营销 “AI产品墓地”里又添了几座新“坟” 近期众多AI产品停运,包括明星创业公司、互联网巨头以及中小创业团队的应用,这些产品从诞生到停运过程短暂,引发了用户错愕与惋惜。 siyushenqi.com 2025 年 8 月 13 日 52000 海外营销 “让游戏再次伟大”,马斯克将成立AI游戏工作室 埃隆·马斯克证实xAI将开设AI游戏工作室,旨在开发具有创新性和多样性的游戏,打破传统游戏产业的限制。 siyushenqi.com 2025 年 8 月 17 日 51000 海外营销 开始“排外”的西班牙,被中国商家“攻占” 近年来,作为欧洲并不强势的国家,西班牙的电商市场发展却格外亮眼,而这其中,中国商品和机构占据了不小格局。据Statista数据显示,中国商品占西班牙跨境采购的一半份额,是2021年西班牙跨境在线购物的主要来源国家。 siyushenqi.com 2025 年 8 月 13 日 52000 海外营销 国产“大小姐短剧”霸屏日本 中国土味短剧的风,从欧美吹到了日本。 siyushenqi.com 2025 年 8 月 18 日 52000 海外营销 Snapchat AR滤镜日活1.8亿,投350万美元鼓励创作 12月9日消息,Snap在今日举行的AR创作者活动Lens Fest上宣布,将投入350万美元来支持Snapchat的AR创作者和开发者 siyushenqi.com 2025 年 8 月 25 日 75000 海外营销 腾讯游戏发布会上的星球沙盒手游,将如何重新定义“沙盒”体验? 在6月27日的2022腾讯游戏年度发布会上,一款名为《手工星球》的新品公布了全新预告片,凭借丰富的玩法元素,吸引了不少玩家的目光 siyushenqi.com 2025 年 8 月 24 日 72000 海外营销 众声喧哗时,我们听到了不一样的ChatGPT 从商业、技术、人文三个视角去审视 siyushenqi.com 2025 年 8 月 14 日 54000 海外营销 2024年9月全球移动游戏市场快报:模拟手游领跑下载量增长排行榜 2024年9月全球手游下载量增长榜Top10中,休闲模拟游戏占据了前三名中的三个位置,显示了这一类型的游戏在全球范围内的持久吸引力。 siyushenqi.com 2025 年 8 月 18 日 160000 海外营销 听说亚马逊在以色列市场不吃香?靠包邮来揽客? 据悉,亚马逊正在寻求在以色列开展更多业务,并对价格超过 65 美元的订单重新引入免费送货服务。 siyushenqi.com 2025 年 8 月 13 日 44000 海外营销 2025年7月成功出海的中国手游 – 《Whiteout Survival》与《Kingshot》成功会师收入榜TOP2 Sensor Tower商店情报平台最新数据显示,2025年7月中国手游产品在海外市场收入及下载量排行榜,详细榜单变化如下。 siyushenqi.com 2025 年 8 月 15 日 79000 海外营销 声网母公司Q2财报:总营收3420万美元,10季度以来首次实现同比增长 财报显示,本季度 Agora, Inc. 实现总营收3420万美元,同比增长0.5%。这也是在2021年Q4之后,10个季度以来 Agora, Inc. 首次实现营收同比增长。 siyushenqi.com 2025 年 8 月 14 日 46000 海外营销 对话株式会社XGL创始人:10亿美元“钱景”的日本短剧市场,如何做出当地人喜欢的短剧? 抢占日本短剧蓝海,要敢于做新赛道的拓荒者。 siyushenqi.com 2025 年 8 月 17 日 44000 海外营销 GDC这几场干货分享说明:做游戏「比谁船大」的时代结束了 大小不是关键,现在比的是谁家船更先进。 siyushenqi.com 2025 年 8 月 18 日 50000 海外营销 成为Temu卖家的122天:从进场到退场 劝退的,不止是一单一块的利润。 siyushenqi.com 2025 年 8 月 13 日 64000 海外营销 性能超GPT-4!免费使用、支持中文,Claude 3正式发布 一共有Haiku、Sonnet和Opus三个版本。 siyushenqi.com 2025 年 8 月 13 日 45000 海外营销 亚马逊网红营销计划是什么?电商行业如何利用这个机会? 最全亚马逊网红营销指南 siyushenqi.com 2025 年 8 月 13 日 44000 海外营销 年末出海观瞻|千亿手游市场,靠什么破解增收困局 支付是所有拓展新兴市场的游戏公司共同的痛点 siyushenqi.com 2025 年 8 月 18 日 46000 海外营销 这款MMO游戏在韩国人地盘上暴打韩系MMO 乐牛游戏的《I9》在Sensor Tower 2025年2月榜单中登顶中国手游海外收入增长榜,并跻身全球手游海外收入第27名 siyushenqi.com 2025 年 8 月 17 日 61000 海外营销 半年营收超50亿,头部大卖多款产品位居亚马逊BSR! 工具类目大有搞头。 siyushenqi.com 2025 年 8 月 12 日 46000 海外营销 字节跳动日本发布漫画应用FizzoToon,2.5亿投资Kiadari引进韩漫 海外漫画市场再添一名强势选手。据Tech星球报道,字节跳动近日在日本上线了漫画APP《Fizzo Toon》,正式进入动漫文化浓厚同时竞争也相当激烈的日本市场。 siyushenqi.com 2025 年 8 月 25 日 84000 海外营销 苹果300亿参数大模型首亮相,还买了家AI公司 落后竞争对手一大截的苹果,正在加速入局大模型战场。 siyushenqi.com 2025 年 8 月 13 日 52000 海外营销 OpenAI回应被连续挖走顶级人才 Meta连续挖走了OpenAI四位顶级研究人才,OpenAI首席研究官Mark Chen向员工发送强硬备忘录,将此行为比作“闯入家中偷东西”。为应对人才流失危机,Mark Chen承诺与OpenAI首席执行官Sam Altman及其他公司领导全天候与收到Meta offer的员工沟通,正采取一系列措施挽留员工,包括重新调整薪酬体系,探索更具创意的方式来认可和奖励顶尖人才,但他也强调会在坚守公平的前提下留住人才,不会以牺牲他人公平为代价。 siyushenqi.com 2025 年 8 月 13 日 42000 海外营销 私域神器每周合作精选No.126|寻IAA出海产品;《神喻》找海外发行;寻海外短剧独家授权;休闲自研产品寻国内外发行合作 本期精选的合作类型涵盖寻IAA出海产品;全3D东方幻想手游《神喻》找海外发行;寻求海外短剧独家授权,新剧、二轮都要;休闲模拟经营自研产品寻国内海 外发行合作等。接下来就一起看看吧~ siyushenqi.com 2025 年 8 月 17 日 56000 发表回复 请登录后评论...登录后才能评论 提交