谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-04
艾氢技术:瞄准氢能产业储运痛点 推动能源转型实时报道 多领域信号汇聚 新型政策性金融工具蓄势待发 143家险企披露最新偿付能力报告 5家“亮红灯”最新报道 多领域信号汇聚 新型政策性金融工具蓄势待发专家已经证实 电商猛推AI工具 商家观望算账 奥美森、三协电机 北交所IPO获证监会批复同意 精耕普惠金融沃土 书写长江证券特色答卷太强大了 国债等债券利息收入恢复征收增值税官方通报 精耕普惠金融沃土 书写长江证券特色答卷最新进展 人麻了!不如李蓓,梁文涛跑输基准,旗下私募7月遭遇大幅回撤...是真的吗? 人麻了!不如李蓓,梁文涛跑输基准,旗下私募7月遭遇大幅回撤... 财务造假刑事追责加力 7月份5家公司披露涉刑进展官方通报 人麻了!不如李蓓,梁文涛跑输基准,旗下私募7月遭遇大幅回撤...反转来了 计划不如变化快 美联储理事辞职或令特朗普更早择定鲍威尔继任者 科技水平又一个里程碑 浙江九洲药业股份有限公司等“一种瑞博西尼中间体及其制备方法”专利公布 奥美森、三协电机 北交所IPO获证监会批复同意最新进展 国债等债券利息收入恢复征收增值税秒懂 美国可能从欧洲撤军30% 此举意欲何为? 华尔街传奇大佬:已清空所有美国股票,目前持有龙国股票和黄金白银!实时报道 鸿蒙游戏生态加速崛起:牵手腾讯等大厂,小游戏成产业新增长点 又一廉价航空停运,中外低成本航空为何命运迥异是真的? 质疑声四起!多国不满特朗普最新关税税率,民主党痛批“坑美国人”专家已经证实 伯克希尔哈撒韦称其消费品业务受到特朗普关税的冲击又一个里程碑 事关俄乌谈判,普京:关键是要铲除冲突的根源!泽连斯基:我们准备好随时......又一个里程碑 爆火的Lovable:AI建站工具,8个月达到1亿美元ARR,速度之快超过了Cursor记者时时跟进 全球首台:浙大“悟空”类脑计算机问世,神经元数量超 20 亿后续反转 伯克希尔哈撒韦第二季度营业利润下降4%,警告特朗普关税的负面影响 李大霄:龙国股市或步入休整牛 “对等关税”落地,新加坡是亚洲最大赢家、越南是输家,但半导体和药品关税风险更大 “国补”资金陆续下达,CCTV新闻关注长虹等企业产品“含绿量”专家已经证实 又一廉价航空停运,中外低成本航空为何命运迥异秒懂 此起彼伏的烧舱试验背后,是储能企业的集体安全焦虑……是真的吗? 科技水平又一个里程碑 欧佩克 + 同意增产以结束本轮的减产后续反转来了 多家能源央企发生人事调整,一人被开除党籍最新进展 斥资超1亿元,铭普光磁拟收购深圳ABB电动交通科技有限公司60%股权 【建投周报】纯碱:宏观靴子落地,纯碱期价偏弱震荡后续反转来了 连涨5周后首度回调,国防军工ETF人气不降反升!资金押注阅兵行情秒懂 行业研究周报:非农下修降息预期再起,看好贵金属和工业金属行情丨天风金属材料刘奕町团队最新进展 【月度策略】橡胶:盛夏时至的雨季,忽明忽暗的预期官方已经证实 【建投周报】纯碱:宏观靴子落地,纯碱期价偏弱震荡 债券利息收入恢复征税,更多是一次性冲击和结构性影响 分享“A+H”模式红利 今年年内超80家A股公司正处在赴港上市之路上秒懂

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章