建议你不要再相信AI基准测试,排行榜已经没啥公信力了 最近更新| 安卓软件| 安卓游戏| 电脑版| 手机版

当前位置: 首页单机游戏冒险解谜→ (5分钟科普下)建议你不要再相信AI基准测试,排行榜已经没啥公信力了_哔哩哔哩_bilibil

建议你不要再相信AI基准测试,排行榜已经没啥公信力了

建议你不要再相信AI基准测试,排行榜已经没啥公信力了v1.70.68.08

猜你喜欢
分类:单机 / 冒险解谜 大小:3.4MB 授权:免费游戏
语言:中文 更新:2025-12-04 03:47 等级:
平台:Android 厂商: 建议你不要再相信AI基准测试,排行榜已经没啥公信力了股份有限公司 官网:暂无
权限: 查看
允许程序访问网络.
备案:湘ICP备2023018554号-3A
标签: 建议你不要再相信AI基准测试,排行榜已经没啥公信力了 建议你不要再相信AI基准测试,排行榜已经没啥公信力了最新版 建议你不要再相信AI基准测试,排行榜已经没啥公信力了中文版
详情
介绍
猜你喜欢
相关版本

截图

内容详情

建议你不要再相信AI基准测试,排行榜已经没啥公信力了游戏介绍

⚾2025-12-04 03:55 「百科/秒懂百科」【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了】🍓支持:32/64bi🐯系统类型:(官方)官方网站IOS/Android通用版/手机APP(2024APP下载)《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

🏈2025-12-04 12:25 「百科/秒懂百科」【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了】🍌支持:32/64bi🦈系统类型:(官方)官方网站IOS/Android通用版/手机APP(2024APP下载)《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

🏊2025-12-04 12:20 「百科/秒懂百科」【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了】🐳支持:32/64bi🍒系统类型:(官方)官方网站IOS/Android通用版/手机APP(2024APP下载)《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

🦈2025-12-04 05:43 「百科/秒懂百科」【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了】🐰支持:32/64bi🐍系统类型:(官方)官方网站IOS/Android通用版/手机APP(2024APP下载)《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

🐬2025-12-04 12:57 「百科/秒懂百科」【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了】🐙支持:32/64bi🥌系统类型:(官方)官方网站IOS/Android通用版/手机APP(2024APP下载)《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

建议你不要再相信AI基准测试,排行榜已经没啥公信力了版本特色

1. 🐪「科普」🏄 建议你不要再相信AI基准测试,排行榜已经没啥公信力了官网-APP下载🎾🥑🦊支持:winall/win7/win10/win11🐦系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载(2024全站)最新版本IOS/安卓官方入口v1.11.84.95(安全平台)登录入口🍁《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

2. 🤸「科普盘点」🐱 建议你不要再相信AI基准测试,排行榜已经没啥公信力了官网-APP下载🎾🥑🦊支持:winall/win7/win10/win11🐦系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载(2024全站)最新版本IOS/安卓官方入口v4.86.13.05(安全平台)登录入口🍁《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

3. 🍂「分享下」🚴 建议你不要再相信AI基准测试,排行榜已经没啥公信力了官网-APP下载🎾🥑🦊支持:winall/win7/win10/win11🐦系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载(2024全站)最新版本IOS/安卓官方入口v8.01.08.02(安全平台)登录入口🍁《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

4. 🏹「强烈推荐」🤼‍♀️ 建议你不要再相信AI基准测试,排行榜已经没啥公信力了官网-APP下载🎾🥑🦊支持:winall/win7/win10/win11🐦系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载(2024全站)最新版本IOS/安卓官方入口v9.42.07.16(安全平台)登录入口🍁《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

5. 🐪「重大通报」🏌️ 建议你不要再相信AI基准测试,排行榜已经没啥公信力了官网-APP下载🎾🥑🦊支持:winall/win7/win10/win11🐦系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载(2024全站)最新版本IOS/安卓官方入口v7.57.63.14(安全平台)登录入口🍁《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

6. 🐢「返利不限」🌳 建议你不要再相信AI基准测试,排行榜已经没啥公信力了官网-APP下载🎾🥑🦊支持:winall/win7/win10/win11🐦系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载(2024全站)最新版本IOS/安卓官方入口v9.69.77.82(安全平台)登录入口🍁《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

7. 🏐「欢迎来到」🏀 建议你不要再相信AI基准测试,排行榜已经没啥公信力了官网-APP下载🎾🥑🦊支持:winall/win7/win10/win11🐦系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载(2024全站)最新版本IOS/安卓官方入口v9.20.19.63(安全平台)登录入口🍁《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

8. 🌸「娱乐首选」🦆 建议你不要再相信AI基准测试,排行榜已经没啥公信力了官网-APP下载🎾🥑🦊支持:winall/win7/win10/win11🐦系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载(2024全站)最新版本IOS/安卓官方入口v0.11.74.46(安全平台)登录入口🍁《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

9. ⛳「免费试玩」🤾 建议你不要再相信AI基准测试,排行榜已经没啥公信力了官网-APP下载🎾🥑🦊支持:winall/win7/win10/win11🐦系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载(2024全站)最新版本IOS/安卓官方入口v5.03.30.76(安全平台)登录入口🍁《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》

建议你不要再相信AI基准测试,排行榜已经没啥公信力了下载方式:

①通过浏览器下载

打开“建议你不要再相信AI基准测试,排行榜已经没啥公信力了”手机浏览器(例如百度浏览器)。在搜索框中输入您想要下载的应用的全名,点击下载链接【share.www.mobile.wap.m.mobile.share.3g.mobile.m.blog.m.xejwu.com】网址,下载完成后点击“允许安装”。

②使用自带的软件商店

打开“建议你不要再相信AI基准测试,排行榜已经没啥公信力了”的手机自带的“软件商店”(也叫应用商店)。在推荐中选择您想要下载的软件,或者使用搜索功能找到您需要的应用。点击“安装”即 可开始下载和安装。

③使用下载资源

有时您可以从“”其他人那里获取已经下载好的应用资源。使用类似百度网盘的工具下载资源。下载完成后,进行安全扫描以确保没有携带不 安全病毒,然后点击安装。

建议你不要再相信AI基准测试,排行榜已经没啥公信力了安装步骤:

🦛🤽🏇第一步:🏀访问建议你不要再相信AI基准测试,排行榜已经没啥公信力了官方网站或可靠的软件下载平台:访问(http://share.www.mobile.wap.m.mobile.share.3g.mobile.m.blog.m.xejwu.com/)确保您从官方网站或者其他可信的软件下载网站获取软件,这可以避免下载到恶意软件。

🏌️🚴🐌第二步:💐选择软件版本:根据您的操作系统(如 Windows、Mac、Linux)选择合适的软件版本。有时候还需要根据系统的位数(32位或64位)来选择建议你不要再相信AI基准测试,排行榜已经没啥公信力了。

🐋🛺🦁第三步:🐼 下载建议你不要再相信AI基准测试,排行榜已经没啥公信力了软件:点击下载链接或按钮开始下载。根据您的浏览器设置,可能会询问您保存位置。

⛳🐳🏐第四步:💐检查并安装软件: 在安装前,您可以使用 杀毒软件对下载的文件进行扫描,确保建议你不要再相信AI基准测试,排行榜已经没啥公信力了软件安全无恶意代码。 双击下载的安装文件开始安装过程。根据提示完成安装步骤,这可能包括接受许可协议、选择安装位置、配置安装选项等。

🌰🦘🏂第五步:🦘启动软件:安装完成后,通常会在桌面或开始菜单创建软件快捷方式,点击即可启动使用建议你不要再相信AI基准测试,排行榜已经没啥公信力了软件。

🎋🏋️🐮第六步:🏈更新和激活(如果需要): 第一次启动建议你不要再相信AI基准测试,排行榜已经没啥公信力了软件时,可能需要联网激活或注册。 检查是否有可用的软件更新,以确保使用的是最新版本,这有助于修复已知的错误和提高软件性能。

特别说明:建议你不要再相信AI基准测试,排行榜已经没啥公信力了软件园提供的安装包中含有安卓模拟器和软件APK文件,电脑版需要先安装模拟器,然后再安装APK文件。

建议你不要再相信AI基准测试,排行榜已经没啥公信力了使用讲解

🎢第一步:选择/拖拽文件至软件中点击“🥉添加建议你不要再相信AI基准测试,排行榜已经没啥公信力了”按钮从电脑文件夹选择文件《🐢🧸share.www.mobile.wap.m.mobile.share.3g.mobile.m.blog.m.xejwu.com》,或者直接拖拽文件到软件界面。

建议你不要再相信AI基准测试,排行榜已经没啥公信力了讲解

🥀第二步:选择需要转换的文件格式 打开软件界面选择你需要的功能,建议你不要再相信AI基准测试,排行榜已经没啥公信力了支持,PDF互转Word,PDF互转Excel,PDF互转PPT,PDF转图片等。

建议你不要再相信AI基准测试,排行榜已经没啥公信力了讲解

🍃第三步:点击【开始转换】按钮点击“开始转换”按钮, 开始文件格式转换。等待转换成功后,即可打开文件。三步操作,顺利完成文件格式的转换。

建议你不要再相信AI基准测试,排行榜已经没啥公信力了讲解

进入建议你不要再相信AI基准测试,排行榜已经没啥公信力了教程

1.打开建议你不要再相信AI基准测试,排行榜已经没啥公信力了,进入建议你不要再相信AI基准测试,排行榜已经没啥公信力了前加载界面。

2.打开修改器

3.狂按ctrl+f1,当听到系统“滴”的一声。

4.点击进入建议你不要再相信AI基准测试,排行榜已经没啥公信力了,打开选关界面。

5.关闭修改器(不然容易闪退)

以上就是没有记录的使用方法,希望能帮助大家。

建议你不要再相信AI基准测试,排行榜已经没啥公信力了特点

🏋️‍♀️2025-12-04 03:58 🍏MBAChina🐮【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了 】系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了(官方)官方网站IOS/Android通用版/手机APP(2024APP)【下载次数13904】🤾🏑🍓支持:winall/win7/win10/win11🐠🍃现在下载,新用户还送新人礼包🐙建议你不要再相信AI基准测试,排行榜已经没啥公信力了

🥇2025-12-04 08:43 🤼‍♀️欢迎来到🎾【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了 】系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了(官方)官方网站IOS/Android通用版/手机APP(2024APP)【下载次数22665】🌴🦨🎾支持:winall/win7/win10/win11🌿🐶现在下载,新用户还送新人礼包🦇建议你不要再相信AI基准测试,排行榜已经没啥公信力了

🥋2025-12-04 02:52 🦊HOT🐸【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了 】系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了(官方)官方网站IOS/Android通用版/手机APP(2024APP)【下载次数24490】🤼⛷️🦐支持:winall/win7/win10/win11🏀🏋️‍♀️现在下载,新用户还送新人礼包🐯建议你不要再相信AI基准测试,排行榜已经没啥公信力了

🤺2025-12-04 03:07 🦎娱乐首选🍊【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了 】系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了(官方)官方网站IOS/Android通用版/手机APP(2024APP)【下载次数62598】🍐🦧🐮支持:winall/win7/win10/win11🥋🏈现在下载,新用户还送新人礼包🦢建议你不要再相信AI基准测试,排行榜已经没啥公信力了

🚵2025-12-04 08:29 👾返利不限🏏?【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了 】系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了(官方)官方网站IOS/Android通用版/手机APP(2024APP)【下载次数93370】🏂🥇🍊支持:winall/win7/win10/win11🍒👾现在下载,新用户还送新人礼包🍁建议你不要再相信AI基准测试,排行榜已经没啥公信力了

相关介绍

🤾ωειcοmε🌴【 建议你不要再相信AI基准测试,排行榜已经没啥公信力了 】🐺🦁🍊系统类型:建议你不要再相信AI基准测试,排行榜已经没啥公信力了(官方)官方网站-IOS/安卓通用版/手机app🌵支持:winall/win7/win10/win11🌳🌿🌻【下载次数999】🐜🎴现在下载,新用户还送新人礼包🀄建议你不要再相信AI基准测试,排行榜已经没啥公信力了

建议你不要再相信AI基准测试,排行榜已经没啥公信力了2024更新

需将大军找到。”

> 厂商新闻《建议你不要再相信AI基准测试,排行榜已经没啥公信力了》特朗普继续对日本施压:日本需要开放市场 时间:2025-12-04 13:47

    • 编辑:CN

      2025 年,大模型的竞争已进入新的阶段,纷纷在卷推理、编程、数学、Agent 等更加高级的能力。每一次模型更新,都伴随着新的榜单、新的测试、新的 “ 超越 GPT-5 ”。

      但当榜单数字一次次刷新,实际使用却经常令人失望,人们也越来越怀疑:这些 “ 进步 ”,究竟是真实的智能跃迁,还是被基准测试 “ 驯化 ” 出来的幻觉?

      在过去两年中,“ Benchmark Cheating( 基准测试作弊 )” 已成为业内绕不开的话题,测试集泄露、排行榜操纵等问题不断被揭露。

      通过对一些典型基准测试的重构或微调,得到的测试结果往往令人大跌眼镜。Scale AI 2024 年 11 月发表的论文《 A Careful Examination of Large Language Model Performance on Grade School Arithmetic 》表明,通过仿照 GSM8K 测试集创建一个新的测试基准 GSM1K,许多开源模型的准确率大幅降低,顶尖闭源模型则能保持成绩。

      但这并不表明闭源模型就很清白无辜,它们亮眼的成绩背后甚至有更强的人为操纵成分。

      Cohere 于 2025 年 4 月底发表的论文《 The Leaderboard Illusion 》就指出,一些知名评测平台如 Chatbot Arena 并非完全公正:大型公司往往拥有更多的测试资源与结果调整机会,而占据更多数的开源模型则被限制资源与参与次数。

      比如,在 2025 年 1 月至 3 月期间,Meta 在正式发布 Llama 4 之前,在一个月内总共私下测试了 27 个模型。OpenAI 和 Google 可以获得 Chatbot Arena 约 20.4% 和 19.2% 的测试数据,其他所有 83 个开源模型总共只获得了约 29.7% 的测试数据。

      同在 4 月,此前还有匿名爆料称 Llama 4 为赶进度将部分测试集题目混入训练以 “ 刷分 ”,虽无实证,但传言引发轩然大波,Llama 4 的实际拉胯表现更加重了社区的怀疑。

      最终结果是,基准测试排行榜不再反映真实性能,而成为厂商营销的一部分。

      伴随而来的是,数据集污染和刷榜现象已成公开的秘密。2024 年发表的论文《 An Open-Source Data Contamination Report for Large Language Models 》指出,MMLU 测试题中逾 16% 在 Llama 2 的训练集出现过。

      有趣的是,评测体系一旦公开,就注定会被模型训练数据覆盖。即便厂商不是有意作弊,也可能因为整个生态现状被迫 ‘ 卷 ’ 向测试集。

      “ 公开的秘密 ” 也导致基准测试的公信力大大下降。甚至在 Reddit 上,有网友指出,一款 70B 的角色扮演模型( RP 模型 )在 Hugging Face 上的各项基准测试结果都比一款 8B 模型更差,但实际应用中 70B 的模型比任何 8B 模型都强很多。

      问题的根源不止于 “ 作弊 ”。在许多专家看来,当下的 AI 基准测试体系本身就存在结构性缺陷:测试集过于静态、任务过于原子化、目标过于单一化。

      基准测试偏重对现有知识碎片化、原子化后的套路解答,类似于高考刷题,没有考虑到用户在实际应用中真正关心的问题,比如意图识别、上下文记忆等,甚至连当客服助理都不够用。

      而当评测机制被质疑、信任逐渐下滑,新的尝试也在酝酿。

      一些更复杂、更动态,或具有数据隐藏特性的测试集逐渐兴起,希望能够更加真实地测试模型的零样本能力,以及更多维度的能力,比如真实任务完成率、交互持续性、工具调用能力等。

      正如 OpenAI 研究员姚顺雨曾言,AI 下半场的关键,不在于更大的模型,而在于更难的测试。AI 社区正认识到:AI 的竞争正在从模型架构,转向 “ 测试与任务设计 ” 的博弈。

      然而,这也可能只是问题的一个侧面。

      在知危与企业专家和学术专家的对话中,我们发现,无论是业界还是学界,都认为目前乃至未来的大部分基准测试已经没有太大参考价值。

      货拉拉 AI 应用科学负责人王世伟表示,“ 2023 年底之前,挑选新模型时还是会参考基准测试的排行榜的。”

      “ 当初大模型有上百款,一般很难知道哪一款是比较符合我们业务要求的,所以会从排行榜里挑选出一些大模型进行测试,而不是直接拿最高排行的模型进行使用。一般情况下,挑选新模型时前期投入不会特别大,对企业造成损失不算大。当然也不排除有些企业在错误的选择上重投入,且掉头难,那这种情况下损失会比较大。”

      “ 排行很高的模型在实际业务中应用其实是有落差的。主要是国外的一些大模型排行比较高,但在中文业务上效果不好,后来国内业务就聚焦国内的大模型了。”

      “ 2024 年中之后,选择新模型时就比较少参考基准测试了。” 他表示。

      “ 主要原因也是当前大模型能力强的也比较集中了,行业口碑就是很好的参考,国内主要是千问系列、豆包系列、DeepSeek 系列等,国外的主要是 OpenAI、Claude 等,其他的都比较少考虑了。这时选择新模型就不仅仅是它当前测试效果,还会考虑新模型公司的稳定性、新模型迭代的速度、新模型的开源程度这三个点。”

      上海交通大学计算机学院通用人工智能( AGI )研究所所长、长聘教授赵海则向知危指出,从学术界角度,基准测试数据泄漏的问题其实可以追溯到更早期的时候,并且从本质上看,几乎无法避免。

      “ 我在 ChatGPT 之前的预训练语言模型时代就注意到这个问题。当时做机器阅读理解任务时,刷榜现象已经很流行。因为无论是自回归模型,还是遮盖语言模型,本质上都是预训练,数据规模非常大,甚至可以覆盖整个互联网。即便是当时的小模型,数据量也已经非常大了。” 赵海说道。

      “ 那时候我就和学生说,评估结果和刷榜的结果( 现在用 Benchmark 这个词 )往往并不完全可靠。现在其实问题依旧存在。并不是研究者故意的,而是常常在数据准备阶段,无意中把测试集的数据包含进了预训练数据中,导致结果表现特别好。有些模型本身架构并不突出,但由于规模大、使用了更大规模的训练数据,结果反而很好。当然,这也可以被认为是一种 ‘ 规模效应 ’:模型越大,数据越多,效果就越好。至于具体算法机制反而成了次要问题。”

      “ 此外,这个问题不能简单用 ‘ 数据集泄露 ’ 来描述。实际上,这是大模型的特性造成的。现在大家都在说,大模型已经到了人类可用数据集都不够的程度,也就是说,它能收集到的所有可能数据基本都包含在内。因此,与其说是 ‘ 泄露 ’,不如说训练数据已经成了一个 ‘ 全集 ’。某个基准数据集大概率 —— 甚至 90% 以上的概率 —— 已经包含在模型训练数据里,这是很可能、也很难避免的情况。”

      在基准失准后认准头部厂商,对于企业而言是一种简单有效的方法。但实际应用场景可能还考虑多种因素的权衡,比如性能、成本、设备适配、安全性等,即便是同一个系列的模型,也有很多型号可以选择。要达到最优组合,需要进一步对每一个细分场景做测试。而企业为应对这种情况,其实已经有比较成熟的方法。王世伟表示,“ 企业内部一般会分场景构建自己的私有基准测试集。”

      王世伟进一步说道:“ 在全民 AI 的浪潮下,很难建立企业层面上统一的基准测试集,主要有几点考虑:一是建设基准测试集的成本高,收益小;二是建设完毕后全公司推广下每个部门不一定都用;三是打破数据壁垒以及现有公司内部的生产关系都很难。”

      “ 为此会根据大模型要具体解决的不同业务场景的问题,有侧重地准备测试集,比如客服领域、AI 营销领域,应该是一个比较可行的方式。”

      私有的基准测试一般都是按需构建,不会特地构建大框架、高成本地去维护,“ 中小企业还是聚焦到业务上,当前比较有名的大模型能力大都满足业务诉求,没必要在这里花太多时间。”

      在 Agent 时代,大模型将会被大规模应用于企业业务中,对大模型的能力其实提出了新的要求,不再只是一味追求准确率,“ 模型为了解决实际问题,那么关注的就是在较长上下文情况下的模型的指令遵循能力,事实性能力以及安全性。”

      对此,赵海教授从学界的角度也给出了相同的解答。在进一步探讨中,我们了解到,赵海教授的学术视野其实远不限于基准测试,在以下对话中,赵海教授基于自己的学术经验和思考,向我们徐徐展开了基准测试的过去、现在、未来,甚至是 AGI 的未来。

      以下是对话原文,知危编辑部进行了不改变原意的整理和编辑。

      知危:现在有一些新的基准测试在探索新的方式,以解决过去的方式带来的弊端。比如,一道题可能最初来自公开数据,但测试集中会刻意修改其中的数值,并且题目不对外公开,还有经常自动化更新等。您觉得这些做法能有效改善基准测试现状吗?

      赵海整体上,这类改变并不会带来太大影响。本质上来说,当前的大模型,尤其是推理型模型,在数学推理题方面已经做了大量优化。很多优化实际上涉及解题模式本身。以数学题为例,如果从中国考试体系的经验来看,出题虽然不能超纲,但老师和考官会想方设法出新题。不过模式是有限的,往往只是改一个数字而已。这样的改动其实很容易被大模型捕捉。换个数值作用不大,除非改动的是出题模式。现在我认为已经到了这个阶段。

      知危:您认为 AI 大模型如果要进一步发展,在基准层面还能做哪些优化?

      赵海这个问题非常尖锐。我对这个领域一直持批评态度。虽然我们团队也确实做过一些数据集方面的工作,比如 CMMLU 等,但我认为这些本质上没有太多技术含量。我并不鼓励学生去做这类事情。

      大模型时代的论文,整体上已经比较 “ 水 ” 了。现在大模型相关的研究里,有两类工作我觉得 “ 含水量 ” 比较高。第一类是做数据集,也就是所谓 Benchmark 的工作;第二类是写那些篇幅很长、引用很多文献的综述性文章。至于剩下的一些所谓技术性文章,大多只是渲染 “ 大模型能做这个 ” 或者 “ 大模型不能做这个 ”,缺乏真正突破。当然,这并不是说它们完全没有意义,只是我认为价值有限,作用不大。 当然新测试数据集发布时,我们可以用它在已有大模型之间做一些相对性的比较。但这种比较只是 “ 看看情况 ”,并不能真正反映综合能力。

      因为现在的大模型不能简单看作是一个普通模型,更应该看作人的大脑 —— 当然实际距离人脑还差得远,否则就已经是 AGI 了。如果要谈人脑的评估,你不会只用一张试卷。

      一个 Benchmark 就像是一张试卷,用它来衡量大模型的整体能力,本身就有局限性。更重要的是,大模型有点像 “ 过目不忘 ” 的人。因此用碎片的、静态的 Benchmark 究竟能评估什么,值得怀疑。我觉得目前这种评估方式,商业上的噱头可能更多一些。

      总之就是:价值有限,但并不是完全没有意义。

      知危:我们现在有一个观感是,国外各种新的 Benchmark 层出不穷,不管是语言、代码、自然科学等,甚至像 OpenAI 最近提出的评估模型经济价值的基准,而国内相关进展相对慢一些,对此您怎么看?

      赵海:我觉得这件事其实没必要去争。前面说到,这件事并不是完全没有价值,但也并不是很有技术含量。很多 Benchmark 的来源,其实就是由大模型合成数据生成的。举个例子,我找一批题目,交给 OpenAI 最新的 GPT-5 或其他模型来生成答案,然后发布出来,这就成了一个新的 Benchmark。甚至其中不少都不是人工标注的,因为顶级大模型的效果已经足够好,本身就可以当作 “ 金标准 ”。

      所以,这种工作的价值在哪里呢?无非就是让人看到,你和顶级大模型之间还有多大差距。如果说它有价值,也就仅限于此。

      如果要用新数据做微调,从 ChatGPT 出现的第一天起,大家就在用 ChatGPT 回答的问题来标注对话数据。最初 ChatGPT 的数据确实是人工标注的,但后续把大语言模型变成对话式大语言模型时,所需的 SFT( 监督微调 )第一批数据,大概率就已经来自合成数据。这已经成为当前的主流模式。

      基准测试或数据标注模式在特别细分、专业的数据领域可能有价值,尤其是一些几乎不可能合法流出的数据,比如医学相关的数据。如果通过人工标注来完成,这样的工作确实有意义。

      但从长远来看,我认为 “ 大数据时代 ” 早就结束了。人类和互联网的数据总量就是这些,能用的搜索引擎公司基本都已经利用过。比如国内的百度、美国的谷歌,以及 OpenAI 可能用到微软 Bing 的数据,这些搜索引擎爬取的数据基本都被用了一遍,甚至还有更多的合成数据。

      对于小规模、极其细分、专业领域的科学家标注,我认为无法改变这个大的趋势。未来这些工作很快都会被真正的 AGI 系统取代。为什么?因为真正的 AGI 系统无需依赖人工标注,能够自己亲手做实验、直接获取一手数据,再基于这些数据推出新的模型、新的方法和新技术。

      知危:从您的个人感受来看,除了基准测试的数值本身不太可信之外,主流大模型的实际能力进步有多大?

      赵海:从技术框架的角度来说,我认为主流大模型的进步并不大。现在的标准路径大致就是:大语言模型的涌现能力、对话的指令微调,再加上多模态。

      关于能力的问题,大模型( 尤其是 GPT 系列 )的核心问题之一是 “ 幻觉 ”。

      所谓幻觉,就是知识性错误:它的输出语言肯定是连贯流畅的,但事实判定可能不对,有时是 “ 瞎编 ” 的。从 ChatGPT 发布时间( 2022 年底 )到现在大约三年的时间,这方面其实进步还是蛮大的。OpenAI 声称幻觉减少很多,这一点我认为并没有夸大,确实有明显改善。

      另外,大模型还有一项真正的能力,但一般大家不太谈:工程优化的强度。现在模型已经足够大,以至于掩盖了技术( 或者说工程上的优化 )在背后的作用。OpenAI 在这一点上比其他模型做得更好一些。我自己没有系统地用过最新版本,但根据学生的反馈以及我自己偶尔使用某些国产大模型的体验,可以明显感受到 “ 指令跟随 ” 这一点的差异。比如我要求模型执行某件事情时,有时它并没有按要求做,或者忽略了我的指令。这一点在最近使用某些国产大模型时尤其明显。

      这背后原因不明,可能有些公司的 App 可能没有部署特别大号的模型,但也可能是技术不太过关。在商业化部署时,比如某家公司内部可能拥有 100B、200B、甚至 300B 参数规模的模型,但在实际部署到应用时,运行的可能只是 20B 或 30B 的模型。这主要是出于成本考虑。毕竟成千上万的用户在使用,而应用本身未必收费。如果直接部署 100B 规模的模型,电费和算力开销会非常惊人,公司根本无法承受。因此,这往往是商业策略问题。当然,也可能涉及技术性因素。比如 OpenAI,或许他们实际部署的并不是特别大的模型,而是通过模型压缩等优化手段,在保证效果的同时大幅降低了规模和成本。

      除此之外,我认为其实没办法再列举更多了,核心的要求已经很明确,就是两点:指令遵循和减少幻觉。

      其他的维度都没有这两点重要。比如,OpenAI 最近强调的长思维链模型( thinking ),通过超长自回归输出实现自我约束,确实让一些复杂数学题的表现更好。但这并不能从根本上说明问题。它只是利用自回归的特性强行把分数提高,而代价是输出过程变得极其冗长,效率大幅下降。

      所以归根结底,指令遵循和幻觉控制是最基本、最核心的问题。但遗憾的是,在目前的框架下,这两个问题都还没有很好的解决方案。

      知危:如何评估指令跟随能力是否足够好?是否需要非常复杂或动态的测试场景?

      赵海关于指令跟随的评估,并不一定需要特别复杂或动态的测试场景。更关键的是,对话数据要足够多,因为很难预测哪一条指令会触发问题。这种情况的比例其实很低,但用户一旦习惯了稳定的体验,就会对偶发的失误格外敏感。比如说,你习惯使用 OpenAI 的 工具,每次都能得到精准干脆的答案,那么当某个模型突然在 100 次交互中有一次没有很好地跟随指令时,用户就会觉得无法接受。虽然从统计上看,1% 的错误率并不算高,但在用户体验层面,感受完全不同。

      所以,真正的技术进步体现在:即使模型规模不是特别大,但如果指令跟随和幻觉控制得很好,那才是真正有价值的提升。但是,用几千条、几万条的 Benchmark 数据集去评估,其实什么都评不出来。大家看到的成绩可能很亮眼,但并不代表真实能力。

      甚至有些我刚刚提到过、在实际使用中指令跟随效果不佳的模型,在这些 Benchmark 上反而会得到虚高的成绩。

      知危:关于工程上的优化,除了指令跟随能力,对工具的使用能力的提升,是不是也是很重要的一环?

      赵海今年被称为 “ Agent 元年 ”,但这个话题涉及到一个关键问题,它和我们之前讨论的指令跟随其实有一定相似之处。指令跟随的核心在于 SFT( 监督微调 )是否到位,而再往前追,则取决于预训练模型是否足够好。

      工具调用不应该是一个难点。只要微调得好、数据标注充分,或者强化学习技巧足够成熟,大模型在单次工具调用上的能力是没有问题的。

      真正的挑战在于:工具调用往往伴随着规划。举个例子,一个任务可能需要连续调用三个工具:第一个工具的输出作为输入传给第二个,再传给第三个,甚至可能进一步触发第四个工具。问题就在于,这个调用顺序、前后逻辑以及依赖关系的规划,本质上是一个数学上的规划问题。而规划的背后是数学和逻辑推理。大模型要在这种场景下表现好,就必须解决数学和逻辑的问题,而不仅仅是 “ 能不能调工具 ”。

      关于目前主流的做法,其实过去的研究也不是没有 Agent 交互。只要模型足够强,Agent 之间的交互能力自然也会足够强,这是在历史条件下受到的技术限制。早期主要依赖 SFT( 监督微调 )和合成数据,而现在的趋势则转向强化学习。比如从 DeepSeek 开始,大家在尝试用强化学习替代传统方式。强化学习的优点在于,它在 Zero-shot 场景下可以省掉人工标注,相当于模型在生成合成数据的同时,边生成、边筛选、边进行自我微调。在工具调用方面,如果是通用模型,效果往往比较强大,覆盖面也广。如果是 “ Agent ”,涉及定制化的情况,就会更考验强化学习和微调的能力,而不再是预训练的优势。毕竟大规模预训练已经很难再推动。不过不幸的是,强化学习本身并不是一种稳定的训练算法,这也是目前最大的挑战和问题所在。

      知危:前 OpenAI 研究员姚顺雨最近提到,当前 AI 在模型设计方法上的进步已经结束,下一步要集中在基准设计或任务设计。您对此怎么看?

      赵海这不叫 “ 结束了 ”,而是 “ 早就结束了 ”。实际上,从 2018 年开始,核心技术架构就已经停滞了。现在各家公司无非是在 Transformer 和 GPT 的参数调整、工程训练细节上做文章;即使是 OpenAI 也只是有一些工程优势,而非真正的革命性模型或新范式。你并没有不用 Transformer,也没有不用 GPT,仍然是这一套。

      其实我并不认为我们现在探索的方向一定是最终胜利的。但可以 100% 肯定,目前主流方向不可能到达 AGI,至少无法达到我刚刚定义的那种标准。这并不是我一个人的观点,而是业内不少人的否定性共识。换句话说,我不能保证我一定赢,但可以肯定,这条现有的路一定会输。

      知危:您认为应该怎么解决这些问题,或者如何才能实现 AGI?

      赵海我认为目前 GPT 这类大模型框架,乃至整个深度学习表征学习框架,都存在一个 “ AGI 瓶颈 ”。在这种框架下,不可能真正达到 AGI。

      与人类相比,计算机和人的能力差异非常明显。比如人类的机械记忆其实非常差,让人背诵圆周率的前一百万位几乎不可能。但计算机却能在几秒钟内完成这一运算。我们不能因此说计算机的智能比人更高,因为这并不是评判智能的正确标准。

      我们正在做的 “ 脑启发大语言模型 ” 工作,就是试图从这个角度去解决问题,寻找突破现有框架瓶颈的路径。  我们可以定义两种当前模式下几乎不可能获得的 “ AGI 瓶颈能力 ”。

      第一种瓶颈是在输入端,模型应该天然支持多模态,而不需要依赖多模态数据的对齐。我把这一类称为“超模态学习”,并可以进一步扩展为 “ 超模态感知 ” 甚至是 “ 超模态创造 ”。

      什么是 “ 超模态感知 ”?举个例子,人类既看不见也摸不到真空,但我们创造了 “ 真空 ” 的概念,并相信它确实存在,甚至在物理学中利用这个概念去推动新的发现。

      同样的情况还有 “ 电磁场 ”,它不是人类感官可以直接获取的,但我们通过理论与实验验证确立了它的存在。这种能力超越了当前模型对 “ 多模态 ” 的理解。它不仅是把视觉、语言、声音等已知模态对齐,而是能够在现有感知、认知和知识( 例如数学理论、物理定律 )的基础上,创造出一种新的模态。这超出了目前所谓的 “ 世界模型 ” 的范畴。

      无论是杨立昆提出的世界模型,还是李飞飞的相关研究,本质上仍是对已知世界的非语言模态进行更好的建模与刻画。这当然很有价值,但我所说的 “ 超模态 ” 能力,是这些世界模型无法达到的。第二种瓶颈与工具相关。这里说的不是工具调用,而是 “ 新工具的创造 ”。这是一个更高层次的能力。人类之所以能够成为智能生物,一个关键标志事件就是具备了创造并使用工具的能力。

      很多人误以为 “ 使用工具 ” 才是人类与动物的分界线,但实际上并不是。真正的分界线在于 “ 创造工具 ”。哪怕只是把一块石头稍微磨平,然后再用它去敲碎另一件东西,这就已经是创造了新工具。目前的模型比如 GPT,还不能做到创造一个新的 Agent 并服务于我一开始定义的目标。

      总之,在我所提出的两种 AGI 能力上,目前的主流模型是做不到的。现有的大模型,无论是纯语言模型,还是所谓的 “ 世界模型 ”( 即非语言大模型 ),基本上都还是在刻画已知的模态。语言这个模态很特殊,它是中心模态,也很有价值,但这仍然只是对已有模态进行对齐。数据可以人工标注或合成,通过这种方式,再加上常规的多模态输入、已有工具的调用与规划,如果不计成本,技术上也不是完全做不到,效果大体上可以接受。但一旦涉及到我之前所说的 “ 超模态学习与感知 ”,以及 “ 创造新工具、创造新 Agent,并把它们服务于宏观整体目标 ”,现有的框架在可见的条件下是做不到的。

      知危:为了实现 “ 超模态感知 ” 和新工具创造,您的团队目前有哪些成果了呢?

      赵海:我们现在的工作其实已经有了一些结果,这项研究会延续我们之前的 “ 脑启发大语言模型 briLLM ” 的成果和思路。它的核心架构叫作 SiFu,旨在取代目前的机器学习表征学习方法。通过这种方式,可以比较平滑、自然地解决我前面提到的问题,包括超模态感知与训练,突破多模态的瓶颈,以及创造新的概念和新的工具。

      图源:https://arxiv.org/pdf/2503.11299

      这其中的关键机制就是 “ 非表征学习 ”。它的核心在于不再使用当前机器学习的表征学习方式。简单来说,表征学习的做法是把输入信息转化为向量表示。比如词向量、句子向量,或者图像的向量编码等。以语言为例,无论是传统方法还是现在的深度学习,本质上都属于这种 “ 表征学习 ” 的思路。

      举个例子,如果用三维向量表示类别:001 代表猫,010 代表狗。这就是典型的表征学习。不同的对象由不同的向量表示,但它们都处在同一个输入空间,只是数值不同而已。在输出端,如果模型要预测这是猫,就输出 001;如果是狗,就输出 010。这是一种 one-hot 表示。若不是 one-hot,而是更复杂的形式,比如 0.2、0.3 或 -7 来表示“猫”,这种方式就是 embedding。本质上,它依然属于表征学习。不同之处在于,embedding 的表征是通过机器学习模型自己不断更新、学到的,这就是深度学习。我们的思路是一开始就进行预定义,但不再依赖向量表示。举个例子,我在模型里直接设定若干模块:第一个模块代表猫,第二个模块代表狗,模块本身就直接对应语义对象。这种方式不再是表征学习,而是 “ 语义的直接映射 ”,语义对象和模型模块一一对应。

      为什么要抛弃表征学习?因为从奥卡姆剃刀原则来看,表征学习并不是最简单的方案。比如你把 “ 猫 ” 表示为 010,把 “ 狗 ” 表示为 001,这样就需要一个编码器;即使是深度学习,也需要通过隐层去学习和映射。而语义直接映射则省去了这一过程,更加简洁。实际上,人脑也更接近于这种方式。

      知危:为什么 “ 非表征学习 ” 在创造新工具和实现超模态学习方面会更有优势?

      赵海简单来说,如果继续采用表征学习,我们是用向量来表示语义对象;而在非表征学习里,我们用组件直接对应语义对象。

      比如第一个组件代表猫,第二个组件代表狗。如果换成图片,依然可以保持这种映射关系。这样一来,模型就能在组件层面直接进行删减或替换,整个结构因此具备更高的可编辑性和灵活性。这种机制使得模型在扩展新概念、创造新工具,以及支持超模态感知和学习时,更加自然、高效。  在多模态的场景下,其实是否涉及语言并不重要。

      对 “ 超模态 ” 的理解,可以这样来实现:如果现实世界中有具体的对象,比如猫和狗,它们分别对应模型中的第一个和第二个节点。那么,模型是否可以像人脑一样,自主定义一个新的组件?比如分配第三个节点,这个节点并不对应现实世界中的任何具体事物,而是代表“猫和狗的组合”,也就是“宠物”这样的概念。这就是“超模态”能力:创造新的概念。它可能在自然界中并不存在,但模型通过认知和抽象将其生成。从数学角度来看,这其实是非常自然、相对简单的过程。

      这其实也是人脑的工作方式。比如,当你看到猫和狗时,大脑皮层中会分别激活不同的区域。但自然界中并不存在 “ 宠物 ” 这个概念。“ 宠物 ” 是人脑通过聚合 “ 猫 ” 和 “ 狗 ” 对应的区域,再在旁边分配一个新的大脑皮层区域,从而生成的一个新概念。

      超模态是我们继 BriLLM 之后的下一阶段的研究方向,目前方案已经设计得差不多了,正在推进中。我并不是说全世界都走错了,现有的 GPT 这类模型依然有价值,成果也非常好。现在的模型帮助我们看到了 AGI 的 “ 山峰 ”,但这条路未必能登顶。就像高速公路不是通向山顶,而是从山的旁边绕过去一样,我们虽然到达了一个高处,也看见了山峰,但这条路径可能到此为止,无法直接通向山顶。

      ( 问答环节结束 )

      回到对 AI 基准测试的探讨,从更宏观的角度,正如陶哲轩在使用 GPT-5 Pro 解决数学难题时所言,“ AI 在小尺度上很有用,中尺度上有些无益,大尺度上又有帮助。”

      图源:https://mathstodon.xyz/@tao/115351400633010670

      具体而言,陶哲轩曾指出,必须在多个尺度上衡量一个工具的有效性,比如这四个尺度:形式化证明中的任何单行、任何单个引理、任何定理的完整证明,以及整本教科书。

      我们可以借鉴这句话,用不同于数学领域的视角来理解。

      当前的基准测试大部分停留在小尺度上的单点确定性,只能按知识碎片的模板解决问题。

      在中尺度,是极端追求全自动化、可扩展性和稳定性的工程化应用场景,目前大模型在这些场景也是类似陶哲轩所言,“有些无益”,AI社区也没有非常明确,应该在这些场景着重优化哪些能力维度。在本次探讨中反复提及的低幻觉、指令遵循、安全性、规划能力等,将会是未来AI发展的侧重点或共识,至于是通过基准测试还是其他方式来测量进展,还有待观望。

      最后,在大尺度上,一般是在顶尖专家最高决策者监督下,大模型发散思维并协同人类对问题进行深度研究,这些问题一般是超越人类当前知识和经验范畴的。人类无须纠结最后结果是否正确,只需取其中片段的思路或技术点,便能获得研究或决策进展,或继续推动大模型深入探索。这种级别的问题不具备普适性,没有也不需要基准测试来检测 AI 在这方面的潜力,而每一个问题都会对 AGI 的探索带来一丝启发。

    更新内容

    一、修复bug,修改自动播放;优化产品用户体验。

    二、 1.修复已知Bug。2.新服务。

    三、修复已知bug;优化用户体验

    四、1,交互全面优化,用户操作更加便捷高效;2,主题色更新,界面风格更加协调;3,增加卡片类个人数据

    五、-千万商品随意挑选,大图展现商品细节-订单和物流查询实时同步-支持团购和名品特卖,更有手机专享等你抢-支付宝和银联多种支付方式,轻松下单,快捷支付-新浪微博,支付宝,QQ登录,不用注册也能购物-支持商品收藏,随时查询喜爱的商品和历史购物清单。

    六、1.bug修复,提升用户体验;2.优化加载,体验更流程;3.提升安卓系统兼容性

    七、1、修复部分机型bug;2、提高游戏流畅度;

相关版本

    多平台下载

    Android版 PC版

    查看所有 0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:70121100

    查看所有 0条评论>>

    相关游戏
    侯鸿亮兰晓龙互动 陈梦晒“机车风”照片 黄婷婷说要拍黄月传 电影得闲谨制肖战让孩子藏好了 长春烟火暖意冰雪激情 洛天依辣成这样了 朱开曝圣枪哥往事 新国标电动车坐垫设计 肖战想要肖战得到 疯狂动物城2夏奇羊舞蹈挑战 我愿意以后一辈子都爱我自己 新国标电动车被吐槽不实用 大国重器拯救大国重器 枭起青壤美女与野兽 颜安发了100张图 是谁集齐了疯狂动物城2抖音小卡 梁朝伟说假期想去没人认识的地方 李昀锐西装版抖肩舞 许玮甯老公 闺蜜前男友 中国在联合国对日本发起外交反制 APMAAWARDS 今天是国家宪法日 一些听着皱眉吃着真香的小吃 丈夫被精神病人杀害妻子一夜白头 85一生一起走 谁在转型谁在守 锐评BLG 2026年新阵容 美国海军都吃什么 晒出我的中式早餐 演员应该接演抄袭短剧吗 特朗普称美俄会谈相当不错 汪苏泷演唱会又又又获奖了 不妨回头看看这一路的坎坎坷坷 联合国最新确认美国是最大欠费国 苑举正称中国人不是好欺负的 枭起青壤 全员科班 湖南新化刘某涉拐婴儿被拘 印度女子杀害4名儿童 真让健身小胖拿冠军了 浙江跨晚 李飞年终小考 美军F16战机坠毁升起巨大火球 曹骏五三型艺人的含金量 才发现父母把自己教育的多好 软饭到嘴边了就是咽不下去 于正黑子也不好当 请选中我成为12月最幸运的人 日本学者谈日本存亡危机事态 陈赫客串陈小春演唱会vlog来了 迪丽热巴给陈星旭剪头发 刘耀文时代峰峻录制 内娱顶流 老来得女 情侣婚前先后坠亡 男方索赔超百万 曝哈登或渴望重返休斯敦 Lisa银色眼妆 佘诗曼自曝已立遗嘱 被无视的情绪不会表达第二次 一到哈尔滨人都看不清了 美军F16战机坠毁升起巨大火球 电影得闲谨制美国上映 法外长重申坚定奉行一个中国政策 听说看到日照金山会幸运一整年 4K实拍中国第一枚可回收火箭 娄艺潇拍完戏果断美黑 陈晓评论区吨吨吨吨吨 在新疆拍到了时空之门 张雪峰称已经深刻反省 李嘉格恋情 易烊千玺工作室 2025年十大流行语 宁波卫健委再回应女婴手术离世 马克龙抵达北京 一些听着皱眉吃着真香的小吃 听说看到日照金山会幸运一整年 张艺兴亚洲流行音乐大奖7项提名 喜人奇妙夜2总决赛嘉宾阵容 原来南瓜是冬天第一瓜 琼瑶离世一周年 被静涵关心包包这段戳到 写一写我眼中的疯狂动物城2 洛克王国世界定档 解放军特种机对峙外机 最近不足百米
    更多>心动网络手游
    余茵马小宇抽象到一起了 梓渝超话热爱值破50万 金饰克价跌回1315元 帅得馍都开口说话了 刘萧旭坐硬卧 国台办:“九二共识”是定海神针 金铲铲新赛季 班主任来见证我的幸福啦 老板的提示也太贴心了 考研最后17天的冲刺规划 王毅会见法国外长巴罗 小狗要展示自己的新服装啦 家长控制欲强对孩子伤害大吗 网红罗大美案将二审 邱毅谈麻生太郎公开批评高市 人 请帮咪解锁动物城真实身份 其实你的消息他都看到了 国家宪法日全媒体普法直播 纽约街头的王一博好蛊 阳光运动风还得看何与 李茂弦子到了对情话不为所动的年纪 朱雀三号发射为何经历多次延期 小酒窝和董璇母女版星星摇 魏翔一嗓子吓走周深蒋敦豪 吐槽在中国大学遇到的外国留学生 不能错过的双12必买清单 网友偶遇金旻奎 你会花600租一天AI手机吗 易烊千玺小网站更新 章昊红颜摇终于抬上来了 终于知道为什么公司年年都要招人了 马克龙访华为何去成都 4K实拍中国第一枚可回收火箭 原神杜林超详细养成攻略 萌娃反复叮嘱爷爷开车来接 郭涛:每天要看三四部电影 美联储12月降息概率90% 理想AI眼镜Livis首发开箱 女子商场下跪求丈夫买羽绒服 从快递业解码中国经济活力 出街前的音效都是我自己配的 我将来要当一个兔子警官 Lisa韩国LV合照C位 幼儿园园长诈骗1451万 肖战首演战争片 郑州男子穿机甲送外卖 佛山汽水音乐节开票时间 女子吐槽“信息茧房”现象 安静公主亮司合拍氛围感拉满 丝芭起诉鞠婧祎代言品牌今日开庭 AI机器人亮相海南电影节 王一博形象极限反差 从快递业解码中国经济活力 今天上班开什么?你只需要一架歼-20 考研最后17天的冲刺规划 用武之地首次曝光境外人质产业链 Lisa银色眼妆 阳光运动风还得看何与 网友已经到了手搓万物的地步了 失联11年后马航370为何重启搜寻 宋雨琦七度空间品牌代言人 今天上班开什么?你只需要一架歼-20 向太聊生意场是否有真心朋友 成毅被树上的摄像机整不会了 看的出来侯鸿亮有多重视得闲谨制 王梓莼说同情包洁仪但无法原谅 用武之地曝光境外人质产业链 这么粗的尾巴一定非常凶猛吧 敖瑞鹏不二之臣牵手奔跑路透 冬天就是要穿得暖呼呼 梓渝超话热爱值破50万 李茂弦子到了对情话不为所动的年纪 曹璐想过和孟佳王霏霏组三人舞台 流感聚集性疫情多发 安徽检察宪法宣传周普法直播 梓渝超话热爱值破50万 得闲谨制剧本十年前就完成了 那英李沁马思纯张晚意私下聚餐 朱雀三号重复使用运载火箭发射入轨 骑电动车还能带孩子吗
    更多>mod游戏
    檀健次get to it香水舞 男生换寝未果轻生 学校担责30% 朱雀三号重复使用运载火箭发射入轨 美好智造社老友局团建 四川鼓励安排教师实行弹性上下班制 这居然是陈妍希画的 尊崇法治 厉行法治 产后一年坚持三个月运动的变化 刘耀文时代峰峻录制 这一看就是学杂技的好苗子 梅婷谈女性题材影片增多 一加Ace6T价格太香了 高市错误言论破坏《中日联合声明》 王梓莼 恋综升咖赛道 失联11年后马航370为何重启搜寻 打死你个克隆人 2025宪法宣传周 朱亚文向涵之好有破碎感 亦舞之城这顿团圆饭等了12年 王楚钦安宰贤极限对拉 本周末F1收官战前瞻 云南BIGBANG发布原创歌曲 喜人奇妙夜2总决赛嘉宾阵容 经历过婚姻的才知道她说的有多对 蓝盈莹4K的眼泪我5A的体验 云南24人骗生育津贴220万 张继科:乒乓球热度是我带起来的 国台办:“九二共识”是定海神针 冷藏酸奶渗出水是坏了吗 女子商场下跪求丈夫买羽绒服 带你一口气看完电影山怪巨魔2 风与潮定档 洛克王国世界定档 婺剧八戒现原形 这得吃多少米花棒才能成角 余茵马小宇抽象到一起了 汪苏泷演唱会又又又获奖了 怎么看新国标电动自行车涨价 丈夫被精神病人杀害妻子一夜白头 幼儿园园长诈骗1451万租豪车养男模 国台办:“九二共识”是定海神针 王曼昱11比7李恩惠 孙颖莎回应与王楚钦搭档混双 小鬼王琳凯与卜凡合照 找到了王梓莼说自己是00花的原因 抖音音乐年终狂想 荒野求生林北退赛 颐和园结冰进度条开始加载 雷军回应小米SU7荣获满意度第一 用拼豆做脆甜苹果 刘萧旭坐硬卧 是谁集齐了疯狂动物城2抖音小卡 取完餐外卖员差点吐了 易烊千玺小网站更新 得闲谨制剧本十年前就完成了 王曼昱11比7李恩惠 根据真实改编才是最恐怖的 情侣婚前先后坠楼身亡事件新进展 淀粉肠包蛋 帅得馍都开口说话了 老人邮寄金条炒股被骗 家长控制欲强对孩子伤害大吗 青岛顾客用蛇皮做美甲 大国小巷首善之治 又到了方圆脸展示美貌的季节 今天是国家宪法日 澳将禁止16岁以下用社媒 这居然是陈妍希画的 父母在我不会花钱的时候最会赚钱 阿里巴巴出售Trendyol股权 金建希出庭受审:被人搀扶头发花白 真让健身小胖拿冠军了 24人骗取生育津贴超220万 软饭到嘴边了就是咽不下去 国乒混团世界杯5连胜 再多“万能血浆”也救不了日本 访华之旅能成马克龙“救命稻草”吗 浙江跨晚 李飞年终小考 拍婚纱照偶遇陈哲远是什么体验 曝王梓莼高中请假条
    更多>像素rpg游戏
    幼儿园园长诈骗1451万 和老公住对门是什么体验 原来脸小也不一定好看 刘耀文时代峰峻录制 香港大埔火灾 经历过婚姻的才知道她说的有多对 二狗脱口秀现场有谁在 秦昊田嘉瑞粤语撞王安宇枪口上了 佛山汽水音乐节开票时间 这才是真正的垂直起飞 本轮寒潮收尾 大工程筑牢区域发展“快车道” 电影不过是上班首支预告 国乒vs韩国 金饰克价跌回1315元 不近视的人会戴智能眼镜吗 四川绵阳发生山体火灾系谣言 个性化推荐算法正悄然扭曲人类大脑 易烊千玺工作室预告礐嶨2025Live专辑 女孩吊威亚仙侠变惊悚 洛天依辣成这样了 中国电影高质量发展论坛三亚举办 建议不要在周末和节假日难过 终于轮到我拍猗窝座经典招式了 澳大利亚将禁止16岁以下用社交媒体 李茂弦子到了对情话不为所动的年纪 秦岚新剧身后空无一人 爱和勇气都是不可再生的能源 东北女生过冬羽绒服穿搭 蒲巴甲因为老照片打开历史大门 日本又玩了一个小动作 余茵马小宇抽象到一起了 考研最后17天的冲刺规划 巩汉林张倬闻惊悚博弈 杨瀚森首节登场5分15秒 手机信号弱辐射大幅增强?并无依据 看的出来侯鸿亮有多重视得闲谨制 国产开放世界逆神者首曝 南方宝宝落地哈尔滨后被冻懵了 时髦少女感的冬日套装 热血星团与传统东方美学碰撞 陈梦晒“机车风”照片 这下水里没有鸟的问题解决了 超30家A股上市公司花式送福利 都说爱一个人久了会腻 热血星团与传统东方美学碰撞 肖战首演战争片 这是灵魂画师梵低在写生吗 偏爱之恋张雪菲马浩翔官宣 梅婷谈女性题材影片增多 刘萧旭坐硬卧 马斯克详解自己的商业帝国 风与潮 它在掌心呼啸而过开播 汪苏泷有什么是我们不能看的 被静涵关心包包这段戳到 张集骏想和白鹿演极致虐恋 美国街头惊现“教学式”吸毒 冬天的快乐是烤甘蔗给的 马斯克详解自己的商业帝国 迪丽热巴聂九罗睡衣穿搭 金饰克价跌回1315元 丝芭起诉鞠婧祎代言品牌今日开庭 打开音综以为到了幼儿园 闪耀吧热血星团八强诞生 情侣婚前先后坠亡 男方索赔超百万 云南bigbang发布原创歌曲 电动车新国标戳中3.8亿人的出行痛点 怎么看新国标电动自行车涨价 李嘉格捂嘴偷笑 快船为何裁掉保罗 这就是我们的羁绊 宇宙闪烁请注意重庆 ACG次元大赏 锐评BLG 2026年新阵容 四川绵阳发生山体火灾系谣言 浙江跨晚 李飞年终小考 足球篮球双转场挑战 林高远出发回北京 疯狂动物城2里的动物原型
    热门冒险解谜
    最新冒险解谜
    相关专辑
    终于看到演员演生气不是大喊大叫了share 夏奇拉疯狂动物城2MV花絮share 保罗回应被裁share 美委局势会如何发展share 王毅会见法国外长 介绍高市言论本质share 交换特产的同时也在交换美好share 秦昊田嘉瑞粤语撞王安宇枪口上了share 高市早苗涉台最新表态share 都说颖儿吃得好 付辛博也是个恋爱脑share 金饰克价跌回1315元share 杨瀚森仅战首节5分钟拿下2+1+1+1share 这下水里没有鸟的问题解决了share 中国电影高质量发展论坛三亚举办share 丁程鑫 丝袜很正式share 张耀这段让哭红眼有了实感share 秦昊田嘉瑞粤语撞王安宇枪口上了share 冬季的大理美得像诗画share 男人深情错付被当棋子share 我们家INFJ怎么没有工作啊share 乡卫生院9元奥司他韦售价86被质疑share 不妨回头看看这一路的坎坎坷坷share 那英李沁马思纯张晚意私下聚餐share 彭小苒瞪眼看弹幕失去表情管理share 保罗回应被裁share 天安门广场悬挂起中法两国国旗share 程野逛吃哈尔滨中央大街share 梁洁手机满电状态负电share 亲生和亲自生的区别share 跟B太一起改造重庆3元一晚旅馆share 天美17周年庆share 阳光运动风还得看何与share 淀粉肠包蛋share 联合国最新确认美国是最大欠费国share 杨旭文工作室回应订婚传闻share 陈晓真把古平原演碎了share 终于有人把结婚的意义讲明白了share 郭正亮讽刺日本极右翼share 电影得闲谨制五代人中间少了两代share 新疆的电视台有迪丽热巴专栏share 在弹吉他和拉提琴中选了拉吉他share 王楚钦再现神仙穿直线share 黄婷婷说要拍黄月传share 罗大美案家属最新发声share 他用急诊故事为你上救命一课share 江苏爸妈生出混血娃娃share 王曼昱采访结束试图钻围栏离场share 李煜东GO不GO帅share 不二之臣转场share 广西男子搭2米高窑share 李晟说江一燕不拍戏浪费了share 马克龙访华为何去成都share 金建希出庭受审:被人搀扶头发花白share 张继科:乒乓球热度是我带起来的share 情侣婚前先后坠楼身亡事件新进展share 俄一载400余人客机起飞后引擎起火share 李昀锐西装版抖肩舞share 专访声鸣远扬歌手苗梦初share 曹璐自曝在海外生活费每月2500元share 旅比大熊猫好好抵蓉share 其实你的消息他都看到了share 丈夫被精神病人杀害妻子一夜白头share 秦昊田嘉瑞粤语撞王安宇枪口上了share 阳光运动风还得看何与share 特朗普称美俄会谈相当不错share 马克龙抵达北京share 金饰克价跌回1315元share 真让健身小胖拿冠军了share 失去亲信的泽连斯基还能坚持多久share 地球升温速度远超历史大灭绝share 你会花600租一天AI手机吗share 原来这就是有朋友的意义share 张耀这段让哭红眼有了实感share 曝90后女演员和75后男演员一夜情share 黄婷婷说要拍黄月传share 淀粉肠包蛋share 娄艺潇拍完戏果断美黑share 帅得馍都开口说话了share 青岛顾客用蛇皮做美甲share 超1900个国内赴日计划航班取消share 李晟说江一燕不拍戏浪费了share 刘亦菲陈都灵 全女花千骨share 亦舞之城这顿团圆饭等了12年share 宇宙闪烁请注意重庆share 他用急诊故事为你上救命一课share 香港大埔火灾share 中方敦促美方慎之又慎处理台湾问题share 各个国家的动画变妆share 电动车新国标戳中3.8亿人的出行痛点share 雷军回应小米SU7荣获满意度第一share 朱雀三号发射为何经历多次延期share 快船裁掉保罗后大胜老鹰share 高市早苗涉台最新表态share 朱雀三号首飞share 理想AI眼镜Livis首发开箱share 小狗要展示自己的新服装啦share 写一写我眼中的疯狂动物城2share 美国空军战机坠毁share 朱雀三号重复使用运载火箭发射入轨share 超1900个国内赴日计划航班取消share 余茵马小宇抽象到一起了share 交换特产的同时也在交换美好share 刀马刀马可爱版share 小狗要展示自己的新服装啦share 第一波人已经打卡广德三件套share 曹璐自曝在海外生活费每月2500元share 25岁后讨好型变成讨伐型share 佘诗曼自曝已立遗嘱share 周深家里家外2主题曲share 赚十块钱庆祝一下花一百的人share 黄婷婷说要拍黄月传share 我希望我对象有的优点share 不近视的人会戴智能眼镜吗share 我愿意以后一辈子都爱我自己share 梓渝超话热爱值破50万share APMAAWARDSshare 颜安发了100张图share 田震演唱会南京场官宣share 李煜东GO不GO帅share 张雪峰称已经深刻反省share 王曼昱3比0李恩惠share 全球抛售日本share 各个国家的动画变妆share 魏翔一嗓子吓走周深蒋敦豪share 美军F16战机坠毁升起巨大火球share 苹果顶级设计师投奔Metashare 洛克王国世界定档share 家里家外2share 国王vs火箭share 朱雀三号重复使用运载火箭发射入轨share 刘耀文一看就是自愿的share 全抖音寻找玩法合伙人share 亦舞之城这顿团圆饭等了12年share 田震北京演唱会售罄share 香港持续接收中央协调提供救灾物资share 薛之谦慢半拍游戏卡点share 澳将禁止16岁以下人群使用社媒share 香港25平三室一厅的房子share 女子吐槽“信息茧房”现象share 上甘岭烈士遗孤寻父埋骨地share 国乒队员走路打球神同步share
    用户反馈

    反馈原因

    其他原因

    联系方式