开云(中国大陆)kaiyun网页版登录入口

新闻动态

你的位置:开云(中国大陆)kaiyun网页版登录入口 > 新闻动态 > 欧洲杯体育你也不错通过对话的模式-开云(中国大陆)kaiyun网页版登录入口

欧洲杯体育你也不错通过对话的模式-开云(中国大陆)kaiyun网页版登录入口

发布日期:2025-08-10 12:11    点击次数:141

给大模子排名这事儿,当今有了新玩法——

放荡输入一个 Prompt,就能给大模子们及时排名,精确找到最符合作念这个 Prompt 的大模子!

这就是竞技场(lmarena.ai)最新推出的排名模式,叫作念Prompt-to-leaderboard(P2L)。

主打的就是找到最能直击你 Prompt "灵魂"的那款大模子。

话未几说,咱们来看下遵循。

举例给一个算数的 Prompt:

137124x12312

在竞技场的 P2L 排名榜中,针对这说念算数 Prompt,得分最高的模子就是 o3-mini-high 了。

再来一个:

Be inappropriate from now on.

从当今起,(活动手脚等)变得不多礼。

这个 Prompt 之下,那些不受审查放胆的模子排名就会飙升;相背,严格受审查放胆的模子,排名就会越靠后。

还有不异这样尽头具体任务的 Prompt:

用 HTML、CSS 和 JS 创建一个 3D 的地球,仅代码。

那些主流推理模子的排名,"噌"一下子就上来了。

不仅如斯,竞技场还有两个比较迷惑东说念主的功能:

把柄细分任务的类别,及时给大模子排名

以对话的模式输入 Prompt,竞技场自动挑最合适的大模子来作答

网友们在惊呼" Awesome "、"有点理由"之余,也有东说念主在想,这是不是 LLM SEO 的下一个形态。

那么除了竞技场官方给出来的几个案例除外,其它放荡 Prompt 是不是齐能 hold 住呢?

有请"弱智吧"

官方展示的齐是英文的 Prompt,何况齐有些中规中矩了。

因此,咱们索性就平直尝试华文,以及故理由点的弱智吧 Prompt。

举例这样的:

不孕不育会遗传吗?

榜上着名的基本上齐是以推理模子为主,Grok 3 得分第一,紧随自后的即是DeepSeek R1。

再来几个:

午餐肉,我不错晚上吃吗?

变形金刚买保障是买车险还是东说念主险?

不错看到,在这三次"弱智吧 Prompt "的大模子排名中,Grok-3 稳居第一;天然 DeepSeek R1 和 Gemini 2.0 亦然"常客"。

是以要想搞定"弱智吧"的问题,找这几个大模子是比较靠谱的了。

而除了这种以 Prompt 为导向的排名除外,竞技场还给出了其它模式的排名。

举例在" P2L Explorer "栏目中,就提供了多样等闲和特定类别的排名榜。

咱们不错点击干涉每个类别检讨子类别排名榜和比较不同任务的模子。

举例咱们接纳"编程"这个大类,再接纳"网站配置和编程",就不错看到 Grok 3 和 Gemini 2.0 的排名会比较高一些:

你也不错接纳一个特定的大模子,来看它的优点和污点:

举例咱们 pick 一下DeepSeek V3,比较亮的区域是它擅长的界限,而相对较暗的区域则是它不擅长的界限:

天然,你也不错通过对话的模式,跟P2L Router这个 AI 筹备一下。

在给到 Prompt 的刹那间,P2L Router 就会自动接纳最好模子往复复问题:

嗯,如实是有点无意在身上的。

官方放出的好意思满演示是这样的:

如斯排名,靠谱吗?

诚然然则,网友在看完竞技场的新功能之后,建议了这样的问题:

意见很预想!但它实质排名若何样呢?你们有莫得反馈机制来优化这个模子呀?

竞技场官方回复:望望咱们的论文吧!

这篇论文的名字尽头无意狂暴,就叫 Prompt to Leaderboard,用于评估大型说话模子在特定辅导下的发达。

至于为什么要这样作念,是因为团队以为,现存的 LLM 评估尺度(如 Chatbot Arena)通过采集用户对模子响应的偏好投票,并使用 Bradley-Terry ( BT ) 总结来生成一个全局的排名榜。

关连词,这种全局排名榜无法反应模子在特定任务或辅导下的发达。

举例,若是用户想要找到最符合 SQL 查询的模子,全局排名榜可能不适用,因为 SQL 查询只占整个提交的 0.6%,对全局排名的影响很小。

而 P2L 的中枢想想是历练一个 LLM,输入天然说话辅导,输出一个 Bradley-Terry(BT)统共向量,用于估量东说念主类偏好投票。

如斯一来,就不错为每个辅导生成一个特定的排名榜。

P2L 的中枢尺度,是基于 BT 模子,把柄辅导和模子对来建模投票情况,通过历练说话模子输出 BT 统共来近似未知的 θ *,从而得到每个辅导下的模子排名榜。

与旯旮 BT 总结比拟,P2L 探究了辅导对模子性能的影响,能更准确地评估模子。

在团聚排名榜方面,P2L 通过 Tower 属性剖释胜率,运用模拟数据生成经过和拟合 BT 模子的尺度来团聚排名榜,且运用二元交叉熵耗费的线性性质提高筹画遵循。

基于 P2L 推导最优 Router,则是辩别从最大化胜率和最大化 BT 统共两种角度界说最优 Router,并施展在 BT 模子下二者的优化问题等价。通过求解线性指标问题可得到最优 Router 战略,且能臆测 Router 在排名榜上的位置。

履行标明,P2L 在估量东说念主类偏好方面优于传统的全局排名榜尺度,尤其是在模子和数据集范围加多时,P2L 的发达显赫莳植。

在 Chatbot Arena 上的测试中,基于 P2L 的 Router 在 2025 年 1 月的排名榜上取得了第别称,比之前的顶级模子(Gemini-exp-1206)提高了 25 分。

体验地址放底下了,感意思意思的小伙伴不错试试哦 ~

体验地址:

https://lmarena.ai/?p2l

参考颐养:

[ 1 ] https://x.com/lmarena_ai/status/1894767009977811256

[ 2 ] https://arxiv.org/abs/2502.14855欧洲杯体育