编辑
2026-04-17
undefined
00

目录

EgoCross Source-Limited 榜单分析与提升方案
1. 现状:榜单快照
1.1 当前公开榜单
1.2 相对官方 baseline 的绝对增益
1.3 相对 Open-Source 榜首的差值
2. 分域差距如何理解
2.1 Industry 是最大确定性收益来源
2.2 Animal 已经被明显修复,但边际空间开始变小
2.3 XSports 还存在明显的剩余空间
2.4 Surgery 不是当前第一优先级
2.5 任务级结论仍然要谨慎
3. 规则约束:什么是合法提升
4. 榜单已经证明了什么
4.1 继续做统一 SFT 不是主线
4.2 Source-Limited 已经证明“受控适配”可以超过开放赛道当前公开成绩
4.3 现阶段最值得追的是“结构化适配”,不是“模型换代”
5. 规则允许且值得试的 5 条方法路线
P1. Domain-aware routing
P1. Support-set retrieval + in-context exemplars
P2. Task-type-aware prompting
P2. Adaptive frame sampling
P3. Calibration / self-consistency / reranking
6. 优先实验路线
7. 结论

EgoCross Source-Limited 榜单分析与提升方案

截至 2026-03-28,这份分析只面向 EgoCross Source-Limited Track。核心问题不是“还能不能继续涨分”,而是“在不更换 base model 的前提下,当前公开榜单已经证明哪些方法有效,以及下一步最值得投入的高 ROI 方向是什么”。

本分析固定使用以下事实源:

1. 现状:榜单快照

官方 Overview 页面明确写明:Source-Limited 赛道使用 Qwen3-VL-4B 作为固定 baseline,评测任务是四选一 MCQA,榜单以 Overall Accuracy 作为主排名指标;同时展示 Animal / XSports / Industry / Surgery 四个域的 accuracy。

1.1 当前公开榜单

条目赛道提交者提交时间OverallAnimalXSportsIndustrySurgery
Top-1Source-Limitedmeowcross2026-03-210.5799370.71580.55690.56730.5230
Top-2Source-Limitedxiang_li2026-03-200.5799370.71580.55280.55100.5406
官方 baselineSource-Limitedyu-li2026-02-110.4608150.55190.48370.35100.4770
Open-Source Top-1Open-Sourceblessing9882026-03-100.5590390.69950.45530.46530.6396

需要明确的事实:

  • Source-Limited 当前榜首是 0.579937
  • Source-Limited 前两名并列第一。
  • 官方公开 baseline yu-li0.460815
  • 当前 Open-Source 榜首是 0.559039
  • Source-Limited 的主排名依据是 Overall Accuracy,不是单域最好分。

1.2 相对官方 baseline 的绝对增益

以下增益用 Source-Limited Top-1 - 官方 baseline 计算:

指标增益
Overall+0.119122
Animal+0.1639
XSports+0.0732
Industry+0.2163
Surgery+0.0460

这组差值支撑了一个很强的结论:当前 Source-Limited 的跃升不是“统一小涨”,而是显著修复了 Industry 和 Animal,适度改善了 XSports,而 Surgery 提升最小

1.3 相对 Open-Source 榜首的差值

以下差值用 Source-Limited Top-1 - Open-Source Top-1 计算:

指标差值
Overall+0.020898
Animal+0.0163
XSports+0.1016
Industry+0.1020
Surgery-0.1166

这组差值说明另一件事:Source-Limited 当前领先 Open-Source,不是靠 Surgery,而是靠 XSports 和 Industry 的强补偿。因此如果目标是继续追 Source-Limited 的更高上限,优先级不应放在 Surgery。

2. 分域差距如何理解

从公开榜单看,当前最重要的不是“平均分更高”,而是“哪个域还在拉后腿”。

2.1 Industry 是最大确定性收益来源

  • 相对官方 baseline,Industry 一次性提高了 +21.63 个点,是四域最大增益。
  • 相对 Open-Source 榜首,Source-Limited 在 Industry 仍然领先 +10.20 个点。
  • 这说明 Industry 最受益于受控的域适配,而不是更大的 base model。

工程含义是:Industry 的提升更像来自 domain-aware adaptation、support-set 使用方式和推理策略,而不是简单继续统一 SFT

2.2 Animal 已经被明显修复,但边际空间开始变小

  • 相对官方 baseline,Animal 提升 +16.39 个点,属于大幅修复。
  • 但相对 Open-Source 榜首,只领先 +1.63 个点,说明这一域的显性低垂果子已经不多。

因此 Animal 仍值得优化,但不应再被当作第一优先级。更合理的定位是:用于巩固 overall,而不是作为唯一突破口

2.3 XSports 还存在明显的剩余空间

  • 相对官方 baseline,XSports 提升 +7.32 个点。
  • 相对 Open-Source 榜首,Source-Limited 反而领先 +10.16 个点。

这意味着 XSports 对策略很敏感,尤其可能依赖:

  • 更好的帧采样
  • 更强的时序提示
  • 更适合高速运动场景的局部证据抽取

2.4 Surgery 不是当前第一优先级

  • 相对官方 baseline,Surgery 只提升 +4.60 个点,是四域最小。
  • 相对 Open-Source 榜首,Source-Limited 反而落后 -11.66 个点。

这并不说明 Surgery 没有研究空间,而是说明在 当前 Source-Limited 的 overall 竞争里,Surgery 不是最划算的追分入口。如果资源有限,更应该优先投到 Industry / XSports / Animal

2.5 任务级结论仍然要谨慎

公开 competition 的 detailed results 当前是关闭的,因此榜单只提供域级可见证据,不提供 task-family 级别的公开拆解。
所以针对 Identification / Localization / Prediction / Counting 的判断,需要结合 benchmark 论文与数据设计,而不能伪装成 leaderboard 直接观测。

3. 规则约束:什么是合法提升

根据 competition Overview / Data Preparation / Evaluation 页面,Source-Limited 赛道的边界很明确:

  • 固定 baseline model:Qwen3-VL-4B
  • 可用官方 support set:80 条,四域各 20
  • 可用公开数据
  • 鼓励新算法
  • 不允许替换成更强 base model
  • 不允许手工搜集并构造额外 support examples
  • 排名只看 Overall Accuracy

还有两个很关键但容易被忽视的点:

  • 组织方在 Data Preparation 页面明确提供了四个分域的 Qwen3-VL-4B 微调模型,这使得“分域路由”不仅合法,而且在规则上有明确支撑。
  • 提交只需要 predictions.json 里的最终选项字母,因此很多提升可以放在推理、采样、校准和 reranking,不一定非要继续重训练。

4. 榜单已经证明了什么

4.1 继续做统一 SFT 不是主线

本地已有解读中,官方公开的 Qwen3-VL-4B SFT baseline 从 45.14 提到 46.08,提升不到 1 个点。
而当前 Source-Limited Top-1 已经到 57.99,相对官方公开 baseline 多出 11.91 个点。

这说明真正有效的不是“再做一版统一 SFT”,而是:

  • 更强的域适配
  • 更合理的 support-set 使用方式
  • 更有针对性的推理策略

4.2 Source-Limited 已经证明“受控适配”可以超过开放赛道当前公开成绩

当前 Source-Limited Top-1 0.579937 高于 Open-Source Top-1 0.559039
这不意味着 Source-Limited 天然更强,而是说明 在 EgoCross 这种小 support-set、强 domain shift 的任务上,方法设计可能比换更大的模型更关键

4.3 现阶段最值得追的是“结构化适配”,不是“模型换代”

因为 base model 被固定,真正还能做的竞争空间主要集中在:

  • routing
  • retrieval
  • prompt specialization
  • frame sampling
  • calibration / reranking

这些方向都能映射到现有 baseline 代码范式,不需要新增公共 API,也不违反规则。

5. 规则允许且值得试的 5 条方法路线

下面所有路线都默认输入是:

  • Qwen3-VL-4B baseline
  • 官方 80 条 support set
  • 赛道允许的公开数据

每条路线都按 输入 -> 修改点 -> 目标域 -> 风险 来写。

P1. Domain-aware routing

输入
Qwen3-VL-4B base model,四域 support set,组织方提供的四个分域 SFT checkpoint 或自训四个分域 LoRA。

修改点
不要再用一个统一策略覆盖四域。直接按 datasetdomain 或等价元数据做确定性路由,把测试样本送到对应的域专家:

  • Surgery -> surgery adapter/checkpoint
  • Industry -> industry adapter/checkpoint
  • XSports -> xsports adapter/checkpoint
  • Animal -> animal adapter/checkpoint

第一版不需要学一个复杂 router,直接基于输入字段做硬路由即可;第二版再考虑共享骨干 + 多 LoRA 热插拔。

预期收益域
Industry 最大,XSports / Animal 次之,Surgery 最低。

风险
四域各只有 20 条 support sample,独立 adapter 容易过拟合;如果路由过硬,边界样本会被错误分配。

P1. Support-set retrieval + in-context exemplars

输入
80 条 support set,测试样本的 question_text / options / frames

修改点
不要只把 support set 当训练集。改成“训练 + 推理双用途”:

  • 建立 support-set 索引
  • 检索同域、同题型、视觉相似或文本相似的 top-k 样本
  • 在推理 prompt 中注入 few-shot exemplars 或结构化 hint

优先做轻量版本:

  • 文本检索:question_text + options
  • 同域过滤:先按 domain 限定候选
  • top-k 小于等于 3

第二步再加视觉检索,例如对若干关键帧做 embedding,再和 support images 做近邻匹配。

预期收益域
Industry / Animal / XSports;尤其适合 object-heavy、procedure-heavy 或 counting 类问题。

风险
检索噪声会污染 prompt;上下文过长会挤占视觉 token;如果 exemplars 过拟合同一模板,可能抬单域但不抬 overall。

P2. Task-type-aware prompting

输入
测试样本里的 primary_category / question_type / question_text / options

修改点
针对 Identification / Localization / Prediction / Counting 定义不同推理协议,而不是一个统一 prompt:

  • Identification:先比对候选项,再给答案
  • Localization:先定位关键时刻或关键区域,再映射到选项
  • Prediction:先描述当前状态,再预测下一步
  • Counting:先枚举再计数,最后再映射到候选项

输出仍然收束到单个字母,保证提交格式不变。

预期收益域
XSports / Industry 更明显,因为这两个域更依赖时序理解和目标对比;Animal 可作为稳定增益项。

风险
不同 prompt protocol 之间的行为差异会放大;如果生成冗长 reasoning,反而可能压缩视觉理解预算。

P2. Adaptive frame sampling

输入
video_path 对应的图像序列。

修改点
不要固定 uniform sampling。按题型和域自适应调整帧预算:

  • XSports / Animal:提高时序密度,捕捉快速动作变化
  • Industry / Surgery:保留更稳的操作关键帧
  • Localization / Prediction:优先保证时间连续性
  • Identification / Counting:优先代表帧覆盖和去冗余

最稳妥的第一版不是复杂的视频 tokenizer,而是:

  • 按帧差或轻量运动信号选关键帧
  • 不同域使用不同帧数上限
  • 对 Localization / Prediction 设置更高密度采样

预期收益域
XSports 第一,Animal 第二。

风险
采样策略如果过激,容易丢掉长时上下文;不同题型之间的最优采样策略不一致。

P3. Calibration / self-consistency / reranking

输入
同一个 Qwen3-VL-4B,单题的四个选项。

修改点
不改训练,直接在推理后端做稳健化:

  • 多 prompt 模板重复推理
  • 多次采样后做 majority vote
  • 让模型分别对四个选项做独立打分,再 rerank
  • 对高不确定样本引入 self-consistency 复核

由于提交只看最终字母,这类方法很适合当成最后一层“保底后处理”。

预期收益域
全域小幅收益,更适合吃最后 1-3 个点;对容易受选项偏置影响的问题更有价值。

风险
计算成本增加;如果模型内部置信不稳定,reranking 可能引入波动。

6. 优先实验路线

如果目标是尽快在 Source-Limited 赛道上做出一条有说服力的追分路线,建议按以下顺序推进:

  1. 先做 deterministic domain routing 直接利用已有 domain 字段或等价元数据,把样本路由到分域 checkpoint / LoRA。
    这是规则最清晰、实现最直接、最符合榜单证据的第一步。

  2. 再加 support-set retrieval 让 support set 从“只用于训练”变成“训练 + 推理时可检索 exemplars”。
    这一步最可能继续抬 Industry / Animal / XSports

  3. 然后引入 task-type-aware prompt 先做四类主任务的 prompt protocol,再看是否对 Localization / Prediction 有额外收益。

  4. 第四步改自适应采样 重点盯 XSports / Animal,避免对 Surgery 过拟合。

  5. 最后叠加 calibration / reranking 这一步不负责“结构性突破”,但非常适合吃榜单末端增益。

7. 结论

截至 2026-03-28,EgoCross Source-Limited 的公开榜单已经证明:

  • Qwen3-VL-4B 固定并不意味着方法空间很小
  • 单一统一 SFT 不是主线
  • 真正有效的是结构化的域适配与推理设计

如果只看接下来最值得投的方向,优先级应是:

  • Industry
  • XSports
  • Animal
  • Surgery

如果只看方法,优先级应是:

  • Domain-aware routing
  • Support-set retrieval + in-context exemplars
  • Task-type-aware prompting
  • Adaptive frame sampling
  • Calibration / reranking

这次分析不把更换更强模型视为合法提升方案;Open-Source 榜单只用来给出参考上限,不混入 Source-Limited 的可执行建议。

本文作者:WarF

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!