EgoCross Source-Limited 榜单分析与提升方案

截至 2026-03-28，这份分析只面向 EgoCross Source-Limited Track。核心问题不是“还能不能继续涨分”，而是“在不更换 base model 的前提下，当前公开榜单已经证明哪些方法有效，以及下一步最值得投入的高 ROI 方向是什么”。

本分析固定使用以下事实源：

本地笔记：egocross-onevision-analysis.md
本地官方资源解读：EgoCross_official_resources_and_research_plan_zh.md
Codabench Source-Limited competition page: competition 11279
Codabench Source-Limited leaderboard API: phase 18547
Codabench Open-Source leaderboard API: phase 23006

1. 现状：榜单快照

官方 Overview 页面明确写明：Source-Limited 赛道使用 Qwen3-VL-4B 作为固定 baseline，评测任务是四选一 MCQA，榜单以 Overall Accuracy 作为主排名指标；同时展示 Animal / XSports / Industry / Surgery 四个域的 accuracy。

1.1 当前公开榜单

条目	赛道	提交者	提交时间	Overall	Animal	XSports	Industry	Surgery
Top-1	Source-Limited	`meowcross`	2026-03-21	`0.579937`	`0.7158`	`0.5569`	`0.5673`	`0.5230`
Top-2	Source-Limited	`xiang_li`	2026-03-20	`0.579937`	`0.7158`	`0.5528`	`0.5510`	`0.5406`
官方 baseline	Source-Limited	`yu-li`	2026-02-11	`0.460815`	`0.5519`	`0.4837`	`0.3510`	`0.4770`
Open-Source Top-1	Open-Source	`blessing988`	2026-03-10	`0.559039`	`0.6995`	`0.4553`	`0.4653`	`0.6396`

需要明确的事实：

Source-Limited 当前榜首是 0.579937。
Source-Limited 前两名并列第一。
官方公开 baseline yu-li 是 0.460815。
当前 Open-Source 榜首是 0.559039。
Source-Limited 的主排名依据是 Overall Accuracy，不是单域最好分。

1.2 相对官方 baseline 的绝对增益

以下增益用 Source-Limited Top-1 - 官方 baseline 计算：

指标	增益
Overall	`+0.119122`
Animal	`+0.1639`
XSports	`+0.0732`
Industry	`+0.2163`
Surgery	`+0.0460`

这组差值支撑了一个很强的结论：当前 Source-Limited 的跃升不是“统一小涨”，而是显著修复了 Industry 和 Animal，适度改善了 XSports，而 Surgery 提升最小。

1.3 相对 Open-Source 榜首的差值

以下差值用 Source-Limited Top-1 - Open-Source Top-1 计算：

指标	差值
Overall	`+0.020898`
Animal	`+0.0163`
XSports	`+0.1016`
Industry	`+0.1020`
Surgery	`-0.1166`

这组差值说明另一件事：Source-Limited 当前领先 Open-Source，不是靠 Surgery，而是靠 XSports 和 Industry 的强补偿。因此如果目标是继续追 Source-Limited 的更高上限，优先级不应放在 Surgery。

2. 分域差距如何理解

从公开榜单看，当前最重要的不是“平均分更高”，而是“哪个域还在拉后腿”。

2.1 Industry 是最大确定性收益来源

相对官方 baseline，Industry 一次性提高了 +21.63 个点，是四域最大增益。
相对 Open-Source 榜首，Source-Limited 在 Industry 仍然领先 +10.20 个点。
这说明 Industry 最受益于受控的域适配，而不是更大的 base model。

工程含义是：Industry 的提升更像来自 domain-aware adaptation、support-set 使用方式和推理策略，而不是简单继续统一 SFT。

2.2 Animal 已经被明显修复，但边际空间开始变小

相对官方 baseline，Animal 提升 +16.39 个点，属于大幅修复。
但相对 Open-Source 榜首，只领先 +1.63 个点，说明这一域的显性低垂果子已经不多。

因此 Animal 仍值得优化，但不应再被当作第一优先级。更合理的定位是：用于巩固 overall，而不是作为唯一突破口。

2.3 XSports 还存在明显的剩余空间

相对官方 baseline，XSports 提升 +7.32 个点。
相对 Open-Source 榜首，Source-Limited 反而领先 +10.16 个点。

这意味着 XSports 对策略很敏感，尤其可能依赖：

更好的帧采样
更强的时序提示
更适合高速运动场景的局部证据抽取

2.4 Surgery 不是当前第一优先级

相对官方 baseline，Surgery 只提升 +4.60 个点，是四域最小。
相对 Open-Source 榜首，Source-Limited 反而落后 -11.66 个点。

这并不说明 Surgery 没有研究空间，而是说明在 当前 Source-Limited 的 overall 竞争里，Surgery 不是最划算的追分入口。如果资源有限，更应该优先投到 Industry / XSports / Animal。

2.5 任务级结论仍然要谨慎

公开 competition 的 detailed results 当前是关闭的，因此榜单只提供域级可见证据，不提供 task-family 级别的公开拆解。
所以针对 Identification / Localization / Prediction / Counting 的判断，需要结合 benchmark 论文与数据设计，而不能伪装成 leaderboard 直接观测。

3. 规则约束：什么是合法提升

根据 competition Overview / Data Preparation / Evaluation 页面，Source-Limited 赛道的边界很明确：

固定 baseline model：Qwen3-VL-4B
可用官方 support set：80 条，四域各 20
可用公开数据
鼓励新算法
不允许替换成更强 base model
不允许手工搜集并构造额外 support examples
排名只看 Overall Accuracy

还有两个很关键但容易被忽视的点：

组织方在 Data Preparation 页面明确提供了四个分域的 Qwen3-VL-4B 微调模型，这使得“分域路由”不仅合法，而且在规则上有明确支撑。
提交只需要 predictions.json 里的最终选项字母，因此很多提升可以放在推理、采样、校准和 reranking，不一定非要继续重训练。

4. 榜单已经证明了什么

4.1 继续做统一 SFT 不是主线

本地已有解读中，官方公开的 Qwen3-VL-4B SFT baseline 从 45.14 提到 46.08，提升不到 1 个点。
而当前 Source-Limited Top-1 已经到 57.99，相对官方公开 baseline 多出 11.91 个点。

这说明真正有效的不是“再做一版统一 SFT”，而是：

更强的域适配
更合理的 support-set 使用方式
更有针对性的推理策略

4.2 Source-Limited 已经证明“受控适配”可以超过开放赛道当前公开成绩

当前 Source-Limited Top-1 0.579937 高于 Open-Source Top-1 0.559039。
这不意味着 Source-Limited 天然更强，而是说明 在 EgoCross 这种小 support-set、强 domain shift 的任务上，方法设计可能比换更大的模型更关键。

4.3 现阶段最值得追的是“结构化适配”，不是“模型换代”

因为 base model 被固定，真正还能做的竞争空间主要集中在：

routing
retrieval
prompt specialization
frame sampling
calibration / reranking

这些方向都能映射到现有 baseline 代码范式，不需要新增公共 API，也不违反规则。

5. 规则允许且值得试的 5 条方法路线

下面所有路线都默认输入是：

Qwen3-VL-4B baseline
官方 80 条 support set
赛道允许的公开数据

每条路线都按 输入 -> 修改点 -> 目标域 -> 风险 来写。

P1. Domain-aware routing

输入
Qwen3-VL-4B base model，四域 support set，组织方提供的四个分域 SFT checkpoint 或自训四个分域 LoRA。

修改点
不要再用一个统一策略覆盖四域。直接按 dataset、domain 或等价元数据做确定性路由，把测试样本送到对应的域专家：

Surgery -> surgery adapter/checkpoint
Industry -> industry adapter/checkpoint
XSports -> xsports adapter/checkpoint
Animal -> animal adapter/checkpoint

第一版不需要学一个复杂 router，直接基于输入字段做硬路由即可；第二版再考虑共享骨干 + 多 LoRA 热插拔。

预期收益域
Industry 最大，XSports / Animal 次之，Surgery 最低。

风险
四域各只有 20 条 support sample，独立 adapter 容易过拟合；如果路由过硬，边界样本会被错误分配。

P1. Support-set retrieval + in-context exemplars

输入
80 条 support set，测试样本的 question_text / options / frames。

修改点
不要只把 support set 当训练集。改成“训练 + 推理双用途”：

建立 support-set 索引
检索同域、同题型、视觉相似或文本相似的 top-k 样本
在推理 prompt 中注入 few-shot exemplars 或结构化 hint

优先做轻量版本：

文本检索：question_text + options
同域过滤：先按 domain 限定候选
top-k 小于等于 3

第二步再加视觉检索，例如对若干关键帧做 embedding，再和 support images 做近邻匹配。

预期收益域
Industry / Animal / XSports；尤其适合 object-heavy、procedure-heavy 或 counting 类问题。

风险
检索噪声会污染 prompt；上下文过长会挤占视觉 token；如果 exemplars 过拟合同一模板，可能抬单域但不抬 overall。

P2. Task-type-aware prompting

输入
测试样本里的 primary_category / question_type / question_text / options。

修改点
针对 Identification / Localization / Prediction / Counting 定义不同推理协议，而不是一个统一 prompt：

Identification：先比对候选项，再给答案
Localization：先定位关键时刻或关键区域，再映射到选项
Prediction：先描述当前状态，再预测下一步
Counting：先枚举再计数，最后再映射到候选项

输出仍然收束到单个字母，保证提交格式不变。

预期收益域
XSports / Industry 更明显，因为这两个域更依赖时序理解和目标对比；Animal 可作为稳定增益项。

风险
不同 prompt protocol 之间的行为差异会放大；如果生成冗长 reasoning，反而可能压缩视觉理解预算。

P2. Adaptive frame sampling

输入
video_path 对应的图像序列。

修改点
不要固定 uniform sampling。按题型和域自适应调整帧预算：

XSports / Animal：提高时序密度，捕捉快速动作变化
Industry / Surgery：保留更稳的操作关键帧
Localization / Prediction：优先保证时间连续性
Identification / Counting：优先代表帧覆盖和去冗余

最稳妥的第一版不是复杂的视频 tokenizer，而是：

按帧差或轻量运动信号选关键帧
不同域使用不同帧数上限
对 Localization / Prediction 设置更高密度采样

预期收益域
XSports 第一，Animal 第二。

风险
采样策略如果过激，容易丢掉长时上下文；不同题型之间的最优采样策略不一致。

P3. Calibration / self-consistency / reranking

输入
同一个 Qwen3-VL-4B，单题的四个选项。

修改点
不改训练，直接在推理后端做稳健化：

多 prompt 模板重复推理
多次采样后做 majority vote
让模型分别对四个选项做独立打分，再 rerank
对高不确定样本引入 self-consistency 复核

由于提交只看最终字母，这类方法很适合当成最后一层“保底后处理”。

预期收益域
全域小幅收益，更适合吃最后 1-3 个点；对容易受选项偏置影响的问题更有价值。

风险
计算成本增加；如果模型内部置信不稳定，reranking 可能引入波动。

6. 优先实验路线

如果目标是尽快在 Source-Limited 赛道上做出一条有说服力的追分路线，建议按以下顺序推进：

先做 deterministic domain routing 直接利用已有 domain 字段或等价元数据，把样本路由到分域 checkpoint / LoRA。
这是规则最清晰、实现最直接、最符合榜单证据的第一步。
再加 support-set retrieval 让 support set 从“只用于训练”变成“训练 + 推理时可检索 exemplars”。
这一步最可能继续抬 Industry / Animal / XSports。
然后引入 task-type-aware prompt 先做四类主任务的 prompt protocol，再看是否对 Localization / Prediction 有额外收益。
第四步改自适应采样 重点盯 XSports / Animal，避免对 Surgery 过拟合。
最后叠加 calibration / reranking 这一步不负责“结构性突破”，但非常适合吃榜单末端增益。

7. 结论

截至 2026-03-28，EgoCross Source-Limited 的公开榜单已经证明：

Qwen3-VL-4B 固定并不意味着方法空间很小
单一统一 SFT 不是主线
真正有效的是结构化的域适配与推理设计

如果只看接下来最值得投的方向，优先级应是：

Industry
XSports
Animal
Surgery

如果只看方法，优先级应是：

Domain-aware routing
Support-set retrieval + in-context exemplars
Task-type-aware prompting
Adaptive frame sampling
Calibration / reranking

这次分析不把更换更强模型视为合法提升方案；Open-Source 榜单只用来给出参考上限，不混入 Source-Limited 的可执行建议。

目录