截至 2026-03-28,这份分析只面向 EgoCross Source-Limited Track。核心问题不是“还能不能继续涨分”,而是“在不更换 base model 的前提下,当前公开榜单已经证明哪些方法有效,以及下一步最值得投入的高 ROI 方向是什么”。
本分析固定使用以下事实源:
官方 Overview 页面明确写明:Source-Limited 赛道使用 Qwen3-VL-4B 作为固定 baseline,评测任务是四选一 MCQA,榜单以 Overall Accuracy 作为主排名指标;同时展示 Animal / XSports / Industry / Surgery 四个域的 accuracy。
| 条目 | 赛道 | 提交者 | 提交时间 | Overall | Animal | XSports | Industry | Surgery |
|---|---|---|---|---|---|---|---|---|
| Top-1 | Source-Limited | meowcross | 2026-03-21 | 0.579937 | 0.7158 | 0.5569 | 0.5673 | 0.5230 |
| Top-2 | Source-Limited | xiang_li | 2026-03-20 | 0.579937 | 0.7158 | 0.5528 | 0.5510 | 0.5406 |
| 官方 baseline | Source-Limited | yu-li | 2026-02-11 | 0.460815 | 0.5519 | 0.4837 | 0.3510 | 0.4770 |
| Open-Source Top-1 | Open-Source | blessing988 | 2026-03-10 | 0.559039 | 0.6995 | 0.4553 | 0.4653 | 0.6396 |
需要明确的事实:
0.579937。yu-li 是 0.460815。0.559039。Overall Accuracy,不是单域最好分。以下增益用 Source-Limited Top-1 - 官方 baseline 计算:
| 指标 | 增益 |
|---|---|
| Overall | +0.119122 |
| Animal | +0.1639 |
| XSports | +0.0732 |
| Industry | +0.2163 |
| Surgery | +0.0460 |
这组差值支撑了一个很强的结论:当前 Source-Limited 的跃升不是“统一小涨”,而是显著修复了 Industry 和 Animal,适度改善了 XSports,而 Surgery 提升最小。
以下差值用 Source-Limited Top-1 - Open-Source Top-1 计算:
| 指标 | 差值 |
|---|---|
| Overall | +0.020898 |
| Animal | +0.0163 |
| XSports | +0.1016 |
| Industry | +0.1020 |
| Surgery | -0.1166 |
这组差值说明另一件事:Source-Limited 当前领先 Open-Source,不是靠 Surgery,而是靠 XSports 和 Industry 的强补偿。因此如果目标是继续追 Source-Limited 的更高上限,优先级不应放在 Surgery。
从公开榜单看,当前最重要的不是“平均分更高”,而是“哪个域还在拉后腿”。
+21.63 个点,是四域最大增益。+10.20 个点。工程含义是:Industry 的提升更像来自 domain-aware adaptation、support-set 使用方式和推理策略,而不是简单继续统一 SFT。
+16.39 个点,属于大幅修复。+1.63 个点,说明这一域的显性低垂果子已经不多。因此 Animal 仍值得优化,但不应再被当作第一优先级。更合理的定位是:用于巩固 overall,而不是作为唯一突破口。
+7.32 个点。+10.16 个点。这意味着 XSports 对策略很敏感,尤其可能依赖:
+4.60 个点,是四域最小。-11.66 个点。这并不说明 Surgery 没有研究空间,而是说明在 当前 Source-Limited 的 overall 竞争里,Surgery 不是最划算的追分入口。如果资源有限,更应该优先投到 Industry / XSports / Animal。
公开 competition 的 detailed results 当前是关闭的,因此榜单只提供域级可见证据,不提供 task-family 级别的公开拆解。
所以针对 Identification / Localization / Prediction / Counting 的判断,需要结合 benchmark 论文与数据设计,而不能伪装成 leaderboard 直接观测。
根据 competition Overview / Data Preparation / Evaluation 页面,Source-Limited 赛道的边界很明确:
Qwen3-VL-4B80 条,四域各 20Overall Accuracy还有两个很关键但容易被忽视的点:
Data Preparation 页面明确提供了四个分域的 Qwen3-VL-4B 微调模型,这使得“分域路由”不仅合法,而且在规则上有明确支撑。predictions.json 里的最终选项字母,因此很多提升可以放在推理、采样、校准和 reranking,不一定非要继续重训练。本地已有解读中,官方公开的 Qwen3-VL-4B SFT baseline 从 45.14 提到 46.08,提升不到 1 个点。
而当前 Source-Limited Top-1 已经到 57.99,相对官方公开 baseline 多出 11.91 个点。
这说明真正有效的不是“再做一版统一 SFT”,而是:
当前 Source-Limited Top-1 0.579937 高于 Open-Source Top-1 0.559039。
这不意味着 Source-Limited 天然更强,而是说明 在 EgoCross 这种小 support-set、强 domain shift 的任务上,方法设计可能比换更大的模型更关键。
因为 base model 被固定,真正还能做的竞争空间主要集中在:
这些方向都能映射到现有 baseline 代码范式,不需要新增公共 API,也不违反规则。
下面所有路线都默认输入是:
Qwen3-VL-4B baseline80 条 support set每条路线都按 输入 -> 修改点 -> 目标域 -> 风险 来写。
输入
Qwen3-VL-4B base model,四域 support set,组织方提供的四个分域 SFT checkpoint 或自训四个分域 LoRA。
修改点
不要再用一个统一策略覆盖四域。直接按 dataset、domain 或等价元数据做确定性路由,把测试样本送到对应的域专家:
第一版不需要学一个复杂 router,直接基于输入字段做硬路由即可;第二版再考虑共享骨干 + 多 LoRA 热插拔。
预期收益域
Industry 最大,XSports / Animal 次之,Surgery 最低。
风险
四域各只有 20 条 support sample,独立 adapter 容易过拟合;如果路由过硬,边界样本会被错误分配。
输入
80 条 support set,测试样本的 question_text / options / frames。
修改点
不要只把 support set 当训练集。改成“训练 + 推理双用途”:
优先做轻量版本:
question_text + options3第二步再加视觉检索,例如对若干关键帧做 embedding,再和 support images 做近邻匹配。
预期收益域
Industry / Animal / XSports;尤其适合 object-heavy、procedure-heavy 或 counting 类问题。
风险
检索噪声会污染 prompt;上下文过长会挤占视觉 token;如果 exemplars 过拟合同一模板,可能抬单域但不抬 overall。
输入
测试样本里的 primary_category / question_type / question_text / options。
修改点
针对 Identification / Localization / Prediction / Counting 定义不同推理协议,而不是一个统一 prompt:
输出仍然收束到单个字母,保证提交格式不变。
预期收益域
XSports / Industry 更明显,因为这两个域更依赖时序理解和目标对比;Animal 可作为稳定增益项。
风险
不同 prompt protocol 之间的行为差异会放大;如果生成冗长 reasoning,反而可能压缩视觉理解预算。
输入
video_path 对应的图像序列。
修改点
不要固定 uniform sampling。按题型和域自适应调整帧预算:
最稳妥的第一版不是复杂的视频 tokenizer,而是:
预期收益域
XSports 第一,Animal 第二。
风险
采样策略如果过激,容易丢掉长时上下文;不同题型之间的最优采样策略不一致。
输入
同一个 Qwen3-VL-4B,单题的四个选项。
修改点
不改训练,直接在推理后端做稳健化:
由于提交只看最终字母,这类方法很适合当成最后一层“保底后处理”。
预期收益域
全域小幅收益,更适合吃最后 1-3 个点;对容易受选项偏置影响的问题更有价值。
风险
计算成本增加;如果模型内部置信不稳定,reranking 可能引入波动。
如果目标是尽快在 Source-Limited 赛道上做出一条有说服力的追分路线,建议按以下顺序推进:
先做 deterministic domain routing
直接利用已有 domain 字段或等价元数据,把样本路由到分域 checkpoint / LoRA。
这是规则最清晰、实现最直接、最符合榜单证据的第一步。
再加 support-set retrieval
让 support set 从“只用于训练”变成“训练 + 推理时可检索 exemplars”。
这一步最可能继续抬 Industry / Animal / XSports。
然后引入 task-type-aware prompt
先做四类主任务的 prompt protocol,再看是否对 Localization / Prediction 有额外收益。
第四步改自适应采样
重点盯 XSports / Animal,避免对 Surgery 过拟合。
最后叠加 calibration / reranking 这一步不负责“结构性突破”,但非常适合吃榜单末端增益。
截至 2026-03-28,EgoCross Source-Limited 的公开榜单已经证明:
Qwen3-VL-4B 固定并不意味着方法空间很小如果只看接下来最值得投的方向,优先级应是:
IndustryXSportsAnimalSurgery如果只看方法,优先级应是:
Domain-aware routingSupport-set retrieval + in-context exemplarsTask-type-aware promptingAdaptive frame samplingCalibration / reranking这次分析不把更换更强模型视为合法提升方案;Open-Source 榜单只用来给出参考上限,不混入 Source-Limited 的可执行建议。
本文作者:WarF
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!