ICML 2025 AI4MATH 挑战赛 Track 2: Physics Reasoning with Diagrams and Expressions (SeePhys) 第二名
More inference tokens are all you need
我们的目标是将 pass@k 的准确率压缩到 pass@1。从优化的角度来看,自回归模型主要学习匹配 token 模式,而不是理解底层物理规律。给予模型更多推理 token 可以扩展其猜测空间,从而提升 pass@1 的准确率。
- 针对输入图片生成描述性代码,是提升推理任务上下文 token 的有效方式。我们尝试了 LaTeX、matplotlib 和 HTML 代码。实验证明基于 Canvas 的 HTML 效果最佳。
- 对模糊图片进行超分辨率处理,有助于生成更好的绘图代码。
- 多数投票是一种简单有效的方式,可以提升推理 token 的利用率。
- 交互式多步验证:类似 ReAct 的交互式多步验证并未带来提升。模型在 CoT(思维链)中本身就有自我修正能力,显式加入 ReAct 只会导致重复确认,无法修正真正的错误(如误解题意或公式应用错误)。ReAct 也无法修正代码生成中的绘图错误。
- 复杂任务指令:增加约束或提升题目难度反而导致效果变差。强大的推理模型在面对直接、简单的问题时表现最佳。
- 加权多模型投票:根据开发集表现对模型加权并未泛化——在子集上提升 10% 的胜率无法迁移到整体。
- 少样本输出格式模板:对输出格式一致性没有帮助。
- 将问题求解转为化为代码生成任务,利用代码执行进行计算或证明验证。
- 集成搜索 API,检索相似问题或解题路径作为额外上下文。
- SeePhys 的便捷起点,支持主流模型后端(Deepseek、Doubao、OpenAI、Gemini、Claude)一键切换。
- 结构清晰模块化——提示词、智能体流程、模型调用全部解耦,便于快速迭代。
- 全面日志记录,便于错误分析和调试。
- 在
config.yml中添加你的模型 API key。 - 运行
main.py。
我们在
results文件夹中提供了所有图片的 HTML 代码,以减小仓库体积。
@misc{jiahao2025codephysics,
author = {Jiahao Zhao and Nan Xu and Liwei Dong},
title = {Multimodal Physics Agent with Code Enhancement},
year = {2025},
url = {https://github.com/ScienceOne-AI/Code-Reasoner}
}