fusion-bench

使用FusionBench运行模型融合实验,包括运行基准测试、添加新合并算法、评估融合模型及管理模型库。

安装

概览

什么是fusion-bench

FusionBench 是一个专为深度模型融合(model merging)设计的综合性基准测试工具包,旨在为研究人员和开发者提供统一、可扩展的平台来运行、评估和比较多种模型合并算法。该工具支持包括视觉模型(如 CLIP)和语言模型(如 Llama)在内的广泛模型类型,覆盖从基础的平均法到先进的稀疏化、MoE 架构以及持续学习场景下的复杂融合策略。通过简洁的命令行接口与灵活的配置文件体系,用户能够轻松执行基准实验、添加自定义合并方法,并对融合后的模型进行多任务性能评估。FusionBench 不仅集成了三十余种主流合并算法,还提供了高效的状态字典操作、惰性加载等实用工具,显著降低了大规模模型融合实验的技术门槛。其设计充分考虑了可复现性与扩展性,是推动模型融合领域研究走向系统化与工程化的关键基础设施。

核心功能特点

  1. 支持超过30种主流模型融合算法,涵盖简单平均、任务算术、TIES、DARE、AdaMerging、RegMean++等经典及前沿方法
  2. 提供统一的命令行接口和 Hydra 配置系统,支持灵活参数调优与实验复现
  3. 内置 AutoModelPool 机制,自动适配 CLIP、Llama、GPT-2 等多种预训练模型类型
  4. 集成 TaskPool 评估框架,支持 CLIP 图像分类与 LLM 推理任务(如 MMLU、ARC)的自动化评测
  5. 支持分布式训练(Fabric + DeepSpeed)与混合精度计算,降低大模型融合的资源消耗
  6. 模块化设计便于扩展,用户可快速实现并注册新的自定义合并算法

适用场景

FusionBench 特别适用于需要系统性比较不同模型融合效果的科研场景。例如,在探索如何将多个针对特定下游任务微调后的模型(如分别优化于 Cars、GTSRB 等数据集)合并为单一高性能模型时,研究者可以利用 FusionBench 快速调用 task_arithmetic 或 TIES 等方法,并在统一的 8 项 CLIP 基准上量化对比各方案的准确率表现。对于工业界应用,当面临多专家模型集成需求时,FusionBench 提供的 MoE 类方法(如 WE-MoE、PWE-MoE)允许在不增加推理延迟的前提下提升模型容量与泛化能力。此外,在持续学习或增量部署环境中,OPCM、DOP 等持续合并方法能有效缓解灾难性遗忘问题,确保新加入模型的知识能被稳定整合。无论是学术实验还是生产级模型服务优化,FusionBench 都能通过标准化的流程帮助用户高效完成从算法验证到最终部署的全链路工作。