FoxBrain模型原为内部应用而设计,涵盖数据分析、决策辅助、文书协作、数学、推理解题与代码生成等功能,后续将对外开源分享。FoxBrain作为鸿海研究院AI推理LLM模型训练成果,不仅展现了强大的理解与推理能力,还能针对台湾使用者的语言风格进行优化,并在数学与逻辑推理测试中表现出色。

鸿海研究院人工智慧研究所栗永徽所长表示,「近几个月,推理能力的深化以及GPU的高效运用逐渐成为AI领域发展主流。我们的FoxBrain模型采用高效训练策略,专注于训练过程优化而非盲目堆砌算力。通过精心设计的训练方法和资源优化,我们成功打造出具备强大推理能力的本土AI模型。」

鸿海研究院人工智慧研究所在FoxBrain训练过程中,使用120张NVIDIA H100 GPU,并透过 NVIDIA Quantum-2 InfiniBand 网路进行扩展,仅花约四周的时间完成,相较于近期其他公司所推出的推理模型,以更高效率,更低成本的模型训练方式为台湾AI技术发展树立新里程碑。

FoxBrain采用 Meta Llama 3.1 为基础架构,拥有 70B 参数,在 TMMLU+ 测试资料集,大多数的领域优于国内相同规模的 Llama-3-Taiwan-70B,尤其在数学与逻辑推理方面展现卓越能力。

FoxBrain 采自主技术打造,建立 24 类主题的资料增强与品质评估机制,生成 980 亿 tokens 的高品质中文预训练资料。模型支援 128K token 上下文处理,训练采用 120 张 NVIDIA H100 GPU,累积运算达 2688 GPU 天,并以多节点平行架构确保效能与稳定性。特别运用 Adaptive Reasoning Reflection 技术,强化模型自主推理能力。

测试结果显示,FoxBrain 在数学领域表现超越 Meta Llama 3.1,较目前最佳的繁体中文大模型 Taiwan Llama 在数学测试中也有显著提升,推理能力已超越 Meta 同等级模型,虽与 DeepSeek 蒸馏模型仍有些微差距,但整体表现已逼近世界领先水准。

FoxBrain 模型(对比Meta Llama 3.1 70B 与 Llama-3-Taiwan-70B) 在 TMMLU+ 上面几个重要领域的得分。鸿海提供
FoxBrain 模型(对比Meta Llama 3.1 70B 与 Llama-3-Taiwan-70B) 在 TMMLU+ 上面几个重要领域的得分。鸿海提供

FoxBrain 由鸿海研究院自主研发,涵盖资料收集、清理与扩增、持续预训练、监督微调、RLAIF 及自适应推理反思等流程,稳健完成每个环节。即使算力资源有限,仍达接近世界顶尖 AI 大模型效益,展现台湾科技人才实力。FoxBrain 虽起源于集团内部应用,未来也将携手技术伙伴,扩大开源应用,推动制造业、供应链与智慧决策 AI 落地。

在模型训练过程中,NVIDIA 提供 Taipei-1 超级电脑的支持以及技术咨询,使鸿海研究院透过使用 NeMo 顺利完成模型训练。鸿海未来将透过导入 AI 大型语言模型,优化智慧制造、智慧电动车、智慧城市等三大平台的数据分析效率,让FoxBrain成为驱动智慧应用升级的重要引擎,进一步提升公司营运效益。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
台积电2月营收2600亿元月减年增 续创历年同期新高