史丹福大學與華盛頓大學的AI研究人員,近日發表了一篇研究報告,指他們成功使用僅US$50訓練出一款名為s1的AI推理模型。該模型在數學及編程測試中的表現,與OpenAI的o1及DeepSeek的R1等頂級推理模型相近。研究團隊已將s1的代碼及訓練數據上載至GitHub,供公眾查閱。
s1的基礎模型來自中國阿里巴巴旗下的Qwen,該模型本身為開源,並可免費下載。研究團隊僅使用1000條精心挑選的問題及答案數據集,並加入來自Gemini 2.0 Flash Thinking Experimental的思考推理過程,以完成訓練和製作自家的s1的AI推理模型。整個過程耗時不到30分鐘,使用了16張Nvidia H100 GPU。研究人員更表示,若以現時雲端運算的價格計算,僅需約US$20。
早前柏克萊大學研究人員也有使用類似方法,但訓練成本較貴,需US$450。早前亦有報道指,DeepSeek被揭發亦有使用蒸餾(Distillation),當然其真正成本至今仍然存疑。再加上,嚴格來說,今次s1是基於現有已訓練好的Qwen模型,要建立一套完整AI推理模型,真正成本當然不止是US$50。