燒 Token 讓 LLM 對地端模型自動評分

最近在試著用 LLM 做一些事情，希望能夠做一些原本是人在處理的事情，發現LLM的智力差別很大。

難免會遇到雲端發生問題，所以在公司內準備最小的地端算力是必要的，因為就寫了一個評分系統。

這個評分系統可以決定要用什麼模型，使用什麼模型去評分，初步結果還沒出來就遇到上圖的OpenAI API錯誤，我只好先燒自己的Gemini API Toke，才燒幾次就花不少錢。

我的目標是找出翻譯與摘要的能力哪個模型好，於是先叫 Jules 寫一個 CompareModel，效果實在太差了，修了很久還有一堆未完成；只好自己打開 Cursor 寫一個 EvaluateModels，自己靠Claude Sonnet 4 寫大概2小時就完成。

直接說結論吧，我使用 GPT-4.1 和 GPT-4o 、Gemini-2.5-flash 評分都是亂七八糟，地端模型明明寫英文都還評分說有確實寫繁體中文，這3個模型都一樣。

所以後來受不了決定要用 o3 和 Gemini-2.5-Pro，結果就遇到 OpenAI API 400錯誤，只有 Gemini-2.5-Pro 成功，但是評分結果就很令人滿意👍。

但是我看到帳單後，就高興不起來，高階模型實在太貴了，再多跑幾次我就要破產，所以還要再加上快取結果的功能，不要再讓LLM對相同的輸入重覆運行。希望有個聰明的朋友來協助我做這個改版，現在也只能先找 Cursor 幫忙。

鳥毅的Blog