跳到主要內容

燒 Token 讓 LLM 對地端模型自動評分

 最近在試著用 LLM 做一些事情,希望能夠做一些原本是人在處理的事情,發現LLM的智力差別很大。


難免會遇到雲端發生問題,所以在公司內準備最小的地端算力是必要的,因為就寫了一個評分系統。


這個評分系統可以決定要用什麼模型,使用什麼模型去評分,初步結果還沒出來就遇到上圖的OpenAI API錯誤,我只好先燒自己的Gemini API Toke,才燒幾次就花不少錢。

我的目標是找出翻譯與摘要的能力哪個模型好,於是先叫 Jules 寫一個 CompareModel,效果實在太差了,修了很久還有一堆未完成;只好自己打開 Cursor 寫一個 EvaluateModels,自己靠Claude Sonnet 4 寫大概2小時就完成。

直接說結論吧,我使用 GPT-4.1 和 GPT-4o 、Gemini-2.5-flash 評分都是亂七八糟,地端模型明明寫英文都還評分說有確實寫繁體中文,這3個模型都一樣。 




所以後來受不了決定要用 o3 和 Gemini-2.5-Pro,結果就遇到 OpenAI API 400錯誤,只有 Gemini-2.5-Pro 成功,但是 評分結果就很令人滿意👍。





但是我看到帳單後,就高興不起來,高階模型實在太貴了,再多跑幾次我就要破產,所以還要再加上快取結果的功能,不要再讓LLM對相同的輸入重覆運行。希望有個聰明的朋友來協助我做這個改版,現在也只能先找  Cursor  幫忙。


留言

這個網誌中的熱門文章

自然人憑證讀卡機驅動程式

鳥毅用的是第一代的自然人憑證讀卡機,EZ100PU(後來有同事買EZmini可以讀SIM卡似乎更好),每年報稅時用一次。 本來只是要申請些政府業務,一時之間找不到光碟,沒想到在 驅動程式下載 居然看到Linux和Mac的驅動程式,剩下的就是政府單位的網頁和程式應該改版了吧!!!

DBeaver 介面語言

DBeaver是我個人頗常用的一套跨平台Database管理工具,最近升級後發現Windows版本居然變成簡體中文,而且無法切換為英文。

如何將較高版本SQL Server複製到低版本SQL Server (降級為舊版)並保留權限及資料庫圖表

一般若是要將SQL Server裡的Database轉往其他Server時,最簡單的方式就是備份(Backup)後再還原(Restore),或者是䣃離(detach)後附加(attach)。 但是很不幸地,若是由較低版本(e.g. 2008)到較高版本(e.g. 2012)要怎麼辦呢?