跳到主要內容

燒 Token 讓 LLM 對地端模型自動評分

 最近在試著用 LLM 做一些事情,希望能夠做一些原本是人在處理的事情,發現LLM的智力差別很大。


難免會遇到雲端發生問題,所以在公司內準備最小的地端算力是必要的,因為就寫了一個評分系統。


這個評分系統可以決定要用什麼模型,使用什麼模型去評分,初步結果還沒出來就遇到上圖的OpenAI API錯誤,我只好先燒自己的Gemini API Toke,才燒幾次就花不少錢。

我的目標是找出翻譯與摘要的能力哪個模型好,於是先叫 Jules 寫一個 CompareModel,效果實在太差了,修了很久還有一堆未完成;只好自己打開 Cursor 寫一個 EvaluateModels,自己靠Claude Sonnet 4 寫大概2小時就完成。

直接說結論吧,我使用 GPT-4.1 和 GPT-4o 、Gemini-2.5-flash 評分都是亂七八糟,地端模型明明寫英文都還評分說有確實寫繁體中文,這3個模型都一樣。 




所以後來受不了決定要用 o3 和 Gemini-2.5-Pro,結果就遇到 OpenAI API 400錯誤,只有 Gemini-2.5-Pro 成功,但是 評分結果就很令人滿意👍。





但是我看到帳單後,就高興不起來,高階模型實在太貴了,再多跑幾次我就要破產,所以還要再加上快取結果的功能,不要再讓LLM對相同的輸入重覆運行。希望有個聰明的朋友來協助我做這個改版,現在也只能先找  Cursor  幫忙。


留言

這個網誌中的熱門文章

Personal Bookmark

Java SE 6 + Firefox 2 UI 問題 As I do . Google拋棄了了SOAP API,浮想聯翩 https://www.gandi.net/ VS 2005 SP1中文版推出 Windows Vista中文版下載 ASP.NET 2.0網頁執行管線與快取原理 Cache 2.0快取架構與快取資料自動移除架構圖 flickr sync 分享與試用 SUN Looking Glass 3D圖形介面發布1.0 雅虎勵精圖治推動改革 Wait and see 國內某SOC疑遭駭客入侵 大砲開講 Very Important! 微軟公佈Vista安全程式介面草案 一窺Google開原碼庫房乾坤 qing is writing a dig girl net... wait and see

DBeaver 介面語言

DBeaver是我個人頗常用的一套跨平台Database管理工具,最近升級後發現Windows版本居然變成簡體中文,而且無法切換為英文。

自然人憑證讀卡機驅動程式

鳥毅用的是第一代的自然人憑證讀卡機,EZ100PU(後來有同事買EZmini可以讀SIM卡似乎更好),每年報稅時用一次。 本來只是要申請些政府業務,一時之間找不到光碟,沒想到在 驅動程式下載 居然看到Linux和Mac的驅動程式,剩下的就是政府單位的網頁和程式應該改版了吧!!!