燒 Token 讓 LLM 對地端模型自動評分

最近在試著用 LLM 做一些事情，希望能夠做一些原本是人在處理的事情，發現LLM的智力差別很大。

難免會遇到雲端發生問題，所以在公司內準備最小的地端算力是必要的，因為就寫了一個評分系統。

這個評分系統可以決定要用什麼模型，使用什麼模型去評分，初步結果還沒出來就遇到上圖的OpenAI API錯誤，我只好先燒自己的Gemini API Toke，才燒幾次就花不少錢。

我的目標是找出翻譯與摘要的能力哪個模型好，於是先叫 Jules 寫一個 CompareModel，效果實在太差了，修了很久還有一堆未完成；只好自己打開 Cursor 寫一個 EvaluateModels，自己靠Claude Sonnet 4 寫大概2小時就完成。

直接說結論吧，我使用 GPT-4.1 和 GPT-4o 、Gemini-2.5-flash 評分都是亂七八糟，地端模型明明寫英文都還評分說有確實寫繁體中文，這3個模型都一樣。

所以後來受不了決定要用 o3 和 Gemini-2.5-Pro，結果就遇到 OpenAI API 400錯誤，只有 Gemini-2.5-Pro 成功，但是評分結果就很令人滿意👍。

但是我看到帳單後，就高興不起來，高階模型實在太貴了，再多跑幾次我就要破產，所以還要再加上快取結果的功能，不要再讓LLM對相同的輸入重覆運行。希望有個聰明的朋友來協助我做這個改版，現在也只能先找 Cursor 幫忙。

自然人憑證讀卡機驅動程式

鳥毅用的是第一代的自然人憑證讀卡機，EZ100PU（後來有同事買EZmini可以讀SIM卡似乎更好），每年報稅時用一次。本來只是要申請些政府業務，一時之間找不到光碟，沒想到在驅動程式下載居然看到Linux和Mac的驅動程式，剩下的就是政府單位的網頁和程式應該改版了吧！！！

閱讀完整內容

Java SE 6 + Firefox 2 UI 問題 As I do . Google拋棄了了SOAP API，浮想聯翩 https://www.gandi.net/ VS 2005 SP1中文版推出 Windows Vista中文版下載 ASP.NET 2.0網頁執行管線與快取原理 Cache 2.0快取架構與快取資料自動移除架構圖 flickr sync 分享與試用 SUN Looking Glass 3D圖形介面發布1.0 雅虎勵精圖治推動改革 Wait and see 國內某SOC疑遭駭客入侵大砲開講 Very Important! 微軟公佈Vista安全程式介面草案一窺Google開原碼庫房乾坤 qing is writing a dig girl net... wait and see

閱讀完整內容

DBeaver 介面語言

DBeaver是我個人頗常用的一套跨平台Database管理工具，最近升級後發現Windows版本居然變成簡體中文，而且無法切換為英文。

閱讀完整內容

鳥毅的Blog

搜尋此網誌