簡單而困難的任務

過去人們以爲藍領工作最易被機器取代,白領可以安枕無憂。但直到目前爲止,機器依然沒有取代卡車司機,倒是不少辦公室文員工作被 Excel 取代了。同樣,LLM 如今已經能做很多事,但昨日爲了把六頁這樣的日文列表翻譯並整理成這樣的英文版,在 ChatGPT 的幫助下我依然花了兩個多小時。遇到的具體問題如下:

一、無論 ChatGPT 還是 DeepSeek 都無法自動識別那些圖片,說無法解析版式。於是我只能用 iOS 和 macOS 自帶的文字識別功能把裏面的文字手動拷貝出來,再丟給 LLM 翻譯。爲了在這一步儘可能保證準確,我是一年一年地拷貝,而非一整頁全選;

二、ChatGPT 的翻譯能力應該說已經相當夠格。拷出來的文字時有舛誤,例如「山田和樹指揮読売日本交響楽団」被識別爲「山田和 指 売日本交醬染」,但 ChatGPT 也能猜中意思並給出正確譯文。不過日文原版會把例如蕭邦夜曲 Op. 48, No. 1 植爲「Op. 48-1」,不合英文體例,需要手動校正。固然這只是簡單的全文替換操作,但必須人工審校整份列表之後才會知道有哪些類似的情況需要替換;

三、這張列表不算短,但我也萬萬沒想到這種長度能讓 ChatGPT 卡住。我把初步整理和校對完畢的整份英文列表發給它,請它幫忙轉爲 Markdown 格式。但它每次都在三分之一處停了下來,給出一句「接下來的內容會繼續以此格式進行」了事(!),屢試不爽。最後我只能把列表切成幾段,分段請它清理;

四、曲目名稱相對簡單,在英文裏都有通用寫法,但遍佈日本的各演出場地名是否有固定英文名稱,若無,是應該直接以羅馬字拼出日文讀音(例如東京文化會館 >> Tokyo Bunka Kaikan)還是自行譯爲英文,則是需要參考過往慣例和常識來決定的事,並不總有標準答案。換言之,是百分百的人工作業;

五、最後要將所有曲目名稱改爲斜體。這裏也有一些例外情況。例如蕭邦的 Op. 59 由三首馬祖卡構成,在曲目單裏被寫爲「Three Mazurkas, Op. 59」。這裏的 three 一詞並非曲目名稱的一部分,故不應斜體。我給出的指令如下:

Please add underlines around work titles below (i.e., the Markdown syntax for italics), but only around work titles. If an adjacent word is not part of the work title, please don’t italicize it.

結果 ChatGPT 和 DeepSeek 都依然把 three 變成了斜體。簡單來說,LLM 給出的 Markdown 文檔依然需要從頭到尾審校一遍。

或許我的用法不對,但老實說這次經歷並不讓我意外。許多沒有標準答案、需要判斷力的任務看上去微不足道,但都會讓 LLM 卻步。或許這算是 LLM 的一種 humility,未嘗不是好事。而我們的社會是否重視這些任務,決定了我們會生活在什麼樣的社會。

點此讀豎排版)