杜谋斯:
和国内的同行又聊了几句 ChatGPT 的事情,大致得出了以下结论:一、国内的语料质量和数量都远不如其他语言,不如英语还算正常的话,比日语还少就离了大谱了。所以如果国内想要训练大语言模型就一定要要用别的语言,寄希望于模型能通过翻译汲取别的语言里的知识。其实这个也不仅仅是大语言模型的问题,放到人类世界我们管这个叫「留学」。
不僅不僅僅是大型語言模型的問題,還是到底什麼是「語言/語料質量」、留學是爲了什麼的問題。我雖然不認爲比日語少有什麼離譜可言,不過確實有興趣知道是否真的如此,以及爲什麼。
(點此讀豎排版)