"你怎麼這樣憑空污人清白?" "蒸餾不能算偷……蒸餾!……做大模型的事,能算偷麼?" 接連便是一些難懂的話,什麼"soft label",什麼"temperature scaling",什麼"dark knowledge"之類,引得滿屋的人都鬨笑起來,實驗室內外充滿了快活的空氣。 他對櫃檯說,"給我來兩張A100,再加一個預訓練好的teacher model。"便排出九文大錢——不對,排出九千美元的算力賬單。 眾人問他,"你當真學會Transformer了麼?"孔乙己便漲紅了臉,額上的青筋條條綻出,爭辯道,"Knowledge Distillation是Hinton提出的……你們懂什麼!這是知識遷移,是壓縮,是……是站在巨人肩膀上!" 掌櫃說,"你那小模型跑出來的benchmark,怕不是從teacher那裡'借'來的吧?" 孔乙己睜大眼睛說,"我那是學到了泛化能力!logits裡的分佈信息,暗知識的傳遞,豈是你等只會看top-1 accuracy的人能理解的?" 他又轉向眾人,態度變得懇切起來,"不信你們看,我的student model只有teacher十分之一的參數,推理速度快了八倍,效果只掉了兩個點……兩個點而已!"