導讀:The Gradient 在線雜志(thegradient.pub)近期發表的一篇文章指出了一個尷尬的事實:機器學習領域的作者們正在欠下越來越多的「論文債」,而這對整個領域都是有害的。那么,什么是「論文債」?「論文債」是怎么欠下的?我們能做些什么?

論文債
論文發表慣例的先行領域
對學者們來說,寫作、發表論文是學術聲譽的第一來源。如果是教授,發表了多少論文決定了你能不能得到終身教職;如果你是學生,發表論文的狀況會決定你能不能畢業、什么時候能畢業,甚至畢業以后是去企業比較好還是適合留在學術界。
一篇論文應當是一份詳細的手稿、一份操作指南,幫助別的研究者們理解以及重現其中的學術想法。但我們實際看到的論文往往只是講了故事的一部分,研究者們經常會遺漏一些細節,或者把他們的方法表達得更為理想化,以便讓未來的審稿人讀得更舒服。除此之外,隨著他們做更多實驗(包括在后續研究中的)、和別的研究者交流,研究者們對自己的論文的認識也會逐漸發展變化,而這些變化是極少會被記錄下來并以文本形式公布的(除非這些變化已經多到了足以再寫一篇新論文的程度)。這當然不意味著研究者們有任何的壞心思,只不過是現有的學術發表慣例并不鼓勵研究者們把寶貴的時間花在更新已經發表的論文上。
令人欣慰的是,機器學習領域的論文發表慣例已經有了不少變化。arXiv 這樣的平臺讓發表學術觀點的門檻更低(即便不是完善的學術論文)、可以免費集中查閱絕大多數學術論文,也讓論文的修訂更新變得更容易;其它的平臺也有不同的補充,rescience.github.io 會發布以往論文的重現,distill.pub 在線期刊可以提供豐富、高度可視化、可交互的科研想法展示。在論文之外,機器學習領域也有許多發布高質量的技術博客、高質量的代碼復現的人,這些形式的成果也可以得到認可。
即便有了這些,The Gradient 認為還是不夠,他們認為還缺少一種鼓勵大家表達對于已經發表的論文的真實想法、展開有價值的討論的方式。比如 The Gradient 的一位作者 Ryan Lowe 就說,他很愿意發現并承認自己研究工作中的問題和不足,自己經常會和朋友、同事直白地討論自己以往發表的論文,但是在公開發表的論文中就會收斂很多。可惜的是,許多有卓識的研究者由于種種原因沒法來到學術會議現場,沒法和引用了他的工作的、在同一個方向上研究的其它研究者們當面展開直白真誠的討論。
論文債
The Gradient 提出了一個有趣的新概念:「論文債」,對,就是「債 debt」。他們給出的簡單的核心定義是:論文作者撰寫論文時的可用知識,和論文讀者能從論文中獲得的知識之間的差異,就是「論文債」。一般來說,作者所做的所有試驗、作者的直覺判斷、作者意識到的局限性這些可以寫進論文中,但作者最后并沒有寫的東西,就成了論文債。在 distill.pub 在線期刊亮相時,Chris Olah 和 Shan Carter 就曾提出一個「科研債 research debt」的概念,用來形容一個門外漢和一個領域專家之間的知識區別。論文債也就是一種特定形式的科研債。
有很多原因都會讓論文債越積越多。有時候由于投稿的篇幅限制,研究者不得不省略掉一些直覺的解釋和實驗;也有時候,研究者會寫下模棱兩可或者給人誤導的話。在《Troubling Trends in Machine Learning Scholarship》(arxiv.org/abs/1807.03341)中,Lipton & Steinhardt 就描寫了其中一些狀況:許多論文都沒能把猜測和解釋區分開,對經驗積累、模型調節帶來的提高避而不談,以及為了讓方法看起來更復雜、更有數學性而增加不必要的方程。
更明目張膽的省略行為也很常見。比如,如果論文作者在其他一些額外的數據集上也做了實驗的話,經常發生的事是,只有得到很好的結果的時候他們才會把這個實驗寫進論文里,即便失敗的結果對于其他研究者來說極富價值。類似地,論文作者們給基準線模型選擇的超參數很多時候都并不是最優的,但是作者們又并不總會把選擇的參數全部詳細列出來,所以即便讀者們有所質疑也往往找不到直接的證據。
讓論文作者們甘愿積累論文債的動機有很大一部分是為了取悅未來的論文審稿人。這也是合乎情理的,評價研究者水平的最重要因素就是他們發表在頂級會議和期刊上的論文數量。所以在撰寫論文的時候遮掩方法的弱點、省略不好的結果、用一些迎合標準的寫作手法都能讓論文在審稿人眼中顯得更棒一些、更容易通過同行評議。
除此之外,論文債堆積還有一個致命的原因是時間。如果論文作者們花時間做更多的實驗,或者和領域內的其它的研究者聊一聊的話,肯定會對自己的成果有更深的理解。如果新證據新想法比較多,作者們有時候會在 arXiv 上修訂更新自己的論文,但更多時候這些新證據新想法就只是爛在作者們自己的肚子里了。畢竟,把這些新內容恰當地融合到原來的論文中需要花不少精力,但是根本說不準做了以后有多少人會注意到,還不如把這些時間精力花在寫新的論文、趕新的 deadline 上。
然而,論文債已經成了最浪費整個領域的研究者們的勞動付出的那件事。如今,讀一篇論文的過程中就需要仔細辨別作者的哪些語句是技術上站得住腳的。一邊讀一篇機器學習論文一邊在心里琢磨「讓我看看他們想要遮掩什么,為了讓這個方法顯得效果不錯你們都偷偷用了哪些技巧」已經越來越常見。對于許多研究者,這種戒備心也是吃了許多苦頭以后不得已學到的 —— 領域內出現過很多很棒的點子,但是真的在它們基礎上做進一步的挖掘、建設的時候就遠沒有論文中吹噓的那么好的效果。如今大家都已經習慣了要帶著戒心,領域內有也有那么多的論文欠下論文債而沒有要改觀的樣子,不得不說令人遺憾。
直面回顧與反思
除了「明知故犯」的論文債之外,論文作者們翻下的一些無心之失也會帶來不好的影響。淺顯點的比如沒有對數據集和結果做足夠的檢驗,模型能產出好的指標數字,但是實際的結果表現出固定的偏倚;隱蔽點的比如在雷鋒網 AI 科技評論的這篇文章中談到的,大家雖然都會認真做誤差分析,但是不好的開頭導致后來者沿襲的誤差分析方式其實有很多疏漏。作者們當時寫這些論文的時候自然是好心的、不需要有任何愧疚的,后來有了更多了解、經過別人提醒之后,自己的水平提高了,能發現以前的做法存在問題了,還是應該主動去更正,以及影響更多的人避免犯同樣的錯誤。
對于這些狀況,肯定也有別的研究者意識到了,但單個人能做的不多。The Gradient 團隊就聯合多方力量制定了一個小有野心的計劃,他們編寫發布了 ML Retrospectives(機器學習回顧反思,http://ml-retrospectives.github.io/),一個專門供研究者們對自己以往的研究工作進行反思、補充的平臺。在今年的 NeurIPS 2023 中他們也會舉辦一個 Retrospectives workshop,高質量的論文回顧反思可以在 workshop 中發表。
ML Retrospectives 是一個實驗:The Gradient 其實自己也不確定研究者們有多大的動力來給自己的以往的論文寫回顧反思,以及最終產出的內容能如何對整個領域起到幫助。對于這些問題,他們也會在剛剛提到的 NeurIPS 2023 的 Retrospectives workshop 中進行討論。當然,真正重要的是倡導、鼓勵研究者們更開放誠實地思考、討論自己以往的成果,以及和別人分享他們的對于以往論文的新想法。
科學研究很重要,我們通過科學研究了解了越來越多關于這個世界的知識,了解了更多如何做事和思考的方法論。但我們也需要關注科學進展本身,如果具體的研究者們的動機和作為并不能助力領域的科研進步的話,這個領域肯定會出問題。ML Retrospectives 是其中的一個改進狀況的嘗試,大家都更希望看到的是所有研究者們都可以用更科學、面向發展的態度做更多對整個領域有益的事情。
信息來源:雷鋒網 AI 科技評論部
本站論文范文來源網絡,若內容不實或侵害了您的合法權益,請及時聯系我們進行刪除!原文鏈接: » 論文債是什么?難道論文發表了就萬事大吉了嗎?-668論文網