AI文獻攻略不私藏!讓你輕鬆掌握重點

Cinnamon AI Taiwan
9 min readMay 12, 2022

--

相信許多大學生及研究生都對於閱讀論文有自己的一套見解,本篇文章濃縮了 CinnamonAI 內 AI researchers 閱讀與收集文獻的技巧,希望能幫助讀者們在有限的時間內理解論文的內容,並提升文獻管理的能力!

Outline

— 論文搜尋方法

  • Google 學術按鈕
  • Pubmed
  • Connected Papers

— 如何有效的閱讀論文

  • The First Pass
  • The Second Pass
  • The Third Pass

— 學術論文書目管理工具

  • Mendeley

論文搜尋方法

Google 學術按鈕

大多的 Researcher 都會安裝 Google Chrome 免費擴充功能「Google 學術搜尋按鈕」,只要在 Chrome 反白選取關鍵字或是論文標題,就能快速找到相關結果或是該論文全文。

Google學術按鈕優點:

  1. 可快速查詢相關論文期刊
  2. 可查標題,作者,出處,年份及引用次數等資訊

Pubmed

非常適合查詢國外文獻,可以輸入期刊篇名或是輸入論文作者。

Pubmed 優點:

  1. 查詢資料準確度較高
  2. 可以直接搜尋到該作者的研究領域

Connected Papers

Connected papers 的強項在於可以透過目標論文搜尋與其具有強關聯性的其他論文。

Connected Papers 優點:

  1. 替使用者建構該領域類似論文的圖表
  2. 為使用者的論文建立參考書目
  3. 方便使用者發現最相關的先前或衍生論文

如何選擇高品質的論:

  1. 選擇高品質期刊會議: CVPR,ECCV,ICCV,AAAI,NIPS,ICLR,ICML等。
  2. 引用數高的論文: 論文引用數高表明了這篇論文中的方法在該領域內非常重要。
  3. 選擇知名團隊的論文: Yoshua Bengio、Yann LeCun、Geoffrey Hinton、 Andrew Ng 等。
  4. 選擇有公開代碼的論文: 可以參考 Paper With Code or Hugging Face,上面蒐集了大量論文及其代碼。

綜述以上四點可以幫同學在論文搜尋上節省很多時間,但不保證找尋到的論文能完全符合同學所想的。

如何有效的閱讀論文

快速抓住論文的要點是每一位研究生必備的技巧卻鮮少有人教導,因此本篇將以 SimCSE: Simple Contrastive Learning of Sentence Embeddings 當作範例,分享簡單有效率的 The THREE-PASS Approach 方法!

SimCSE: Simple Contrastive Learning of Sentence Embeddings論文連結:https://arxiv.org/abs/2104.08821

The First Pass

快速掌握是什麼種類的論文及論文的貢獻,步驟可以細分為:

  1. 仔細的閱讀 Title,Abstract ,可以了解論文的概要,清楚論文採用甚麼方法,解決甚麼,達到甚麼效果。
  2. 閱讀 Section,Sub-section & Author
  3. 閱讀 Conclusion
  4. 快速瀏覽 Reference 看有沒有以前閱讀過的論文

(花費時間大約10–15分鐘)

在第一個 pass 結束後,我們要能夠回答”5C”

  1. Category: 這是何種類型的論文?
  2. Context: 有哪些基礎理論也是用來處理類似問題?
  3. Correctness: 論文的研究假定是否有其意義?
  4. Contributions: 論文主要貢獻是什麼?
  5. Clarity: 文章是否淺顯易懂?

透過 5C 的問題,能很好的釐清這篇論文是否對於你現階段的研究有實質上的幫助,同時也能了解自己對於這篇論文所涉及的領域了解多少。

SimCSE 為例:

  1. Category: Contrastive Learning system & self-supervised learning
  2. Context: encoder-decoder model ,BERT , RoBERTa
  3. Correctness: 在圖像辨識的領域裡,Google 的 SimCLR 與 Facebook AI 的Moco 都是近年 self-supervised learning 的重要里程碑。因此可以想像在NLP 任務中,self-supervised learning 也能有提升模型準確度的機會。
  4. Contributions: simply predicts the input sentence itself with only dropout used as noise
  5. Clarity: Abstract很清楚的交代利用的理論及模型的技巧及成果。

The Second Pass

在第二次的閱讀中,必須要掌握論文的主旨,內容,實驗方法及結果。同時也可以利用其他筆記軟體將論文的重點筆記下來(個人採用 HackMD )。主要是閱讀到有辦法向他人用摘要的方式講解這篇文章的貢獻。步驟可以細分為:

  1. 仔細閱讀示意圖,圖表,盡可能地了解每個圖表想要表達的意思,同時如果有模型的架構圖,要思考自己是否能將論文提出的模型架構,從 data 的 input 開始到 output 都能完整的想像出來。更進一步了解論文中有哪些論證,舉例,內容說明。此外,也可以特別注意圖表類的資料,各個軸是否有標示正確?這種錯誤通常可以判定論文的品質。
  2. 標記那些重要且相關的 Reference ,往後要更深入研究相關主題的時候可以朝這些 Reference 去閱讀且可以更了解這篇論文的背景。

(花費時間大約1.5小時)

在第二個Pass如果還是無法對於這篇文章有通盤的了解,有幾個方法可以試試看,同時檢視自己是否缺少必備的基礎知識:

  1. 先閱讀一些相關 Reference,再回過頭看這篇文章
  2. Python 基礎:通常 AI 模型都是基於 Python 語言
  3. 數學基礎:包含線性代數、離散數學及資訊理論,線性代數在 CV 領域是必備知識,離散數學與資訊理論在 NLP 中也是常見的概念。
  4. 神經網絡基礎: 由於深度學習屬於神經網絡,因此神經網絡的內容必須要了解。對於 CV 領域 CNN 是很重要的,大多數 CV 任務已經被 CNN 統治,對於 NLP 領域而言,RNN 或是 attention 是必不可少的知識。

SimCSE 為例:

我會先看模型的架構圖

先去搞懂 Unsupervised SimCSE 跟 Supervised SimCSE 。再來根據公式:

搞懂每個符號的意思

最後根據 Experiment 的 table 去評估這個模型的好壞,同時也會去關注論文提出來比較的模型,我是否有沒看過或想不起來架構圖的(有的話我就會去關注或是複習模型):

與此同時我也會一邊利用 HackMD 筆記這篇論文大致上的摘要及貢獻,以便後續忘記的時候能快速複習。

附上我寫的 SimCSE 摘要:https://hackmd.io/@pD_DZn54Tmq4rM9krVaJjQ/rkaJf-lHc

The Third Pass

這個階段的重點是能夠 Virtually re-implement (重新實作論文)。大致上就是把論文的想法在大腦重現一遍,與其提出相同的假設,去看是否能想出不一樣的模型架構抑或是在現有的模型架構上去做改變,精進。有了這樣的思考下,也會更得知這篇論文的創新之處或是美中不足的地方。步驟可以細分為:

  1. 在腦海中重現模型的架構
  2. 明確了解這篇論文的優點及缺點
  3. 進一步討論在這個任務上面還有哪些可以繼續發展的空間

(花費時間大約3小時)

SimCSE 為例:

我們可以將 SimCSE 提供的 github 完整實做一遍,最好是自己做一個 sample dataset 然後丟進去跑過一遍,能更清楚知道整個流程。

SimCSE github: https://github.com/princeton-nlp/SimCSE

學術論文書目管理工具

Mendeley

Mendeley 最大的好處就是可以在 Windows、Mac 及 Linux 系統中使用,並支援 iOS 的 iPad,iPhone! 同時也具有桌面版本及網頁版本。

Mendeley 也可以讓你 highlights 論文:

同時也可以做 note! (但還是推薦在 HackMD 作筆記,可以放圖片!)

另外在 arxiv 可以在 bookmark 的地方直接 import 論文到 Mendeley ,超級方便!

Mendelry快速參考指南:https://www.elsevier.com/__data/assets/pdf_file/0007/832264/MendeleyQRG2018.pdf

以上就是平時一般的 Researcher 在處理論文的方式,藉由各種搜尋的網站及簡略查看論文的技巧,可以先讓同學們在論文的搜尋部分節省大部分時間。接著再利用 The THREE-PASS Approach 的方法,短時間內清楚理解論文的核心概念及架構。最後再使用論文管理系統 Mendeley 讓自己輕鬆管理以閱讀過的論文。

【2022 Global Student Bootcamp — AI 產品實作營】即日起開始報名!

以「開發使用者為導向的產品」為核心概念設計的 Cinnamon AI Bootcamp 是 AI Junior 人才的精神時光屋,為你奠定進入 AI 產業界的基石,彌平產學落差!
今年更是台灣首次與越南辦公室聯合舉行 2022 AI Bootcamp,讓你有許多與國際學生們交流、切磋的機會。加快自我成長速度、邁向 AI 職涯的第一步,就從加入 2022 Global Student Bootcamp 開始吧!

--

--