資訊|論壇|病例

搜索

首頁 醫(yī)學(xué)論壇 專業(yè)文章 醫(yī)學(xué)進(jìn)展 簽約作者 病例中心 快問診所 愛醫(yī)培訓(xùn) 醫(yī)學(xué)考試 在線題庫 醫(yī)學(xué)會議

您所在的位置:首頁 > 資訊頭條 > 整理文獻(xiàn)信息,電腦表現(xiàn)不比人差

整理文獻(xiàn)信息,電腦表現(xiàn)不比人差

2014-12-10 15:43 閱讀:626 來源:生物360 責(zé)任編輯:李思杰
[導(dǎo)讀] 在1997年,IBM的電腦深藍(lán)打敗了象棋**加里?卡斯帕羅夫(Gary Kasparov)。而由威斯康辛大學(xué)麥迪遜分校大學(xué)開發(fā)的電腦系統(tǒng)完成了更為復(fù)雜的任務(wù):它可以從浩如煙海的科學(xué)文獻(xiàn)中檢索信息并進(jìn)行數(shù)據(jù)分類,并且準(zhǔn)確程度不比進(jìn)行人工錄入的科學(xué)家差。這一研究

    在1997年,IBM的電腦“深藍(lán)”打敗了象棋**加里?卡斯帕羅夫(Gary Kasparov)。而由威斯康辛大學(xué)麥迪遜分校大學(xué)開發(fā)的電腦系統(tǒng)完成了更為復(fù)雜的任務(wù):它可以從浩如煙海的科學(xué)文獻(xiàn)中檢索信息并進(jìn)行數(shù)據(jù)分類,并且準(zhǔn)確程度不比進(jìn)行人工錄入的科學(xué)家差。這一研究成果于近日發(fā)表在《公共科學(xué)圖書館·綜合》(PLOS ONE)期刊上。

    克里斯托弗·雷(Christopher Ré)是這個軟件項目的領(lǐng)導(dǎo)者,他表示:“我們證明,這個系統(tǒng)在我們所測試的所有信息處理任務(wù)中都不亞于真人,在一些方面它們甚至表現(xiàn)得更好,這個結(jié)果非常令人振奮。”

    棋類游戲看起來可能很復(fù)雜,但它們都是建立在嚴(yán)格固定的規(guī)則之上的:在特定情況下,只有特定的一些走法是合規(guī)的。而從學(xué)術(shù)出版物中提取信息的規(guī)則不是那么明確,這對參與其中的人類和機(jī)器而言都是一種挑戰(zhàn)。

    論文作者表示,開發(fā)這樣一個信息提取系統(tǒng)是為了解決古生物學(xué)中的分類學(xué)信息整理問題。每一年,古生物學(xué)家們都會基于化石發(fā)現(xiàn)發(fā)表眾多學(xué)術(shù)論文,在其中提出新的分類學(xué)觀點(diǎn),這些信息非常重要,但也非常零散。如果要得到全景式的信息圖表,就得把這些散落在原始論文中的信息一點(diǎn)點(diǎn)提取出來,建立數(shù)據(jù)庫才行。

    目前在這方面,與古生物學(xué)數(shù)據(jù)庫The Paleobiology Database合作的科學(xué)家們已經(jīng)進(jìn)行了很多工作,他們在這個數(shù)據(jù)庫中人工錄入了許多來自原始科研論文的信息。然而,由于論文總數(shù)十分龐大且不斷增長,至今仍有大量論文信息還沒有進(jìn)行錄入。為了解決這個問題,研究者們開始“訓(xùn)練”計算機(jī)閱讀系統(tǒng)PaleoDeepDive,希望它能接替人進(jìn)行這項繁重的工作。

    這套系統(tǒng)是在機(jī)器閱讀系統(tǒng)DeepDive的基礎(chǔ)上建立的,類似的系統(tǒng)現(xiàn)在也被用在IBM和Google的項目當(dāng)中。“唯一不同的是我們是圍繞著科學(xué)文獻(xiàn)來進(jìn)行的,在這些文獻(xiàn)中的語言更加清晰和簡潔一些。” 雷這樣說到。

    正如人工錄入方式那樣,PaleoDeepDive也會首先“閱讀”文檔,并總結(jié)出其中的結(jié)構(gòu)性信息,如分類名、時期以及基因圖譜位置等等。“我們的策略并不是試圖猜測所有文獻(xiàn)中具體章節(jié)的含義,而是‘總體上判斷這個文獻(xiàn)所描述的問題’,”雷表示,“人們總是過度注意細(xì)節(jié),而關(guān)注整體就是DeepDive的優(yōu)勢所在。”

    研究者們選取了一些機(jī)器錄入的信息,并將它們與人工錄入的信息混在一起進(jìn)行了雙盲評價。結(jié)果發(fā)現(xiàn),機(jī)器錄入信息的準(zhǔn)確率可達(dá)92%,這個成績與人工錄入的水平持平,甚至還更高一些。“假如能獲取更多的反饋和數(shù)據(jù),我們還可以在此基礎(chǔ)上做得更好,”論文第一作者沙南·彼得斯(Shanan E. Peters)說,“這將可以系統(tǒng)性地、大規(guī)模地改善數(shù)據(jù)的質(zhì)量。”

    彼得斯表示:“最終,我們希望有能力創(chuàng)造一種電腦處理系統(tǒng),它幾乎可以在瞬間完成很多地質(zhì)學(xué)家和古生物學(xué)家要花費(fèi)一生時間來做的事情:閱讀大量文獻(xiàn),整理大量事實,并且將它們彼此關(guān)聯(lián)起來,來解決一個復(fù)雜的問題。”


分享到:
  版權(quán)聲明:

  本站所注明來源為"愛愛醫(yī)"的文章,版權(quán)歸作者與本站共同所有,非經(jīng)授權(quán)不得轉(zhuǎn)載。

  本站所有轉(zhuǎn)載文章系出于傳遞更多信息之目的,且明確注明來源和作者,不希望被轉(zhuǎn)載的媒體或個人可與我們

  聯(lián)系zlzs@120.net,我們將立即進(jìn)行刪除處理

意見反饋 關(guān)于我們 隱私保護(hù) 版權(quán)聲明 友情鏈接 聯(lián)系我們

Copyright 2002-2024 Iiyi.Com All Rights Reserved