国模吧双双大尺度炮交gogo,国产午夜三级一区二区三,国产一区二区精品久久岳,国产精品熟妇一区二区三区四区,国产伦孑沙发午休精品

登錄注冊
新聞 資訊 金融 知識 財(cái)經(jīng) 理財(cái) 科技 金融 經(jīng)濟(jì) 產(chǎn)品 系統(tǒng) 連接 科技 聚焦
首頁 > 新聞 > 業(yè)界 > > 正文

亞馬遜擬發(fā)布400萬字會話數(shù)據(jù)集 幫助進(jìn)行自然語言處理研究

2019-04-02 16:19:57來源:騰訊科技

4月2日消息,據(jù)外媒報(bào)道,亞馬遜今天表示,將在2019年9月發(fā)布超過400萬字、針對自然語言處理研究的數(shù)據(jù)樣本。這個(gè)樣本名為“主題聊天數(shù)據(jù)集”(Topical Chat),其中包括眾包人類對話語料庫,并將其提供給參加年度Alexa Prize Socialbot大挑戰(zhàn)的團(tuán)隊(duì)。

亞馬遜稱,主題聊天數(shù)據(jù)集由21萬多個(gè)主題會話,超過410萬字,這使其成為世界上最大的公共會話和知識數(shù)據(jù)集之一。語料庫的每個(gè)會話和會話轉(zhuǎn)向都與提供給人群工作者的知識相關(guān)聯(lián),并且所涉及的知識都是從與實(shí)體相關(guān)各種“非結(jié)構(gòu)化”和“松散結(jié)構(gòu)”的文本資源中收集的。

亞馬遜資深首席科學(xué)家迪利克·哈卡尼-圖爾(Dilek Hakkani-Tur)在博文中明確表示,這些會話都不是與Alexa客戶互動的結(jié)果。

哈卡尼-圖爾說:“這些數(shù)據(jù)的收集目標(biāo)是使下一步研究能夠在基于知識的神經(jīng)反應(yīng)生成系統(tǒng)中進(jìn)行,解決其他公開數(shù)據(jù)集沒有解決的自然對話中存在的困難挑戰(zhàn)。這將使研究人員能夠?qū)W⒂谌祟愒谥黝}之間的轉(zhuǎn)換、知識的選擇與豐富,以及將事實(shí)和意見納入對話,并支持出版高質(zhì)量、可重復(fù)的研究。”

亞馬遜表示,競爭Alexa Prize Socialbot大獎的團(tuán)隊(duì)將可以訪問擴(kuò)展版本的數(shù)據(jù)集,其名稱為“擴(kuò)展主題聊天數(shù)據(jù)集”,其中包括正在進(jìn)行的收集和標(biāo)注的結(jié)果。

在今天的聲明發(fā)布大約六個(gè)月前,亞馬遜就曾開放過一個(gè)數(shù)據(jù)集,可以用來訓(xùn)練AI模型,以識別不同語言和腳本類型的名稱。它被稱為“多語種命名實(shí)體音譯系統(tǒng)”,包括近40萬個(gè)名字,語言包括摘自維基百科的阿拉伯語、英語、希伯來語、日語片假名和俄語。(騰訊科技審校/金鹿)

關(guān)鍵詞:

推薦內(nèi)容

熱點(diǎn)
39熱文一周熱點(diǎn)