基于在線適應的機器翻譯后編輯研究.pdf_第1頁
已閱讀1頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、傳統(tǒng)的機器翻譯模型使用批量學習的方法進行參數(shù)優(yōu)化。隨著稀疏特征等概念的提出,批量學習方法已經遠遠無法滿足現(xiàn)有的需要,在線學習技術逐漸進入了人們的視野。一些研究者提出了在線適應的學習框架,不僅對特征權重進行調節(jié),而且能夠對特征函數(shù)進行實時地修改。另一方面,機器翻譯自動后編輯技術已經被證明能夠顯著提升人工編輯的效率,并且對于譯文質量也有一定程度的提高。為此,本文對基于在線適應的機器翻譯后編輯進行了研究,主要的研究內容分為如下幾個方面:

2、> ?。?)在線適應模型研究。在方法層面使用相同規(guī)模的數(shù)據(jù)上對比了傳統(tǒng)的批量學習方法與在線適應方法的性能。在系統(tǒng)層面比較了自動后編輯系統(tǒng)與機器翻譯系統(tǒng)的區(qū)別。在模型層面針對在線適應的三個模型參數(shù)——迭代次數(shù)、kbest列表長度以及最大更新步長分別進行了探究實驗。
 ?。?)基于主動學習的在線適應后編輯研究。提出了一種主動學習的方法并將其應用于在線適應的學習過程中。首先分別對學習開始時和學習結束時的句子級BLEU得分進行計算,并利用

3、BLEU的漲幅為每一個句子標注類別。然后保留所有類別為正的句子進行下一階段的主動學習。另外,還保留最優(yōu)測試集的特征權重并對訓練集進行解碼,以便查看主動學習方法對于大規(guī)模測試集的性能。
 ?。?)基于規(guī)則表過濾的在線適應后編輯研究。提出了一種規(guī)則表過濾的方法期待提升譯文質量。首先分別從開發(fā)集和測試集中抽取解碼用到的規(guī)則,然后探究每條規(guī)則對于解碼性能的影響。把能夠增大解碼收益的規(guī)則設定為正例,把減小解碼收益的規(guī)則設定為負例。在確定了類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論