翻譯公司:在 eDiscovery 數(shù)據(jù)中查找外語的技巧
Date: 2020-06-09 11:13:15Source: 志遠翻譯
Relativity 博客上發(fā)表了一篇新的 ATA 翻譯文章進行部署。
Relativity 是最受律師和法律專業(yè)人士歡迎的電子發(fā)現(xiàn)平臺創新科技。我們最近在 Relativity 網(wǎng)站上發(fā)表了一篇博客,強調(diào)了快速識別關(guān)鍵外語信息的三個重要技巧講道理。請看下文發展目標奮鬥。
您是一家大律師事務(wù)所的 eDiscovery 專家。坐在辦公桌前更多的合作機會,登錄 Relativity 網(wǎng)站延伸,開始篩選文件。您一直瀏覽著服務好,尋找需要的東西新趨勢,甚至在截止日期之前就找到了。于是您開始思考午餐吃什么講實踐。我要在街對面的那家店買一份 15 美元的沙拉嗎數字技術?那我要買披薩嗎?買披薩吧,超值措施。一整塊披薩大大縮短,太棒了。
然后緊密相關,您會看到一個巨大的更默契了、看起來像外國文件的緩存。您以為是羅馬尼亞語培訓,但實際上您不懂羅馬尼亞語不合理波動。您也不懂拉脫維亞語、立陶宛語或波蘭語重要工具。可能是其中之一嗎積極拓展新的領域?您的額頭上冒出一粒汗珠,您開始恐慌性能,在腦海中瀏覽您的選項:
- 要問其中一個伙伴該做什么多種方式,請翻到第 17 頁
- 要進入一個 13 小時的網(wǎng)絡(luò)兔子洞,請翻到第 25 頁
- 要跑到停車場在車里哭技術創新,請翻到第 33 頁
在審閱過程中盡早識別出外語,對于實現(xiàn)清晰建立和完善、可預(yù)測的成本提供了遵循、防止不必要的延遲和構(gòu)建有意義的工作流至關(guān)重要。這里有一些簡單的技巧可以幫助您在國外的 eDiscovery 領(lǐng)域暢行大型。
1.使用外語停止詞
如果您沒有 Relativity Analytics服務效率,或者您正在尋找一種快速、簡單的方法來掃描您的數(shù)據(jù)集以尋找某種外語重要意義,那么在 dtSearch 中創(chuàng)造性地使用停止詞可能會有所幫助統籌發展。
停止詞,也稱為噪音詞追求卓越,是給定語言中使用頻率最高的單詞(例如逐漸完善,在英語中:and、the合理需求、my是目前主流、all充分發揮、for)。它們通常會從 dtSearch 或關(guān)鍵字搜索中被過濾掉充分發揮,因為它們非常常見提高,不會返回有價值的搜索結(jié)果。然而的特性,這些詞頻繁出現(xiàn)也使它們成為查找外語文檔的好方法。
因為可以安全地假設(shè)在任何文本中都可以找到停止詞基礎,所以對停止詞列表的 dtSearch 可能會返回任何外語文檔提供堅實支撐。例如,如果您認為您的數(shù)據(jù)集可能包含德語高產,那么搜索德語停止詞將有希望返回任何帶有德語文本的文檔信息化技術。
請注意,每種語言都有自己獨特的停止詞集良好,因此與其翻譯英語單詞列表逐步顯現,不如從法律語言服務(wù)專家那里獲得所需外語的停止詞列表。
2.運行語言標識
雖然有了停止詞技巧能找到外語文檔引領,但是這要求您預(yù)先知道數(shù)據(jù)集中有哪些語言自動化裝置,并且如果您搜索的語言不止一種,那么您會感到單調(diào)乏味應用前景。對于可能包含多種語言的數(shù)據(jù)集有很大提升空間,或者如果您只是想在對任何一種外語進行雙重檢查之后,繼續(xù)您的評審首次,那么可能性更大,最好使用完整的語言識別分析。
語言識別運用機器學習搖籃,自動檢測文本中的語言技術。Realativity Analytics 中的一個特性,它能返回文檔中的主語言和最多兩種次要語言推動,以及每種語言的百分比示範推廣。
因此,您可以利用語言識別輸出來指導下一步大面積。構(gòu)建鳥瞰圖面板積極參與,以能夠縱觀文檔數(shù)量、管理員數(shù)量和語言控制數(shù)量培養;按語言批量處理文檔交流研討,高效地發(fā)送給外語審校員;然后將外文文本發(fā)送給機器翻譯形式,這樣您就可以得到英文版要點建設應用。無論采用哪種方法支撐作用,語言識別結(jié)果都將為接下來的審閱工作流程打下基礎(chǔ)。
3.認識到互聯(lián)網(wǎng)是您的朋友——除非它不是
互聯(lián)網(wǎng)的美妙之處在于動力,您只需點擊一個按鈕就能找到您想要的任何東西同時。僅利用谷歌搜索可能有的語言中的停止詞,將為您帶來一些快速而可靠的回報效高性。例如模式,搜索“西班牙語停止詞”,您會看到一個包含 40 多種語言的完整的停止詞列表提升「咂焚|;ヂ?lián)網(wǎng)很棒吧?但不要讓它給您一種虛假的安全感支撐能力。
我們都知道有免費的翻譯工具資源優勢。您可能認為,簡單地將文檔復(fù)制并粘貼到這些免費引擎之一中特征更加明顯,就可以解決語言識別混亂的問題估算,但在繼續(xù)之前,有幾個重要的問題需要考慮:
- 當您考慮到可能要處理的文檔數(shù)量時的可能性,復(fù)制和粘貼是非常單調(diào)乏味的不要畏懼。“Ctrl+C,Ctrl+V”在面對成百上千個文檔時并不是一個切實可行的選項措施。
- 免費的在線翻譯工具并不安全大大縮短。一旦您將文本輸入其中一個工具,該文本也歸這些工具所有了緊密相關。在大多數(shù)情況下更默契了,您處理的是不應(yīng)該向第三方公開的敏感性文檔。但當然服務體系,您早已明白這一點說服力。
所以您找到了外語文檔。現(xiàn)在怎么辦呢非常激烈?
現(xiàn)在是時候確定這些外文文檔是否相關(guān)競爭力所在,是否要優(yōu)先處理或需要其他的處理——換句話說,是時候弄清楚這些文檔的所要表達的意思了領域。為此溝通機製,您可能希望與受信任的語言服務(wù)供應(yīng)方合作。選擇一個可靠的供應(yīng)方是另一個話題註入新的動力,但是這里有一些快速的技巧可以幫助您開始:
- 確保他們具備 ISO 認證的質(zhì)量——糟糕的翻譯會造成混亂領先水平,浪費您的時間和金錢。保護自己別出現(xiàn)這種情況。選擇一個經(jīng)過 ISO 認證的供應(yīng)方是一個好的開始戰略布局。
- 確保他們具備豐富的 eDiscovery 經(jīng)驗——多數(shù)情況下是結(jié)合各種工具事關全面,如機器翻譯、外語審校狀態、和關(guān)鍵字搜索詞翻譯——這將會優(yōu)化您的時間和成本,所以確保您的供應(yīng)方熟悉于此技術節能,以及如何將其適用于這些類型的項目。
- 確保他們熟悉您所選擇的技術(shù)——選擇一個已經(jīng)熟悉您的 eDiscovery 軟件的合作伙伴可以節(jié)省時間廣泛認同,提高安全性聯動,并防止頭痛。有些甚至可能為您的平臺提供專用的應(yīng)用程序共同努力,比如 ATA 的 Relativity 插件,為您已知的工具提供專用的支持追求卓越。
翻譯公司