WordSmith Tools 是針對語言學研究者設計的軟體,在語料庫語言學(corpus linguistics)中尤為實用。它有許多統計與排列元件,用以觀測文本內語言的模式。
功能
Wordsmith4 多語種強大語言檢索軟體,可利用 Wordsmith4 檢索漢語資料文本
在使用 Wordsmith4 之前必須注意以下幾點:
1 .待檢索的資料文本是否是以 Unicode 編碼的純文字檔 : Wordsmith4 在處理資料文本時 , 要求資料文本是以 Unicode 編碼的 .txt 純文字檔 , 但是現代漢語資料文本是以 GB2312 編碼的,你得把你的文字檔轉換成純文字檔。如何轉換呢?介紹完下面一個重要的步驟再具體說明。
2 .除了要求是純文字檔之外,還得要求純文字裡的漢字之間有空格 。我們發現文本裡的漢字之間是沒有空格的,這和英語是不同的,英語每個單詞之間是有空格的。那怎麼辦呢?也就是要求在漢字之間插入空格。
3 .但是如果我們在所有的漢字之間插入空格,那在進行 WORDLIST 處理的時候,我們看到的肯定是一份“單字”表了。而沒有諸如“如果”的詞語了。
4 .利用中科院的 ICTCLAS 對漢語文本進行分詞處理 。在使用中科院的 ICTCLAS (漢語文本詞性標注標記工具)對漢語純文字進行處理的時候,發現這個軟體在進行分詞處理的同時,也就在字詞之間同時加入了空格。請注意, ICTCLAS 直接處理以 GB2312 編碼的純中文文本,而且生成的 _cla 文字檔仍然是以 GB2312 編碼的。
5 。文本編碼轉換的問題 。可喜的是最新版的 WS4 已經改進了強大的轉換功能。( Utilities-Text converter-conversion-into Unicode based on-Chinese PRC 2312 )
6 .語言設置成“ Chinese”. 具體設置: settings-Adjust settings-Text & languages-Edit languages-Main-select Chinese PRC
7. 所有漢語文本轉換成 Unicode 編碼之後,現在就可以利用 Wordsmith4 進行檢索了。
WordSmith needs Chinese to be in plain text, in Unicode and with spaces between groups of characters. To insert spaces appropriately, use ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System, designed by the Chinese Academy of Social Sciences); demos can be downloaded from their website: http://ictclas.nlpir.org/ There is a copy of the free version (1.0) of their software here.In order to concordance a Chinese phrase like “ 但是 ”, ICTCLAS will preprocess the texts by lexiparsing the original texts.
This screenshot shows what your text will be like:
Besides the three main programs, there are more Tools that have arisen over the years.
Character Profiler |
列出文本中使用的字符 |
CharGrams |
像WordList,但用於字符序列 |
Corpus Checker |
有助於清理語料庫,查找異常文本 |
File Utilities |
用於管理文件的各種工具 |
File Viewer |
顯示文本文件的內部 |
Minimal Pairs |
識別相似的單詞 |
Registration |
註冊您的許可證 |
Text Converter |
為不同的格式準備你的語料庫 |
Aligner |
幫助調整翻譯文本 |
WSConcGram |
查找並顯示匯總 |
更新介紹
New features:
– text segment mark-up
– abbreviations
– index concgrams
– cumulative column
– new batch processing options
– corpus report table output
– overall statistics tab
– find a field, e.g. headlines in corpus
– new string-matching duplicate contents check
– counts from saved data
– number formats
– checkmarks in Aligner
Concordance 複數文本分析之結果與散布圖
Keywords 關鍵字統計報告
Wordlist 字彙列舉報告視窗
WordSmith Tools version 8 is for Windows 7 or later, including Windows 7 and 8, 8.1, 10, 11, and either 32 or 64-bit versions.
It will be happiest on a fairly modern laptop or desktop PC (e.g. ones bought in the last 4 years). Or an Intel Mac if you install Windows on it.
You will need 100 Mb disk-space and 1GB of RAM as a minimum.