ropencc - OpenCC 繁简转换 R 语言接口

24 Oct 2015

OpenCC 简介

Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。项目的地址是 GitHub - OpenCC

OpenCC 有诸特性,如:严格区分「一简对多繁」、「一简对多异」和「地域用词差别」;支持异体字转换,兼容陆港澳台等不同地区用字差别;严格审校一简对多繁词条,原则为「能分则不合」,用户可自定义合并;支持中国大陆、台湾、香港异体字和地区习惯用词转换,如「裏」「里」、「鼠标」「滑鼠」;词库和函数库完全分离,可以自由修改、导入、扩展。

ropencc

ropencc 是 OpenCC 的 R 语言接口,项目地址是 GitHub - ropencc。目前该包还没有发布到 CRAN ,可以通过 Github 安装,Windows 用户需要安装 Rtools。

devtools::install_github("qinwf/ropencc")

使用 converter() 函数建立转换器,S2T 代表 简体到繁体,T2S 代表 繁体到简体。

ccst = converter(S2T)
ccst["开放中文转换"]
ccts = converter(T2S)
ccts["開放中文轉換"]

S2T 实际为转换配置文件路径,配置文件为 json 格式,如果没有定制需要,一般不需要修改。对于有精确转换要求的,比如对于特定区域的设置,可以使用对应的配置文件。使用台湾的精确配置文件,即后缀带有 P 的配置文件路径,鼠标 的简繁转换结果为 滑鼠。

help("converter")

S2TWP
[1] "C:/Users/outwen/Documents/R/win-library/3.2/ropencc/config/s2twp.json"

ccstp = converter(S2TWP)
ccstp[c("开放中文转换","测试","鼠标")]
[1] "開放中文轉換" "測試"         "滑鼠"     

ccst = converter(S2TW)
ccst[c("开放中文转换","测试","鼠标")]
[1] "開放中文轉換" "測試"         "鼠標"   

如果需要将 文本文件词表 转换为 OpenCC 所使用的 ocd 文件,可以使用 make_dict() 函数。

R package OpenCC