ropencc - OpenCC 繁简转换 R 语言接口
OpenCC 简介
Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。项目的地址是 GitHub - OpenCC。
OpenCC 有诸特性,如:严格区分「一简对多繁」、「一简对多异」和「地域用词差别」;支持异体字转换,兼容陆港澳台等不同地区用字差别;严格审校一简对多繁词条,原则为「能分则不合」,用户可自定义合并;支持中国大陆、台湾、香港异体字和地区习惯用词转换,如「裏」「里」、「鼠标」「滑鼠」;词库和函数库完全分离,可以自由修改、导入、扩展。
ropencc
ropencc 是 OpenCC 的 R 语言接口,项目地址是 GitHub - ropencc。目前该包还没有发布到 CRAN ,可以通过 Github 安装,Windows 用户需要安装 Rtools。
使用 converter() 函数建立转换器,S2T 代表 简体到繁体,T2S 代表 繁体到简体。
S2T 实际为转换配置文件路径,配置文件为 json 格式,如果没有定制需要,一般不需要修改。对于有精确转换要求的,比如对于特定区域的设置,可以使用对应的配置文件。使用台湾的精确配置文件,即后缀带有 P 的配置文件路径,鼠标 的简繁转换结果为 滑鼠。
如果需要将 文本文件词表 转换为 OpenCC 所使用的 ocd 文件,可以使用 make_dict()
函数。