python 英文语音转文字（汉语转拼音工具）

微笑足已 2022-12-18 07:20:17

收藏赞分享

python 英文语音转文字（汉语转拼音工具）(1)

整理 | Jane

出品 | AI科技大本营

【导读】平常为大家推荐的资源中，以英语语言占据大多数。今天 AI科技大本营特别要为大家推荐两个跟中文相关的资源工具。先简单介绍下这两个资源工具都是什么。第一个，汉字转拼音的工具——即将中文字符转换成它的拼音。除了支持 JavaScript，还可以支持 Python、Go、Rust 等多种语言。可以说是非常 nice 的一个中文资源工具了。第二个是新华字典的 API，收录包括 14032 条歇后语，16142 个汉字，264434 个词语，31648 个成语。有需要的同学可以收藏留着用，觉得不错记得分享点赞。

汉字转拼音工具

▌功能

将中文字符转换为拼音。可用于汉字注音、排序、检索任务。

根据词组智能匹配最正确的拼音。

支持多音字。

简单的繁体支持, 注音支持。

支持多种不同拼音/注音风格。

▌支持版本

1.Node.js/JavaScript 版

注：这个版本同时支持在 Node 和 Web 浏览器环境运行；

作者：hotoo；来源：GitHub

https://github.com/hotoo/pinyin

python 英文语音转文字（汉语转拼音工具）(2)

2.Python 版

作者：mozillazg；来源：GitHub

https://github.com/mozillazg/python-pinyin

python 英文语音转文字（汉语转拼音工具）(3)

3.Go 版

作者：mozillazg；来源：GitHub

https://github.com/mozillazg/go-pinyin

python 英文语音转文字（汉语转拼音工具）(4)

python 英文语音转文字（汉语转拼音工具）(5)

4.Rust 版

作者：mozillazg；来源：GitHub

https://github.com/mozillazg/rust-pinyin

python 英文语音转文字（汉语转拼音工具）(6)

python 英文语音转文字（汉语转拼音工具）(7)

▌一些注意事项

1.为什么没有 y, w, yu 几个声母？

1>>>frompypinyinimportStyle,pinyin2>>>pinyin('下雨天',style=Style.INITIALS)3[['x'],[''],['t']]

因为根据《汉语拼音方案》， y，w，ü (yu) 都不是声母。

声母风格（INITIALS）下，“雨”、“我”、“圆”等汉字返回空字符串，因为根据《汉语拼音方案》， y，w，ü (yu) 都不是声母，在某些特定韵母无声母时，才加上 y 或 w，而 ü 也有其特定规则。 —— @hotoo

如果你觉得这个给你带来了麻烦，那么也请小心一些无声母的汉字（如“啊”、“饿”、“按”、“昂”等）。这时候你也许需要的是首字母风格（FIRST_LETTER）。 —— @hotoo

参考:

hotoo/pinyin#57,#22,#27,#44

如果觉得这个行为不是你想要的，就是想把 y 当成声母的话，可以指定strict=False，这个可能会符合你的预期，详见strict 参数的影响

1>>>frompypinyinimportStyle,pinyin2>>>pinyin('下雨天',style=Style.INITIALS)3[['x'],[''],['t']]4>>>pinyin('下雨天',style=Style.INITIALS,strict=False)5[['x'],['y'],['t']]

2.拼音数据

单个汉字的拼音使用pinyin-data的数据
词组的拼音使用phrase-pinyin-data的数据

3.node 版和 web 版有什么异同？

pinyin目前可以同时运行在 Node 服务器端和 Web 浏览器端。 API 和使用方式完成一致。但 Web 版较 Node 版稍简单，拼音库只有常用字部分，没有使用分词算法，并且考虑了网络传输对词库进行了压缩处理。

由于分词和繁体中文的特性，部分情况下的结果也不尽相同。由于这些区别，测试不同运行环境的用例也不尽相同。

特性

Web 版

Node 版

拼音库

常用字库。压缩、合并

完整字库。不压缩、合并

分词

没有分词

使用分词算法，多音字拼音更准确。

拼音频度排序

有根据拼音使用频度优先级排序。

同 Web 版。

繁体中文

没有繁体中文支持。

有简单的繁简汉字转换。

更多详细安装与使用教程可访问 GitHub 链接进行访问~

各版本 GitHub 地址：

https://github.com/hotoo/pinyin

https://github.com/mozillazg/python-pinyin

https://github.com/mozillazg/go-pinyin

https://github.com/mozillazg/rust-pinyin

新华字典 API

▌介绍

作者本来的目的是想可以实现成语接龙，苦于没有现成可用的数据库，自己就从各个网站抓取整理了一份。所有的数据都作者从网上找的。放在 Github 是为了方便自己的使用，同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的脚本都在仓库里。

中华新华字典数据库和 API 。收录包括 14032 条歇后语，16142 个汉字，264434 个词语，31648 个成语。所有的数据放在 data/ 目录。

python 英文语音转文字（汉语转拼音工具）(8)

▌数据库与 API 介绍

1.成语（idiom.json)

python 英文语音转文字（汉语转拼音工具）(9)

python 英文语音转文字（汉语转拼音工具）(10)

python 英文语音转文字（汉语转拼音工具）(11)

2.词语（ci.json）

python 英文语音转文字（汉语转拼音工具）(12)

3.汉字（word.json)

python 英文语音转文字（汉语转拼音工具）(13)

python 英文语音转文字（汉语转拼音工具）(14)

4.歇后语（xiehouyu.json)

python 英文语音转文字（汉语转拼音工具）(15)

python 英文语音转文字（汉语转拼音工具）(16)

使用可访问 GitHub 地址：

https://github.com/pwxcoo/chinese-xinhua

,

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

安卓九如何卸载谷歌服务（安卓手机为何这么多垃圾软件）

妖尕洁
维普期刊如何查看全文（维普网发布关于加强中文科技期刊数据库内容审核的通知）

呆萌青年
如何查找scopus检索的期刊（关于遴选推荐优秀科技期刊进入Scopus数据库的通知）

执笔作画
世界互联网大会乌镇峰会马云（阿里巴巴董事长张勇乌镇致辞）

伴君三生
交管12123换驾驶证操作流程（140余项交管业务可通过）

花生崽儿
小升初数学运算讲解（小升初复习专题）

请珍重先生
数据库基本概念讲解（数据库系统概论基础入门）

和谁对饮

热门推荐

排行榜