Python檢測多國語言
文檔鏈接:https://pypi.org/project/langdetect/
一、基礎介紹
在很多場合中,我們獲得的語言會很多種?例如,英文,法語,中文,繁體中文,如何對這些語言進行具有針對性的檢測和處理尤為重要!
多國語言交流(圖片為網圖)
在這里,我們采用谷歌的langdetect庫進行語言檢測
(1)首先,我們先下載langdetect
pip install langdetect
(2)測試代碼
# -*- coding: utf-8 -*-
# 需要識別的句子(這里是中文)
str = '中文'
# 需要識別的句子(這里是英文)
# str = 'Otec matka syn.'
# 引用庫
from langdetect import detect
from langdetect import detect_langs
# 當文本過短或模糊時,判斷出來的結果會不確定;
# 如果要讓結果唯一,添加以下兩行:
from langdetect import DetectorFactory
DetectorFactory.seed = 0
# 判斷語言種類
print(detect(str))
# 概率
print(detect_langs(str))
(3)輸出結果
zh-cn
[zh-cn:0.9999945807402004]
二、語言范圍介紹
(1)支持的語言類型:
支持檢測55種語言: af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gu, he, hi, hr, hu, id, it, ja, kn, ko, lt, lv, mk, ml, mr, ne, nl, no, pa, pl, pt, ro, ru, sk, sl, so, sq, sv, sw, ta, te, th, tl, tr, uk, ur, vi, zh-cn, zh-tw
(2)語言類型解釋:
百度百科:iso 639-1
(3)具體
快速查看:
標簽 | 內容 | 標簽 | 內容 | 標簽 | 內容 | 標簽 | 內容 |
---|---|---|---|---|---|---|---|
aa | 阿法爾語 | fr | 法語 | li | 林堡語 | se | 北薩米語 |
ab | 阿布哈茲語 | fy | 弗里西亞語 | ln | 林加拉語 | sg | 桑戈語 |
ae | 阿維斯陀語 | ga | 愛爾蘭語 | lo | 老撾語 | sh | 塞爾維亞-克羅地亞語 |
af | 南非語 | gd | 蘇格蘭蓋爾語 | lt | 立陶宛語 | si | 僧加羅語 |
ak | 阿坎語 | gl | 加利西亞語 | lu | 盧巴語 | sk | 斯洛伐克語 |
am | 阿姆哈拉語 | gn | 瓜拉尼語 | lv | 拉脫維亞語 | sl | 斯洛文尼亞語 |
an | 阿拉貢語 | gu | 古吉拉特語 | mg | 馬達加斯加語 | sm | 薩摩亞語 |
ar | 阿拉伯語 | gv | 馬恩島語 | mh | 馬紹爾語 | sn | 紹納語 |
as | 阿薩姆語 | ha | 豪薩語 | mi | 毛利語 | so | 索馬里語 |
av | 阿瓦爾語 | he | 希伯來語 | mk | 馬其頓語 | sq | 阿爾巴尼亞語 |
ay | 艾馬拉語 | hi | 印地語 | ml | 馬拉亞拉姆語 | sr | 塞爾維亞語 |
az | 阿塞拜疆語 | ho | 希里莫圖語 | mn | 蒙古語 | ss | 斯瓦特語 |
ba | 巴什基爾語 | hr | 克羅地亞語 | mo | 摩爾達維亞語 | st | 南索托語 |
be | 白俄羅斯語 | ht | 海地克里奧爾語 | mr | 馬拉提語 | su | 巽他語 |
bg | 保加利亞語 | hu | 匈牙利語 | ms | 馬來語 | sv | 瑞典語 |
bh | 比哈爾語 | hy | 亞美尼亞語 | mt | 馬耳他語 | sw | 斯瓦希里語 |
bi | 比斯拉馬語 | hz | 赫雷羅語 | my | 緬甸語 | ta | 泰米爾語 |
bm | 班巴拉語 | ia | 國際語A | na | 瑙魯語 | te | 泰盧固語 |
bn | 孟加拉語 | id | 印尼語 | nb | 書面挪威語 | tg | 塔吉克斯坦語 |
bo | 藏語 | ie | 國際語E | nd | 北恩德貝勒語 | th | 泰語 |
br | 布列塔尼語 | ig | 伊博語 | ne | 尼泊爾語 | ti | 提格里尼亞語 |
bs | 波斯尼亞語 | ii | 四川彝語(諾蘇語) | ng | 恩敦加語 | tk | 土庫曼語 |
ca | 加泰隆語 | ik | 依努庇克語 | nl | 荷蘭語 | tl | 他加祿語 |
ce | 車臣語 | io | 伊多語 | nn | 新挪威語 | tn | 塞茨瓦納語 |
ch | 查莫羅語 | is | 冰島語 | no | 挪威語 | to | 湯加語 |
co | 科西嘉語 | it | 意大利語 | nr | 南恩德貝勒語 | tr | 土耳其語 |
cr | 克里語 | iu | 因紐特語 | nv | 納瓦霍語 | ts | 宗加語 |
cs | 捷克語 | ja | 日語 | ny | 尼揚賈語 | tt | 塔塔爾語 |
cu | 古教會斯拉夫語 | jv | 爪哇語 | oc | 奧克語 | tw | 特威語 |
cv | 楚瓦什語 | ka | 格魯吉亞語 | oj | 奧吉布瓦語 | ty | 塔希提語 |
cy | 威爾士語 | kg | 剛果語 | om | 奧洛莫語 | ug | 維吾爾語 |
da | 丹麥語 | ki | 基庫尤語 | or | 奧利亞語 | uk | 烏克蘭語 |
de | 德語 | kj | 寬亞瑪語 | os | 奧塞梯語 | ur | 烏爾都語 |
dv | 迪維希語 | kk | 哈薩克語 | pa | 旁遮普語 | uz | 烏茲別克語 |
dz | 不丹語 | kl | 格陵蘭語 | pi | 巴利語 | ve | 文達語 |
ee | 埃維語 | km | 高棉語 | pl | 波蘭語 | vi | 越南語 |
el | 現代希臘語 | kn | 卡納達語 | ps | 普什圖語 | vo | 沃拉普克語 |
en | 英語 | ko | 朝鮮語、韓語 | pt | 葡萄牙語 | wa | 沃倫語 |
eo | 世界語 | kr | 卡努里語 | qu | 凱楚亞語 | wo | 沃洛夫語 |
es | 西班牙語 | ks | 克什米爾語 | rm | 羅曼什語 | xh | 科薩語 |
et | 愛沙尼亞語 | ku | 庫爾德語 | rn | 基隆迪語 | yi | 依地語 |
eu | 巴斯克語 | kv | 科米語 | ro | 羅馬尼亞語 | yo | 約魯巴語 |
fa | 波斯語 | kw | 康沃爾語 | ru | 俄語 | za | 壯語 |
ff | 富拉語 | ky | 吉爾吉斯語 | rw | 盧旺達語 | zh | 中文、漢語 |
fi | 芬蘭語 | la | 拉丁語 | sa | 梵語 | zu | 祖魯語 |
fj | 斐濟語 | lb | 盧森堡語 | sc | 薩丁尼亞語 | ||
fo | 法羅語 | lg | 盧干達語 | sd | 信德語 |
參考文獻原文路徑