programing

텍스트의 언어를 결정하는 방법은 무엇입니까?

powerit 2023. 7. 2. 21:06
반응형

텍스트의 언어를 결정하는 방법은 무엇입니까?

나는 이것을 받고 싶습니다:

Input text: "ру́сский язы́к"
Output text: "Russian" 

Input text: "中文"
Output text: "Chinese" 

Input text: "にほんご"
Output text: "Japanese" 

Input text: "العَرَبِيَّة"
Output text: "Arabic"

파이썬으로 어떻게 하나요?

TextBlob. (사용되지 않음 - 대신 공식 Google Translate API 사용)

NLTK 패키지가 필요하며 Google을 사용합니다.

from textblob import TextBlob
b = TextBlob("bonjour")
b.detect_language()

pip install textblob

참고: 이 솔루션은 인터넷 액세스가 필요하며 Textblob은 API를 호출하여 Google Translate의 언어 탐지기를 사용합니다.

폴리글롯.

Numpy 및 일부 난해한 라이브러리가 필요하지만 Windows에서는 작동하지 않습니다. (Windows의 경우 여기에서 PyICU, MorfessorPyCLD2의 적절한 버전을 가져오면 됩니다.)pip install downloaded_wheel.whl할 수 .) 혼합 언어의 텍스트를 감지할 수 있습니다.

from polyglot.detect import Detector

mixed_text = u"""
China (simplified Chinese: 中国; traditional Chinese: 中國),
officially the People's Republic of China (PRC), is a sovereign state
located in East Asia.
"""
for language in Detector(mixed_text).languages:
        print(language)

# name: English     code: en       confidence:  87.0 read bytes:  1154
# name: Chinese     code: zh_Hant  confidence:   5.0 read bytes:  1755
# name: un          code: un       confidence:   0.0 read bytes:     0

pip install polyglot

합니다.sudo apt-get install python-numpy libicu-dev

은 " " ": Polyglot"을 합니다.pycld2자세한 내용은 https://github.com/aboSamoor/polyglot/blob/master/polyglot/detect/base.py#L72 를 참조하십시오.

샤르데트

Chardet에는 문자 바이트가 범위(127-255]에 있을 경우 언어를 감지하는 기능도 있습니다.

>>> chardet.detect("Я люблю вкусные пампушки".encode('cp1251'))
{'encoding': 'windows-1251', 'confidence': 0.9637267119204621, 'language': 'Russian'}

pip install chardet

언어 탐지

텍스트의 많은 부분이 필요합니다.후드 아래에서 비결정론적 접근 방식을 사용합니다.즉, 동일한 텍스트 샘플에 대해 다른 결과를 얻을 수 있습니다.의사들은 당신이 그것을 결정하기 위해 다음의 코드를 사용해야 한다고 말합니다.

from langdetect import detect, DetectorFactory
DetectorFactory.seed = 0
detect('今一はお前さん')

pip install langdetect

추측 언어

이 철자 검사기를 사전과 함께 사용하여 매우 짧은 샘플을 탐지할 수 있습니다.

pip install guess_language-spirit

랑그리드

langid.py 은 두 가지 모듈을 모두 제공합니다.

import langid
langid.classify("This is a test")
# ('en', -54.41310358047485)

및 명령줄 도구:

$ langid < README.md

pip install langid

빠른 텍스트

FastText는 텍스트 분류기로, 언어 분류에 적합한 모델로 176개 언어를 인식하는 데 사용할 수 있습니다. 모델을 다운로드한 후:

import fasttext
model = fasttext.load_model('lid.176.ftz')
print(model.predict('الشمس تشرق', k=2))  # top 2 matching languages

(('__label__ar', '__label__fa'), array([0.98124713, 0.01265871]))

pip install fasttext

pyCLD3

pycld3는 언어 식별을 위한 신경망 모델입니다.이 패키지에는 추론 코드와 훈련된 모델이 포함되어 있습니다.

import cld3
cld3.get_language("影響包含對氣候的變化以及自然資源的枯竭程度")

LanguagePrediction(language='zh', probability=0.999969482421875, is_reliable=True, proportion=1.0)

pip install pycld3

랭디텍트를 본 적이 있습니까?

from langdetect import detect

lang = detect("Ein, zwei, drei, vier")

print lang
#output: de

@Rabash는 https://stackoverflow.com/a/47106810/610569 에 좋은 도구 목록을 가지고 있었습니다.

그리고 @to_tico는 속도 비교를 잘 해냈습니다.

위의 대답을 완성하기 위한 요약입니다(2021년 기준).

언어 ID 소프트웨어 사용자 오픈 소스/모델 규칙 기반 통계 기반 훈련/조정 가능
Google 번역 언어 탐지 TextBlub(제한된 사용) - -
샤르데 -
언어 추측(비활성 개발) 영적인 표현(재작성 가능) 최소로
pyCLD2 폴리글롯 어느 정도 확실하진 않다.
CLD3 - 아마도.
랑기드피의 - 확실하진 않다.
언어 탐지 SpaCy-lang 탐지
빠른 텍스트 왓 더 랭 확실하진 않다.

만약 당신이 긴 텍스트로 빠른 도서관을 찾고 있다면,polyglot그리고.fastext여기서 최고의 일을 하고 있습니다.

더럽고 임의적인 HTML 모음에서 10000개의 문서를 샘플링했는데 다음과 같은 결과가 나왔습니다.

+------------+----------+
| Library    | Time     |
+------------+----------+
| polyglot   | 3.67 s   |
+------------+----------+
| fasttext   | 6.41     |
+------------+----------+
| cld3       | 14 s     |
+------------+----------+
| langid     | 1min 8s  |
+------------+----------+
| langdetect | 2min 53s |
+------------+----------+
| chardet    | 4min 36s |
+------------+----------+

저는 많은 방법이 짧은 텍스트에 초점을 맞춘다는 것을 알게 되었습니다. 아마도 그것이 해결하기 어려운 문제이기 때문입니다. 텍스트가 많으면 언어를 탐지하는 것이 정말 쉽습니다(예: 사전을 사용할 수 있습니다!).그러나 이것은 긴 텍스트에 대한 쉽고 적합한 방법을 찾기 어렵게 만듭니다.

에문가있다니에 문제가 .langdetect병렬화에 사용되고 있지만 실패한 경우.그렇지만spacy_langdetect그것을 위한 포장지이고 당신은 그것을 그 목적으로 사용할 수 있습니다.다음 스니펫도 사용할 수 있습니다.

import spacy
from spacy_langdetect import LanguageDetector

nlp = spacy.load("en")
nlp.add_pipe(LanguageDetector(), name="language_detector", last=True)
text = "This is English text Er lebt mit seinen Eltern und seiner Schwester in Berlin. Yo me divierto todos los días en el parque. Je m'appelle Angélica Summer, j'ai 12 ans et je suis canadienne."
doc = nlp(text)
# document level language detection. Think of it like average language of document!
print(doc._.language['language'])
# sentence level language detection
for i, sent in enumerate(doc.sents):
    print(sent, sent._.language)

Python용 무료 무제한 Google 번역 API를 Google Trans(비공식)에서 사용할 수 있습니다.

원하는 만큼 요청할 수 있습니다. 제한은 없습니다.

설치:

$ pip install googletrans

언어 탐지:

>>> from googletrans import Translator
>>> t = Translator().detect("hello world!")
>>> t.lang
'en'
>>> t.confidence
0.8225234

유사한 요구사항에 가장 적합한 사전 교육된 빠른 텍스트 모델

저는 당신의 질문에 매우 유사한 요구를 가지고 도착했습니다.저는 라바쉬의 답변에서 저의 구체적인 필요에 가장 많은 도움을 받았습니다.

텍스트 파일이 60,000개 이상의 텍스트 파일로 영어로 되어 있는지 확인하는 그의 권장 사항 중 가장 효과적인 것을 찾기 위해 실험을 한 후, 저는 빠른 텍스트가 그러한 작업을 위한 훌륭한 도구라는 것을 발견했습니다.

약간의 작업으로, 저는 많은 파일에서 매우 빠르게 작동하는 도구를 가지고 있었습니다.그러나 빠른 텍스트는 행 목록에서 쉽게 작동하기 때문에 사용자의 경우와 같은 경우에 쉽게 수정될 수 있습니다.

댓글이 달린 제 코드는 이 게시물의 답변 중 하나입니다.나는 당신과 다른 사람들이 다른 특정한 필요를 위해 이 코드를 쉽게 수정할 수 있다고 믿습니다.

경우에 따라 다음 방법 중 하나를 사용할 수 있습니다.

방법 0: API 또는 라이브러리 사용

일반적으로 이러한 라이브러리에는 몇 가지 문제가 있습니다. 일부는 작은 텍스트에 대해 정확하지 않고, 일부 언어는 누락되었으며, 느리고, 인터넷 연결이 필요하며, 무료가 아닙니다.하지만 일반적으로 말해서, 그것들은 대부분의 필요에 맞을 것입니다.

방법 1: 언어 모델

언어 모델은 우리에게 일련의 단어의 확률을 제공합니다.이것은 텍스트가 다른 언어로 된 단어를 포함하는 경우에도 텍스트의 언어를 강력하게 탐지할 수 있도록 해주기 때문에 중요합니다(예: "Hola"는 스페인어로 '안녕하세요'를 의미함).

N개 언어 모델(언어당 하나)을 사용하여 텍스트에 점수를 매길 수 있습니다.탐지된 언어는 가장 높은 점수를 준 모델의 언어가 됩니다.

이것을 위한 간단한 언어 모델을 만들고 싶다면, 저는 1그램을 원합니다.이렇게 하려면 큰 텍스트의 각 단어(예: "X" 언어의 위키피디아 코퍼스)가 표시된 횟수만 계산하면 됩니다.

그런 다음 단어의 확률은 빈도를 분석된 전체 단어 수(모든 빈도의 합)로 나눈 값입니다.

the 23135851162
of  13151942776
and 12997637966
to  12136980858
a   9081174698
in  8469404971
for 5933321709
...

=> P("'Hola' means 'hello' in spanish") = P("hola") * P("means") * P("hello") * P("in") * P("spanish")

탐지할 텍스트가 상당히 큰 경우에는 N개의 임의 단어를 샘플링한 다음 부동 소수점 정밀도 문제를 피하기 위해 곱셈 대신 로그의 합을 사용하는 것이 좋습니다.

P(s) = 0.03 * 0.01 * 0.014 = 0.0000042
P(s) = log10(0.03) + log10(0.01) + log10(0.014) = -5.376

방법 2: 교차 세트

더 간단한 접근법은 상위 M개의 가장 빈도가 높은 단어로 N개의 집합(언어당 하나)을 준비하는 것입니다.그런 다음 텍스트를 각 집합과 교차시킵니다.교차점 수가 가장 많은 집합이 탐지된 언어가 됩니다.

spanish_set = {"de", "hola", "la", "casa",...}
english_set = {"of", "hello", "the", "house",...}
czech_set = {"z", "ahoj", "závěrky", "dům",...}
...

text_set = {"hola", "means", "hello", "in", "spanish"}

spanish_votes = text_set.intersection(spanish_set)  # 1
english_votes = text_set.intersection(english_set)  # 4
czech_votes = text_set.intersection(czech_set)  # 0
...

방법 3: Zip 압축

다른 어떤 것보다 호기심이 많지만, 여기서...텍스트를 압축한 다음(예: LZ77) 참조 압축된 텍스트(대상 언어)와 관련하여 zip 거리를 측정할 수 있습니다.개인적으로 다른 방법에 비해 느리고 정확도가 떨어지고 서술력이 떨어져 마음에 들지 않았습니다.그럼에도 불구하고 이 방법에 대한 흥미로운 응용 프로그램이 있을 수 있습니다.더 읽기: 언어 트리지퍼

Polygot 또는 Cld2는 텍스트에서 여러 언어를 감지할 수 있기 때문에 가장 좋은 제안 중 하나입니다.그러나 "빌드 휠 장애"로 인해 Windows에 설치하기가 쉽지 않습니다.

(Windows 10을 사용하는) 해결 방법은 CLD2-CFFI를 설치하는 것입니다.

그래서 먼저 cld2-cffi를 설치합니다.

pip install cld2-cffi

다음과 같이 사용합니다.

text_content = """ A accès aux chiens et aux frontaux qui lui ont été il peut 
consulter et modifier ses collections et exporter Cet article concerne le pays 
européen aujourd’hui appelé République française. 
Pour d’autres usages du nom France, Pour une aide rapide et effective, veuiller 
trouver votre aide dans le menu ci-dessus. 
Welcome, to this world of Data Scientist. Today is a lovely day."""

import cld2

isReliable, textBytesFound, details = cld2.detect(text_content)
print('  reliable: %s' % (isReliable != 0))
print('  textBytes: %s' % textBytesFound)
print('  details: %s' % str(details))

출력은 다음과 같습니다.

reliable: True
textBytes: 377
details: (Detection(language_name='FRENCH', language_code='fr', percent=74, 
score=1360.0), Detection(language_name='ENGLISH', language_code='en', 
percent=25, score=1141.0), Detection(language_name='Unknown', 
language_code='un', percent=0, score=0.0))

저는 언어 탐지를 위해 TextBlob이 제공하는 접근 방식을 좋아합니다.이것은 매우 간단하고 구현하기 쉬우며 시작하기 전에 코드 줄 수가 적습니다.아래 코드가 작동하려면 textblob python 라이브러리를 설치해야 합니다.

from textblob import TextBlob
text = "это компьютерный портал для гиков."
lang = TextBlob(text)
print(lang.detect_language())

반면에 다양한 언어를 조합하여 사용하는 경우 문장이나 단락의 일부를 정확하게 정의하여 언어 탐지를 허용하는 pycld2를 사용해 보는 것이 좋습니다.

입력 문자열에서 유니코드 문자 그룹을 확인하여 언어 유형(예: 러시아어의 경우 키릴 문자)을 가리킨 다음 텍스트에서 언어별 기호를 검색할 수 있습니다.

탐지하려는 언어가 이 중 하나라면...

  • 아랍어(ar)
  • 불가리아(bg)
  • 독일어(de)
  • 현대 그리스어 (el)
  • 영어(en)
  • 스페인어(들)
  • 프랑스어(fr)
  • 힌디어 (안녕)
  • 이탈리아의
  • 일본어(자)
  • 네덜란드어(nl)
  • 윤을 내다
  • 포르투갈어(pt)
  • 러시아어(ru)
  • swahili (swahili(sw)
  • 태국어(th)
  • 터키어(tr)
  • 우르두(urr)
  • 베트남어(vi)
  • 중국어(zh)

...그러면 HuggingFace 라이브러리 및 모델(Deep Learning Natural Language Processing(Deep Learning Natural Language Processing(Deep Language Processing에 익숙하지 않은 경우))을 사용하는 것이 비교적 쉽습니다.

# Import libraries
from transformers import pipeline
# Load pipeline
classifier = pipeline("text-classification", model = "papluca/xlm-roberta-base-language-detection")
# Example sentence
sentence1 = 'Ciao, come stai?'
# Get language
classifier(sentence1)

출력:

[{'label': 'it', 'score': 0.9948362112045288}]

label예측된 언어이며,score이 점수는 할당된 점수입니다. 신뢰도 측정으로 간주할 수 있습니다.일부 세부 정보:

교육 세트에는 70k 샘플이 포함되어 있으며, 검증 및 테스트는 각각 10k 샘플을 설정합니다.테스트 세트의 평균 정확도는 99.6입니다.%

모델의 페이지에서 더 많은 정보를 찾을 수 있으며, 필요에 맞는 다른 모델도 찾을 수 있을 것입니다.

설치할 수 있습니다.pycld2파이썬 라이브러리

pip install pycld2

또는

python -m pip install -U pycld2

아래 코드가 작동하기 위해.

import pycld2 as cld2

isReliable, textBytesFound, details = cld2.detect(
    "а неправильный формат идентификатора дн назад"
)

print(isReliable)
# True
details[0]
# ('RUSSIAN', 'ru', 98, 404.0)

fr_en_Latn = """\
France is the largest country in Western Europe and the third-largest in Europe as a whole.
A accès aux chiens et aux frontaux qui lui ont été il peut consulter et modifier ses collections
et exporter Cet article concerne le pays européen aujourd’hui appelé République française.
Pour d’autres usages du nom France, Pour une aide rapide et effective, veuiller trouver votre aide
dans le menu ci-dessus.
Motoring events began soon after the construction of the first successful gasoline-fueled automobiles.
The quick brown fox jumped over the lazy dog."""

isReliable, textBytesFound, details, vectors = cld2.detect(
    fr_en_Latn, returnVectors=True
)
print(vectors)
# ((0, 94, 'ENGLISH', 'en'), (94, 329, 'FRENCH', 'fr'), (423, 139, 'ENGLISH', 'en'))

Pycld2 python 라이브러리는 CLD2(Compact Language Detect 2)용 파이썬 바인딩입니다.Pycld2의 다양한 기능을 살펴볼 수 있습니다.여기에서 Pycld2에 대해 알아보십시오.

텍스트의 언어를 확인하는 가장 좋은 방법은 다음 기능을 구현하는 것입니다.

from langdetect import detect

def get_language(text):

    keys =['ab', 'aa', 'af', 'ak', 'sq', 'am', 'ar', 'an', 'hy', 'as', 'av', 'ae', 'ay', 'az', 'bm', 'ba', 'eu', 'be', 'bn', 'bi', 'bs', 'br', 'bg', 'my', 'ca', 'ch', 'ce', 'ny', 'zh', 'cu', 'cv', 'kw', 'co', 'cr', 'hr', 'cs', 'da', 'dv', 'nl', 'dz', 'en', 'eo', 'et', 'ee', 'fo', 'fj', 'fi', 'fr', 'fy', 'ff', 'gd', 'gl', 'lg', 'ka', 'de', 'el', 'kl', 'gn', 'gu', 'ht', 'ha', 'he', 'hz', 'hi', 'ho', 'hu', 'is', 'io', 'ig', 'id', 'ia', 'ie', 'iu', 'ik', 'ga', 'it', 'ja', 'jv', 'kn', 'kr', 'ks', 'kk', 'km', 'ki', 'rw', 'ky', 'kv', 'kg', 'ko', 'kj', 'ku', 'lo', 'la', 'lv', 'li', 'ln', 'lt', 'lu', 'lb', 'mk', 'mg', 'ms', 'ml', 'mt', 'gv', 'mi', 'mr', 'mh', 'mn', 'na', 'nv', 'nd', 'nr', 'ng', 'ne', 'no', 'nb', 'nn', 'ii', 'oc', 'oj', 'or', 'om', 'os', 'pi', 'ps', 'fa', 'pl', 'pt', 'pa', 'qu', 'ro', 'rm', 'rn', 'ru', 'se', 'sm', 'sg', 'sa', 'sc', 'sr', 'sn', 'sd', 'si', 'sk', 'sl', 'so', 'st', 'es', 'su', 'sw', 'ss', 'sv', 'tl', 'ty', 'tg', 'ta', 'tt', 'te', 'th', 'bo', 'ti', 'to', 'ts', 'tn', 'tr', 'tk', 'tw', 'ug', 'uk', 'ur', 'uz', 've', 'vi', 'vo', 'wa', 'cy', 'wo', 'xh', 'yi', 'yo', 'za', 'zu']
    
    langs = ['Abkhazian', 'Afar', 'Afrikaans', 'Akan', 'Albanian', 'Amharic', 'Arabic', 'Aragonese', 'Armenian', 'Assamese', 'Avaric', 'Avestan', 'Aymara', 'Azerbaijani', 'Bambara', 'Bashkir', 'Basque', 'Belarusian', 'Bengali', 'Bislama', 'Bosnian', 'Breton', 'Bulgarian', 'Burmese', 'Catalan, Valencian', 'Chamorro', 'Chechen', 'Chichewa, Chewa, Nyanja', 'Chinese', 'Church Slavonic, Old Slavonic, Old Church Slavonic', 'Chuvash', 'Cornish', 'Corsican', 'Cree', 'Croatian', 'Czech', 'Danish', 'Divehi, Dhivehi, Maldivian', 'Dutch, Flemish', 'Dzongkha', 'English', 'Esperanto', 'Estonian', 'Ewe', 'Faroese', 'Fijian', 'Finnish', 'French', 'Western Frisian', 'Fulah', 'Gaelic, Scottish Gaelic', 'Galician', 'Ganda', 'Georgian', 'German', 'Greek, Modern (1453–)', 'Kalaallisut, Greenlandic', 'Guarani', 'Gujarati', 'Haitian, Haitian Creole', 'Hausa', 'Hebrew', 'Herero', 'Hindi', 'Hiri Motu', 'Hungarian', 'Icelandic', 'Ido', 'Igbo', 'Indonesian', 'Interlingua (International Auxiliary Language Association)', 'Interlingue, Occidental', 'Inuktitut', 'Inupiaq', 'Irish', 'Italian', 'Japanese', 'Javanese', 'Kannada', 'Kanuri', 'Kashmiri', 'Kazakh', 'Central Khmer', 'Kikuyu, Gikuyu', 'Kinyarwanda', 'Kirghiz, Kyrgyz', 'Komi', 'Kongo', 'Korean', 'Kuanyama, Kwanyama', 'Kurdish', 'Lao', 'Latin', 'Latvian', 'Limburgan, Limburger, Limburgish', 'Lingala', 'Lithuanian', 'Luba-Katanga', 'Luxembourgish, Letzeburgesch', 'Macedonian', 'Malagasy', 'Malay', 'Malayalam', 'Maltese', 'Manx', 'Maori', 'Marathi', 'Marshallese', 'Mongolian', 'Nauru', 'Navajo, Navaho', 'North Ndebele', 'South Ndebele', 'Ndonga', 'Nepali', 'Norwegian', 'Norwegian Bokmål', 'Norwegian Nynorsk', 'Sichuan Yi, Nuosu', 'Occitan', 'Ojibwa', 'Oriya', 'Oromo', 'Ossetian, Ossetic', 'Pali', 'Pashto, Pushto', 'Persian', 'Polish', 'Portuguese', 'Punjabi, Panjabi', 'Quechua', 'Romanian, Moldavian, Moldovan', 'Romansh', 'Rundi', 'Russian', 'Northern Sami', 'Samoan', 'Sango', 'Sanskrit', 'Sardinian', 'Serbian', 'Shona', 'Sindhi', 'Sinhala, Sinhalese', 'Slovak', 'Slovenian', 'Somali', 'Southern Sotho', 'Spanish, Castilian', 'Sundanese', 'Swahili', 'Swati', 'Swedish', 'Tagalog', 'Tahitian', 'Tajik', 'Tamil', 'Tatar', 'Telugu', 'Thai', 'Tibetan', 'Tigrinya', 'Tonga (Tonga Islands)', 'Tsonga', 'Tswana', 'Turkish', 'Turkmen', 'Twi', 'Uighur, Uyghur', 'Ukrainian', 'Urdu', 'Uzbek', 'Venda', 'Vietnamese', 'Volapük', 'Walloon', 'Welsh', 'Wolof', 'Xhosa', 'Yiddish', 'Yoruba', 'Zhuang, Chuang', 'Zulu']
    
    lang_dict = {key : lan for (key, lan) in zip(keys, langs)}
    
    return lang_dict[detect(text)]

시도해 보겠습니다.

>>> get_language("Ich liebe meine Frau")

... 'German'

저는 그곳에 있는 모든 도서관들을 시도해 보았고, 저는 pycld2가 빠르고 정확한 최고의 도서관이라고 결론지었습니다.

다음과 같이 설치할 수 있습니다.

python -m pip install -U pycld2

다음과 같이 사용할 수 있습니다.

isReliable, textBytesFound, details = cld2.detect(your_sentence)

print(isReliable, details[0][1]) # reliablity(bool),lang abbrev.(en/es/de...)   

저는 끝까지 lingua.py 라고 말할 것입니다.그것은 보다 훨씬 빠르고 정확합니다.fasttext분명히 여기에 나열될 자격이 있습니다.

설치

poety add lingua-language-detector

사용.

from typing import List
from lingua.language import Language
from lingua.builder import LanguageDetectorBuilder
languages: List[Language] = [Language.ENGLISH, Language.TURKISH, Language.PERSIAN]
detector = LanguageDetectorBuilder.from_languages(*languages).build()

if __name__ == "__main__":
    print(detector.detect_language_of("Ben de iyiyim. Tesekkurler.")) # Language.TURKISH
    print(detector.detect_language_of("I'm fine and you?")) # Language.ENGLISH
    print(detector.detect_language_of("حال من خوبه؟ شما چطورید؟")) # Language.PERSIAN

언급URL : https://stackoverflow.com/questions/39142778/how-to-determine-the-language-of-a-piece-of-text

반응형