Kaynağa Gözat

docs: Auto-translate documentation changes by tomatolog

github-actions[bot] 1 hafta önce
ebeveyn
işleme
ce9cfbf652

Dosya farkı çok büyük olduğundan ihmal edildi
+ 0 - 0
.translation-cache/Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md.json


+ 67 - 65
manual/chinese/Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md

@@ -1,12 +1,12 @@
 # 忽略停用词
 
-停用词是在索引和搜索过程中被忽略的词,通常由于其高频率且对搜索结果价值较低。
+停用词是在索引和搜索过程中被忽略的词,通常由于它们出现频率高且对搜索结果价值低。
 
-Manticore Search 默认对停用词应用[词干提取](../../Creating_a_table/NLP_and_tokenization/Morphology.md),这可能导致不理想的结果,但可以通过使用[stopwords_unstemmed](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopwords_unstemmed)关闭此功能。
+Manticore Search 默认对停用词应用[词干提取](../../Creating_a_table/NLP_and_tokenization/Morphology.md),这可能导致不理想的结果,但可以通过使用[stopwords_unstemmed](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopwords_unstemmed)关闭此功能。
 
-小型停用词文件存储在表头中,嵌入文件大小有限制,该限制由[embedded_limit](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#embedded_limit)选项定义。
+小型停用词文件存储在表头中,嵌入文件大小有限制,该限制由[embedded_limit](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#embedded_limit)选项定义。
 
-停用词不被索引,但会影响关键词的位置。例如,如果“the”是停用词,文档1包含短语“in office”,而文档2包含短语“in the office”,搜索“in office”作为精确短语时只会返回第一个文档,尽管第二个文档中的“the”作为停用词被跳过。此行为可以通过[stopword_step](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopword_step)指令进行修改。
+停用词不被索引,但它们会影响关键词的位置。例如,如果“the”是停用词,文档1包含短语“in office”,而文档2包含短语“in the office”,那么搜索“in office”作为精确短语只会返回第一个文档,即使第二个文档中的“the”被跳过作为停用词。此行为可以通过[stopword_step](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopword_step)指令进行修改。
 
 ## stopwords
 
@@ -15,11 +15,13 @@ stopwords=path/to/stopwords/file[ path/to/another/file ...]
 ```
 
 <!-- example stopwords -->
-stopwords 设置是可选的,默认为空。它允许你指定一个或多个停用词文件的路径,路径之间用空格分隔。所有文件都会被加载。在实时模式下,只允许使用绝对路径。
+stopwords 设置是可选的,默认为空。它允许你指定一个或多个停用词文件的路径,文件路径用空格分隔。所有文件都会被加载。在实时模式下,只允许使用绝对路径。
 
-停用词文件格式为简单的 UTF-8 编码纯文本。文件数据将根据[charset_table](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#charset_table)设置进行分词,因此你可以使用与索引数据相同的分隔符。
+停用词文件格式是简单的 UTF-8 编码的纯文本。文件数据将根据[charset_table](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#charset_table)设置进行分词,因此你可以使用与索引数据相同的分隔符。
 
-停用词文件可以手动或半自动创建。[indexer](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-tool) 提供了一个模式,可以创建按关键词频率排序的表频率字典。该字典中的热门关键词通常可以用作停用词。详情请参见[--buildstops](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-command-line-arguments)和[--buildfreqs](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-command-line-arguments)开关。该字典中的热门关键词通常可以用作停用词。
+当[ngram_len](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#ngram_len)索引生效时,由归入[ngram_chars](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#ngram_chars)的字符组成的停用词本身会被分解成N-gram。因此,每个单独的N-gram成为一个独立的停用词。例如,对于`ngram_len=1`和合适的`ngram_chars`,停用词`test`将被解释为`t`、`e`、`s`、`t`四个不同的停用词。
+
+停用词文件可以手工创建或半自动创建。[indexer](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-tool) 提供了一个模式,可以创建按关键词频率排序的频率词典。通常可以使用该词典中的高频关键词作为停用词。详情请参见[--buildstops](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-command-line-arguments)和[--buildfreqs](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-command-line-arguments)开关。通常可以使用该词典中的高频关键词作为停用词。
 
 
 <!-- intro -->
@@ -115,61 +117,61 @@ table products {
 ```
 <!-- end -->
 
-或者你可以使用 Manticore 自带的默认停用词文件。目前提供了50种语言的停用词。以下是它们的完整别名列表:
-
-* af - 南非荷兰语
-* ar - 阿拉伯语
-* bg - 保加利亚语
-* bn - 孟加拉语
-* ca - 加泰罗尼亚语
-* ckb- 库尔德语
-* cz - 捷克语
-* da - 丹麦语
-* de - 德语
-* el - 希腊语
-* en - 英语
-* eo - 世界语
-* es - 西班牙语
-* et - 爱沙尼亚语
-* eu - 巴斯克语
-* fa - 波斯语
-* fi - 芬兰语
-* fr - 法语
-* ga - 爱尔兰语
-* gl - 加利西亚语
-* hi - 印地语
-* he - 希伯来语
-* hr - 克罗地亚语
-* hu - 匈牙利语
-* hy - 亚美尼亚语
-* id - 印度尼西亚语
-* it - 意大利语
-* ja - 日语
-* ko - 韩语
-* la - 拉丁语
-* lt - 立陶宛语
-* lv - 拉脱维亚语
-* mr - 马拉地语
-* nl - 荷兰语
-* no - 挪威语
-* pl - 波兰语
-* pt - 葡萄牙语
-* ro - 罗马尼亚语
-* ru - 俄语
-* sk - 斯洛伐克语
-* sl - 斯洛文尼亚语
-* so - 索马里语
-* st - 索托语
-* sv - 瑞典语
-* sw - 斯瓦希里语
-* th - 泰语
-* tr - 土耳其语
-* yo - 约鲁巴语
-* zh - 中文
-* zu - 祖鲁语
+或者你可以使用 Manticore 自带的默认停用词文件。目前已有50种语言的停用词可用。以下是它们的别名完整列表:
+
+* af - 南非荷兰语(Afrikaans)
+* ar - 阿拉伯语(Arabic)
+* bg - 保加利亚语(Bulgarian)
+* bn - 孟加拉语(Bengali)
+* ca - 加泰罗尼亚语(Catalan)
+* ckb - 库尔德语(Kurdish)
+* cz - 捷克语(Czech)
+* da - 丹麦语(Danish)
+* de - 德语(German)
+* el - 希腊语(Greek)
+* en - 英语(English)
+* eo - 世界语(Esperanto)
+* es - 西班牙语(Spain)
+* et - 爱沙尼亚语(Estonian)
+* eu - 巴斯克语(Basque)
+* fa - 波斯语(Persian)
+* fi - 芬兰语(Finnish)
+* fr - 法语(French)
+* ga - 爱尔兰语(Irish)
+* gl - 加利西亚语(Galician)
+* hi - 印地语(Hindi)
+* he - 希伯来语(Hebrew)
+* hr - 克罗地亚语(Croatian)
+* hu - 匈牙利语(Hungarian)
+* hy - 亚美尼亚语(Armenian)
+* id - 印度尼西亚语(Indonesian)
+* it - 意大利语(Italian)
+* ja - 日语(Japanese)
+* ko - 韩语(Korean)
+* la - 拉丁语(Latin)
+* lt - 立陶宛语(Lithuanian)
+* lv - 拉脱维亚语(Latvian)
+* mr - 马拉地语(Marathi)
+* nl - 荷兰语(Dutch)
+* no - 挪威语(Norwegian)
+* pl - 波兰语(Polish)
+* pt - 葡萄牙语(Portuguese)
+* ro - 罗马尼亚语(Romanian)
+* ru - 俄语(Russian)
+* sk - 斯洛伐克语(Slovak)
+* sl - 斯洛文尼亚语(Slovenian)
+* so - 索马里语(Somali)
+* st - 索托语(Sotho)
+* sv - 瑞典语(Swedish)
+* sw - 斯瓦希里语(Swahili)
+* th - 泰语(Thai)
+* tr - 土耳其语(Turkish)
+* yo - 约鲁巴语(Yoruba)
+* zh - 中文(Chinese)
+* zu - 祖鲁语(Zulu)
 
 <!-- example stopwords 1 -->
-例如,要使用意大利语的停用词,只需在配置文件中添加以下行:
+例如,要使用意大利语的停用词,只需在配置文件中添加以下行:
 
 
 <!-- intro -->
@@ -265,7 +267,7 @@ table products {
 <!-- end -->
 
 <!-- example stopwords 2 -->
-如果你需要使用多种语言的停用词,应列出所有别名,RT模式下用逗号分隔,普通模式下用空格分隔:
+如果需要使用多种语言的停用词,应将所有语言别名列出,用逗号(RT模式)或空格(普通模式)分隔:
 
 
 <!-- intro -->
@@ -367,7 +369,7 @@ stopword_step={0|1}
 ```
 
 <!-- example stopword_step -->
-[stopwords](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopwords) 的 position_increment 设置是可选的,允许的值为0和1,默认值为1。
+[stopwords](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopwords) 的 position_increment 设置是可选的,允许的值为 0  1,默认值为 1。
 
 
 <!-- intro -->
@@ -471,11 +473,11 @@ stopwords_unstemmed={0|1}
 ```
 
 <!-- example stopwords_unstemmed -->
-Whether to apply stop words before or after stemming. Optional, default is 0 (apply stop word filter after stemming).
+是否在词干提取之前或之后应用停用词。可选,默认值为 0(在词干提取之后应用停用词过滤器)。
 
-By default, stop words are stemmed themselves, and then applied to tokens *after* stemming (or any other morphology processing). This means that a token is stopped when stem(token) is equal to stem(stopword). This default behavior can lead to unexpected results when a token is erroneously stemmed to a stopped root. For example, "Andes" might get stemmed to "and", so when "and" is a stopword, "Andes" is also skipped.
+默认情况下,停用词本身会被词干化,然后应用于词干化(或其他形态处理)之后的标记。这意味着当 stem(token) 等于 stem(stopword) 时,该标记会被停用。这个默认行为可能会导致当一个标记被错误地词干化到一个被停用的词根时出现意外结果。例如,“Andes” 可能会被词干化为 “and”,所以当 “and” 是停用词时,“Andes” 也会被跳过。
 
-However, you can change this behavior by enabling the `stopwords_unstemmed` directive. When this is enabled, stop words are applied before stemming (and therefore to the original word forms), and the tokens are skipped when the token is equal to the stopword.
+然而,你可以通过启用 `stopwords_unstemmed` 指令来改变这种行为。当启用此功能时,停用词会在词干提取之前应用(因此作用于原始单词形式),当标记等于停用词时会被跳过。
 
 <!-- intro -->
 ##### SQL:

+ 66 - 64
manual/russian/Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md

@@ -1,12 +1,12 @@
 # Игнорирование стоп-слов
 
-Стоп-слова — это слова, которые игнорируются при индексировании и поиске, обычно из-за их высокой частоты и низкой значимости для результатов поиска.
+Стоп-слова — это слова, которые игнорируются при индексации и поиске, обычно из-за их высокой частоты и низкой ценности для результатов поиска.
 
-Manticore Search по умолчанию применяет [стемминг](../../Creating_a_table/NLP_and_tokenization/Morphology.md) к стоп-словам, что может приводить к нежелательным результатам, но это можно отключить с помощью параметра [stopwords_unstemmed](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopwords_unstemmed).
+Manticore Search по умолчанию применяет [стемминг](../../Creating_a_table/NLP_and_tokenization/Morphology.md) к стоп-словам, что может привести к нежелательным результатам, но это можно отключить с помощью [stopwords_unstemmed](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopwords_unstemmed).
 
-Небольшие файлы стоп-слов хранятся в заголовке таблицы, и существует ограничение на размер файлов, которые могут быть встроены, определяемое опцией [embedded_limit](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#embedded_limit).
+Небольшие файлы со стоп-словами хранятся в заголовке таблицы, и существует ограничение на размер файлов, которые могут быть встроены, как определено в опции [embedded_limit](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#embedded_limit).
 
-Стоп-слова не индексируются, но они влияют на позиции ключевых слов. Например, если "the" является стоп-словом, и документ 1 содержит фразу "in office", а документ 2 — фразу "in the office", поиск точной фразы "in office" вернёт только первый документ, даже несмотря на то, что "the" пропускается как стоп-слово во втором документе. Это поведение можно изменить с помощью директивы [stopword_step](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopword_step).
+Стоп-слова не индексируются, но они влияют на позиции ключевых слов. Например, если "the" является стоп-словом, и документ 1 содержит фразу "in office", а документ 2 содержит фразу "in the office", поиск точной фразы "in office" вернет только первый документ, хотя "the" пропускается как стоп-слово во втором документе. Это поведение можно изменить с помощью директивы [stopword_step](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopword_step).
 
 ## stopwords
 
@@ -15,11 +15,13 @@ stopwords=path/to/stopwords/file[ path/to/another/file ...]
 ```
 
 <!-- example stopwords -->
-Параметр stopwords является необязательным и по умолчанию пуст. Он позволяет указать путь к одному или нескольким файлам стоп-слов, разделённым пробелами. Все файлы будут загружены. В режиме реального времени разрешены только абсолютные пути.
+Параметр stopwords является необязательным и по умолчанию пуст. Он позволяет указать путь к одному или нескольким файлам со стоп-словами, разделяя их пробелами. Все файлы будут загружены. В режиме реального времени допускаются только абсолютные пути.
 
-Формат файла стоп-слов — простой текст с кодировкой UTF-8. Данные файла будут токенизироваться с учётом настроек [charset_table](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#charset_table), поэтому можно использовать те же разделители, что и в индексируемых данных.
+Формат файлов со стоп-словами — простой текст с кодировкой UTF-8. Данные файла будут токенизироваться в соответствии с настройками [charset_table](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#charset_table), поэтому вы можете использовать те же разделители, что и в индексируемых данных.
 
-Файлы стоп-слов можно создавать вручную или полуавтоматически. [Индексатор](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-tool) предоставляет режим, который создаёт частотный словарь таблицы, отсортированный по частоте ключевых слов. Верхние ключевые слова из этого словаря обычно можно использовать как стоп-слова. Подробнее см. переключатели [--buildstops](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-command-line-arguments) и [--buildfreqs](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-command-line-arguments). Верхние ключевые слова из этого словаря обычно можно использовать как стоп-слова.
+Когда активен индекс [ngram_len](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#ngram_len), стоп-слова, состоящие из символов, которые входят в [ngram_chars](../../Creating_a_table/NLP_and_tokenization/Low-level_tokenization.md#ngram_chars), сами разбиваются на N-граммы. Таким образом, каждая отдельная N-грамма становится отдельным стоп-словом. Например, при `ngram_len=1` и подходящих `ngram_chars`, стоп-слово `test` будет интерпретироваться как четыре разных стоп-слова: `t`, `e`, `s`, `t`.
+
+Файлы со стоп-словами можно создавать вручную или полуавтоматически. [Indexer](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-tool) предоставляет режим, который создает словарь частот по таблице, отсортированный по частоте ключевых слов. Топ ключевых слов из этого словаря обычно можно использовать в качестве стоп-слов. Подробнее смотрите переключатели [--buildstops](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-command-line-arguments) и [--buildfreqs](../../Data_creation_and_modification/Adding_data_from_external_storages/Plain_tables_creation.md#Indexer-command-line-arguments). Топ ключевых слов из этого словаря обычно можно использовать в качестве стоп-слов.
 
 
 <!-- intro -->
@@ -115,58 +117,58 @@ table products {
 ```
 <!-- end -->
 
-В качестве альтернативы можно использовать один из стандартных файлов стоп-слов, поставляемых с Manticore. В настоящее время доступны стоп-слова для 50 языков. Вот полный список их псевдонимов:
-
-* af - африкаанс
-* ar - арабский
-* bg - болгарский
-* bn - бенгальский
-* ca - каталанский
-* ckb - курдский
-* cz - чешский
-* da - датский
-* de - немецкий
-* el - греческий
-* en - английский
-* eo - эсперанто
-* es - испанский
-* et - эстонский
-* eu - баскский
-* fa - персидский
-* fi - финский
-* fr - французский
-* ga - ирландский
-* gl - галисийский
-* hi - хинди
-* he - иврит
-* hr - хорватский
-* hu - венгерский
-* hy - армянский
-* id - индонезийский
-* it - итальянский
-* ja - японский
-* ko - корейский
-* la - латинский
-* lt - литовский
-* lv - латышский
-* mr - маратхи
-* nl - нидерландский
-* no - норвежский
-* pl - польский
-* pt - португальский
-* ro - румынский
-* ru - русский
-* sk - словацкий
-* sl - словенский
-* so - сомалийский
-* st - сото
-* sv - шведский
-* sw - суахили
-* th - тайский
-* tr - турецкий
-* yo - йоруба
-* zh - китайский
-* zu - зулу
+Также вы можете использовать один из стандартных файлов со стоп-словами, которые идут в комплекте с Manticore. В настоящее время доступны стоп-слова для 50 языков. Вот полный список их псевдонимов:
+
+* af - Африкаанс
+* ar - Арабский
+* bg - Болгарский
+* bn - Бенгальский
+* ca - Каталонский
+* ckb- Курдский
+* cz - Чешский
+* da - Датский
+* de - Немецкий
+* el - Греческий
+* en - Английский
+* eo - Эсперанто
+* es - Испанский
+* et - Эстонский
+* eu - Баскский
+* fa - Персидский
+* fi - Финский
+* fr - Французский
+* ga - Ирландский
+* gl - Галисийский
+* hi - Хинди
+* he - Иврит
+* hr - Хорватский
+* hu - Венгерский
+* hy - Армянский
+* id - Индонезийский
+* it - Итальянский
+* ja - Японский
+* ko - Корейский
+* la - Латинский
+* lt - Литовский
+* lv - Латышский
+* mr - Маратхи
+* nl - Голландский
+* no - Норвежский
+* pl - Польский
+* pt - Португальский
+* ro - Румынский
+* ru - Русский
+* sk - Словацкий
+* sl - Словенский
+* so - Сомалийский
+* st - Сото
+* sv - Шведский
+* sw - Свахили
+* th - Тайский
+* tr - Турецкий
+* yo - Йоруба
+* zh - Китайский
+* zu - Зулу
 
 <!-- example stopwords 1 -->
 Например, чтобы использовать стоп-слова для итальянского языка, просто добавьте следующую строку в ваш конфигурационный файл:
@@ -265,7 +267,7 @@ table products {
 <!-- end -->
 
 <!-- example stopwords 2 -->
-Если необходимо использовать стоп-слова для нескольких языков, перечислите все их псевдонимы, разделённые запятыми (в режиме RT) или пробелами (в обычном режиме):
+Если вам нужно использовать стоп-слова для нескольких языков, перечислите все их псевдонимы, разделяя запятыми (RT режим) или пробелами (plain режим):
 
 
 <!-- intro -->
@@ -367,7 +369,7 @@ stopword_step={0|1}
 ```
 
 <!-- example stopword_step -->
-Параметр position_increment в [stopwords](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopwords) является необязательным, допустимые значения — 0 и 1, по умолчанию 1.
+Параметр position_increment в [stopwords](../../Creating_a_table/NLP_and_tokenization/Ignoring_stop-words.md#stopwords) является необязательным, а допустимые значения — 0 и 1, при этом значение по умолчанию 1.
 
 
 <!-- intro -->
@@ -471,11 +473,11 @@ stopwords_unstemmed={0|1}
 ```
 
 <!-- example stopwords_unstemmed -->
-Whether to apply stop words before or after stemming. Optional, default is 0 (apply stop word filter after stemming).
+Применять ли стоп-слова до или после стемминга. Необязательно, значение по умолчанию — 0 (применять фильтр стоп-слов после стемминга).
 
-By default, stop words are stemmed themselves, and then applied to tokens *after* stemming (or any other morphology processing). This means that a token is stopped when stem(token) is equal to stem(stopword). This default behavior can lead to unexpected results when a token is erroneously stemmed to a stopped root. For example, "Andes" might get stemmed to "and", so when "and" is a stopword, "Andes" is also skipped.
+По умолчанию стоп-слова также подвергаются стеммингу, а затем применяются к токенам *после* стемминга (или любой другой морфологической обработки). Это означает, что токен блокируется, когда stem(token) равен stem(stopword). Такое поведение по умолчанию может привести к неожиданным результатам, когда токен ошибочно стеммится до корня, который является стоп-словом. Например, слово "Andes" может стеммиться до "and", поэтому, когда "and" является стоп-словом, "Andes" тоже пропускается.
 
-However, you can change this behavior by enabling the `stopwords_unstemmed` directive. When this is enabled, stop words are applied before stemming (and therefore to the original word forms), and the tokens are skipped when the token is equal to the stopword.
+Однако вы можете изменить это поведение, включив директиву `stopwords_unstemmed`. Если она включена, стоп-слова применяются до стемминга (то есть к исходным формам слов), и токены пропускаются, когда токен равен стоп-слову.
 
 <!-- intro -->
 ##### SQL:

Bu fark içinde çok fazla dosya değişikliği olduğu için bazı dosyalar gösterilmiyor