Boshiamy IME – проще пареной репы!

Boshiamy IME – проще пареной репы!

Наверное, в давнем споре «Что же всё-таки лучше, структурные или фонетические методы ввода иероглифов?» никогда нельзя будет окончательно поставить точку. Большое количество иероглифов (13 тыс.) в символьном наборе Big5 породило разнообразное число структурных методов ввода, особенно развитых на Тайване. Классическим и наиболее известным из структурных методов ввода китайских иероглифов является метод Cang Jie (倉頡). Однако помимо структурных и фонетических методов ввода существует ещё и промежуточная категория – структурно-фонетические методы ввода. Типичным представителем этого класса систем ввода является метод Boshiamy (嘸蝦米). О нём я и хотел бы рассказать сегодня.

Метод комбинированного структурно-фонетического кодирования иероглифов и их ввода – Boshiamy был разработан на Тайване человеком по имени Лю Чжунцы (劉重次). Приводимый многими авторами перевод названия этого метода ввода означает что-то вроде: «очень просто, как рис без крабового мяса», но русскому человеку, даже без знаний различных китайских идиом, на родном языке приходит в голову лишь один меткий эквивалент – «проще пареной репы». Что ж, звучит интригующе…

Для многих уже существовавших в то время (90-ые годы) структурных методов было типично одно общее неудобство – большое количество значимых кодирующих графем и малое количество клавиш для их раздельного ввода. То есть необходимо было запоминать несколько графем для одной клавиши. В среднем, для Cang Jie этот параметр равен примерно 2–3 графемам на одну клавишу, что, кстати, является одним из самых минимальных показателей, чем, собственно, и нравится многим пользователям эта система структурного ввода. Принципиально по другому пути пошёл изобретатель системы Boshiamy. Здесь мнемоническая расстановка клавиш для ввода графем изначально идёт по пути трёх (а точнее – даже четырёх) принципиально различных направлений:

  • сходство графемы и буквы латинского алфавита в различных вариантах поворота;
  • первая латинская буква от стандартной транскрипции иероглифа (графемы), либо от совпадения звучания английской буквы и китайского чтения иероглифа (графемы);
  • первая буква от смыслового перевода иероглифа или графемы на английский язык.

Необходимо отметить, что слабые попытки частично «подвесить» мнемонику графемы на схожесть внешнего вида букв латиницы либо на первые буквы некоторых английских смысловых значений иероглифов я подмечал ещё в другой тайваньской системе структурного кодирования и ввода – DaYi (大易).

Первая характерная особенность метода Boshiamy – стремление представить одной буквой латинского алфавита как можно большее число распространённых простых и сложных графем либо фонетиков. То есть там, где Cang Jie будет честно разбивать на части какой-нибудь часто употребляемый составной иероглиф, в системе Boshiamy он будет попросту заменён одной единственной буквой, например, от первой буквы транскрипции на пиньинь, а точнее — Gwoyeu Romatzyh. Это приводит к компактности кодирования, а также к отчасти обоснованной причине называть всё это структурно-фонетическим методом. Хотя, если быть предельно точными, то классифицировать этот метод нужно так – структурно-фонетико-смысловое кодирование китайского иероглифа. Всего максимальная длина строки в этом методе кодирования – до четырёх символов включительно. Таким образом, в максимуме заполнения ёмкости кодирования, на один иероглиф мы имеем следующий расклад: меньшая часть или половина символов идёт на ключ, остальные идут на неключевой знак (фонетик). Структурно подавляющее число наиболее общеупотребительных составных иероглифов может быть представлено формулой: КЛЮЧ+(ЧАСТЬ1+ЧАСТЬ2). Поэтому такая ёмкость и такой подход кодирования являются оптимальными.

Вторая особенность – дополнительное кодирование для знаков, которые уже сами по себе являются одиночными простыми значимыми графемами метода Boshiamy. То есть кодирование иероглифа одним знаком здесь запрещается, поэтому всегда необходим добавочный знак, кодирующий завершающую черту или финальную графему в последовательности начертания иероглифа. Это же правило распространяется и на иероглифы, кодируемые лишь 2 знаками. Таким образом, в среднем, на кодирование одного иероглифа приходится число знаков от 2 до 4. Скорее всего, среднее значение лежит где-то между 3 и 4, ближе к 3. В кодировании используются только 26 символов латиницы. Вот таблица расстановки графем:

Boshiamy IME - таблица расстановки графем

Помимо самóй системы ввода, в Boshiamy также продумана сортировка и уделено много внимания вводу наиболее часто употребляемых знаков. Так иероглифы для всех числительных (1–10) и суффикс -de (的) занимают «почётные» первые места на клавиатуре и в списке выбора иероглифов для ввода. Ввод методом Boshiamy имеет поддержку хираганы и катаканы (зачем?), которые появляются в верхней позиции в списке выбора. Для ввода каны чаще всего нужны просто два нажатия: согласный и гласный, как в наборе способом Romaji. Примеры кодирования, основанного на сходстве внешнего вида иероглифов и латинских букв:

哈 = OAO

命 = AOP

吃 = OVZ

Примеры кодирования, основанного на произношении:

(bo(po))-> B = (半, 不, 比)

(po(p’o))-> P = (皮, 平, 片)

(mo) -> M = (米, 目, 毛)

(fo) -> F = (方, 飛, 丰)

Для определённых знаков звучание записывается не из бопомофо, а в соответствии с произношением некоторых английских букв, с которым совпадает чтение иероглифа.

Примеры кодирования, основанного на смысловом значении графемы:

轟 = CCC (Car)

森 = TTT (Tree)

淼 = WWW (Water)

焱 = FFF (Fire)

Пример декомпозиции сложного знака на составляющие графемы:

粉 = 米 (M) 八 (B) 刀 (D) = MBD

票 = 西 (C) 二 (R) 小 (S) = CRS

移 = 禾 (H) 夕 (C) 夕 (C) = HCC

覡 = 巫 (W) 目 (M) 儿 (R) = WMR

Сложные иероглифы с числом кодирующих графем более четырёх вводятся по принципу первые три + последний:

聽 = 耳 (R) 王 (K) 十 (J) 心 (H)

歡 = 廿 (R) 口 (O) 口 (O) 欠 (I)

Иероглифы, которые не могут быть введены тремя и более графемами должны сопровождаться в конце дополнительной кодирующей графемой, связанной с завершающей знак иероглифической чертой или графемой.

月 = U + last stroke 一 (E) → UE

思 = 田 (Q) + 心 (H) + last stroke 、 (A) → QHA

Вот и все правила кодирования.

А вообще, метод достаточно интересен с точки зрения разработки новых систем кодирования иероглифов для различных IME. Мнемоническая расстановка символов для каждой графемы по нескольким абсолютно не взаимосвязанным между собой позициям: китайское чтение, английское звучание, английский смысл, схожесть с буквами латиницы, приводит к максимально равномерному использованию кодирующего алфавита, без каких либо перекосов и сгущений неоднозначности кодирования для некоторых, графически похожих между собой иероглифов. К тому же, такой подход очень удобно и равномерно упорядочивает количество графем для ввода, на одной клавише.

Основной сайт, посвящённый этому методу ввода — www.boshiamy.com.

Вот такая система. Сказать, что она удобная – довольно сложно. Но простота определённо присутствует. Однако тут сразу нужно знать и порядок начертания, и основные чтения иероглифов в тайваньской транскрипции, ну и английский язык также необходимо подучить для успешного освоения описываемого метода ввода. Вообще, на русском языке найти статью про этот метод ввода было довольно трудно. Поскольку автор этих строк таковой не нашёл, то решил поделиться с читателями информацией о таком интересном методе ввода – Boshiamy - здесь, на страничках Магазеты.

comments powered by HyperComments

Orphus: Нашли опечатку? Нажмите Ctrl+Enter

Автор: WERTA

Фанат грамоты на кiтайскiхъ знакахъ. Родился в 1977 г. Проживаю в РФ. Интерес к китайскому я зыку и культуре внезапно проснулся в 1997 г. Особенно интересует меня все, что касается: международных стандартов CJKV унификации, кодировок, методов ввода, схем романизации и общей фонологии основных кит. диалектных групп. За границей не был, КНР не посещал. Опыта языкового общения с носителями китайского языка не имею. Перевел в 2011 г. c традиционного китайского на русский язык компьютерную игру 殖民計劃 — Colonial Project (DOS, RTS, 1996, T-Time Corp.).

Александр Мальцев
2014-01-07 18:40:23
<p>Он мог бы пригодится и в Гонконге. У них там много придуманных иероглифов кантонского диалекта, правда они уже приноровились английские буквы использовать (наприме "o的" вместо 啲), хотя сейчас может быть ситуация другая. Более продвинутые раскладки есть.</p>
Александр Мальцев
2014-01-07 15:22:56
<p>Ну это вообще взрыв мозга! Идея крута и так далека от реальности. Интересно, сколько активных пользователей у нее?</p>
WERTA
2014-01-07 15:35:49
Идея действительно очень притягательна. Из всех "экзотичных" тайваньских методов ввода этот мне наиболее приглянулся. Насчёт числа активных пользователей - трудно сказать. В WinХР в штатных раскладках для трад. китайского такого метода нет. В Win7 не проверял. Возможно на Маках этот метод более широко известен. Ну, и разумеется, дальше Тайваня он не распространён.
Полина Струкова
2014-01-07 16:15:36
<p>Давным-давно на полке среди множества книг у меня стояло загадочное "Семантическое кодирование иноязычных текстов". Там были формулы, схемы и много логики. Здесь тоже. Круто! :)</p>
Infusiastic
2014-01-09 08:00:20
<p>Спасибо большое, очень интересно!</p>