Наверное, в давнем споре «Что же всё-таки лучше, структурные или фонетические методы ввода иероглифов?» никогда нельзя будет окончательно поставить точку. Большое количество иероглифов (13 тыс.) в символьном наборе Big5 породило разнообразное число структурных методов ввода, особенно развитых на Тайване. Классическим и наиболее известным из структурных методов ввода китайских иероглифов является метод Cang Jie (倉頡). Однако помимо структурных и фонетических методов ввода существует ещё и промежуточная категория – структурно-фонетические методы ввода. Типичным представителем этого класса систем ввода является метод Boshiamy (嘸蝦米). О нём я и хотел бы рассказать сегодня.
Метод комбинированного структурно-фонетического кодирования иероглифов и их ввода – Boshiamy был разработан на Тайване человеком по имени Лю Чжунцы (劉重次). Приводимый многими авторами перевод названия этого метода ввода означает что-то вроде: «очень просто, как рис без крабового мяса», но русскому человеку, даже без знаний различных китайских идиом, на родном языке приходит в голову лишь один меткий эквивалент – «проще пареной репы». Что ж, звучит интригующе…
Для многих уже существовавших в то время (90-ые годы) структурных методов было типично одно общее неудобство – большое количество значимых кодирующих графем и малое количество клавиш для их раздельного ввода. То есть необходимо было запоминать несколько графем для одной клавиши. В среднем, для Cang Jie этот параметр равен примерно 2–3 графемам на одну клавишу, что, кстати, является одним из самых минимальных показателей, чем, собственно, и нравится многим пользователям эта система структурного ввода. Принципиально по другому пути пошёл изобретатель системы Boshiamy. Здесь мнемоническая расстановка клавиш для ввода графем изначально идёт по пути трёх (а точнее – даже четырёх) принципиально различных направлений:
- сходство графемы и буквы латинского алфавита в различных вариантах поворота;
- первая латинская буква от стандартной транскрипции иероглифа (графемы), либо от совпадения звучания английской буквы и китайского чтения иероглифа (графемы);
- первая буква от смыслового перевода иероглифа или графемы на английский язык.
Необходимо отметить, что слабые попытки частично «подвесить» мнемонику графемы на схожесть внешнего вида букв латиницы либо на первые буквы некоторых английских смысловых значений иероглифов я подмечал ещё в другой тайваньской системе структурного кодирования и ввода – DaYi (大易).
Первая характерная особенность метода Boshiamy – стремление представить одной буквой латинского алфавита как можно большее число распространённых простых и сложных графем либо фонетиков. То есть там, где Cang Jie будет честно разбивать на части какой-нибудь часто употребляемый составной иероглиф, в системе Boshiamy он будет попросту заменён одной единственной буквой, например, от первой буквы транскрипции на пиньинь, а точнее — Gwoyeu Romatzyh. Это приводит к компактности кодирования, а также к отчасти обоснованной причине называть всё это структурно-фонетическим методом. Хотя, если быть предельно точными, то классифицировать этот метод нужно так – структурно-фонетико-смысловое кодирование китайского иероглифа. Всего максимальная длина строки в этом методе кодирования – до четырёх символов включительно. Таким образом, в максимуме заполнения ёмкости кодирования, на один иероглиф мы имеем следующий расклад: меньшая часть или половина символов идёт на ключ, остальные идут на неключевой знак (фонетик). Структурно подавляющее число наиболее общеупотребительных составных иероглифов может быть представлено формулой: КЛЮЧ+(ЧАСТЬ1+ЧАСТЬ2). Поэтому такая ёмкость и такой подход кодирования являются оптимальными.
Вторая особенность – дополнительное кодирование для знаков, которые уже сами по себе являются одиночными простыми значимыми графемами метода Boshiamy. То есть кодирование иероглифа одним знаком здесь запрещается, поэтому всегда необходим добавочный знак, кодирующий завершающую черту или финальную графему в последовательности начертания иероглифа. Это же правило распространяется и на иероглифы, кодируемые лишь 2 знаками. Таким образом, в среднем, на кодирование одного иероглифа приходится число знаков от 2 до 4. Скорее всего, среднее значение лежит где-то между 3 и 4, ближе к 3. В кодировании используются только 26 символов латиницы. Вот таблица расстановки графем:
Помимо самóй системы ввода, в Boshiamy также продумана сортировка и уделено много внимания вводу наиболее часто употребляемых знаков. Так иероглифы для всех числительных (1–10) и суффикс -de (的) занимают «почётные» первые места на клавиатуре и в списке выбора иероглифов для ввода. Ввод методом Boshiamy имеет поддержку хираганы и катаканы (зачем?), которые появляются в верхней позиции в списке выбора. Для ввода каны чаще всего нужны просто два нажатия: согласный и гласный, как в наборе способом Romaji. Примеры кодирования, основанного на сходстве внешнего вида иероглифов и латинских букв:
哈 = OAO
命 = AOP
吃 = OVZ
Примеры кодирования, основанного на произношении:
(bo(po))-> B = (半, 不, 比)
(po(p’o))-> P = (皮, 平, 片)
(mo) -> M = (米, 目, 毛)
(fo) -> F = (方, 飛, 丰)
Для определённых знаков звучание записывается не из бопомофо, а в соответствии с произношением некоторых английских букв, с которым совпадает чтение иероглифа.
Примеры кодирования, основанного на смысловом значении графемы:
轟 = CCC (Car)
森 = TTT (Tree)
淼 = WWW (Water)
焱 = FFF (Fire)
Пример декомпозиции сложного знака на составляющие графемы:
粉 = 米 (M) 八 (B) 刀 (D) = MBD
票 = 西 (C) 二 (R) 小 (S) = CRS
移 = 禾 (H) 夕 (C) 夕 (C) = HCC
覡 = 巫 (W) 目 (M) 儿 (R) = WMR
Сложные иероглифы с числом кодирующих графем более четырёх вводятся по принципу первые три + последний:
聽 = 耳 (R) 王 (K) 十 (J) 心 (H)
歡 = 廿 (R) 口 (O) 口 (O) 欠 (I)
Иероглифы, которые не могут быть введены тремя и более графемами должны сопровождаться в конце дополнительной кодирующей графемой, связанной с завершающей знак иероглифической чертой или графемой.
月 = U + last stroke 一 (E) → UE
思 = 田 (Q) + 心 (H) + last stroke 、 (A) → QHA
Вот и все правила кодирования.
А вообще, метод достаточно интересен с точки зрения разработки новых систем кодирования иероглифов для различных IME. Мнемоническая расстановка символов для каждой графемы по нескольким абсолютно не взаимосвязанным между собой позициям: китайское чтение, английское звучание, английский смысл, схожесть с буквами латиницы, приводит к максимально равномерному использованию кодирующего алфавита, без каких либо перекосов и сгущений неоднозначности кодирования для некоторых, графически похожих между собой иероглифов. К тому же, такой подход очень удобно и равномерно упорядочивает количество графем для ввода, на одной клавише.
Основной сайт, посвящённый этому методу ввода — www.boshiamy.com.
Вот такая система. Сказать, что она удобная – довольно сложно. Но простота определённо присутствует. Однако тут сразу нужно знать и порядок начертания, и основные чтения иероглифов в тайваньской транскрипции, ну и английский язык также необходимо подучить для успешного освоения описываемого метода ввода. Вообще, на русском языке найти статью про этот метод ввода было довольно трудно. Поскольку автор этих строк таковой не нашёл, то решил поделиться с читателями информацией о таком интересном методе ввода – Boshiamy - здесь, на страничках Магазеты.