Мультиязычная Tatoeba

Этот чудесный пост был прислан нам Вячеславом Рожковым через вот эту волшебную форму. Большое спасибо, Вячеслав, это супер!

“1. 我们试试看!
ENG: Let’s have a try!
РУС: Щас заценим!” :)

Сегодня на просторах инета был обнаружен интересный ресурс, называемый Tatoeba Project – веселое имечко, не правда ли? ;)

Участники проекта создают общими силами базу предложений на всевозможных языках, и что самое главное, со взаимными ссылками друг на друга – то есть, получается эдакий мультиязычный разговорник. В общем, всем интересующимся языками можно его посоветовать как один из источников информации по нужным языкам.

Помимо этого, с сайта можно скачать всю базу фраз целиком. База представляет из себя два отдельных файла с собственно фразами, и ссылками друг на друга. К сожалению, разобраться в этой мешанине и перевести ее в понятный вид под силу только программисту. Я не мог пройти мимо этой интересной задачки. Просидев пару часиков с кружкой чая, и получив массу программерского удовольствия, я привел базу в божеский вид, и хочу предложить вашему вниманию плоды своих трудов.

Из базы были отобраны только фразы на китайском, с их переводами на понятные всем нам языки: русский и английский. Из более чем 12 тысяч китайских фраз в итогде осталось только 5 тысяч с хвостиком (все остальные имеют переводы на французский, хинди и прочие чудесные языки). В итоге получился текстовый файл примерно такого содержания:

61. 不要再把我看成”正常”人!
ENG: Stop seeing me as a “normal” person!

62. 一切都是创造的,也是真实的。
ENG: All that which is invented, is true.
RUS: Всё то, что было изобретено, правильно.

63. 感到惊讶、感到惊奇就是明白的开始。
ENG: To be surprised, to wonder, is to begin to understand.
RUS: Изумление, удивление – это первый шаг на пути к постижению.

В дополнение прилагается файл, который содержит все 12 тысяч китайских фраз со всеми имеющимися переводами. Некоторые фразы, правда, переведены только на арабский ; )

Скачать архив можно здесь: http://snark.vl.ru/files/chinese_sentences.rar

P.S. Если кому-то потребуется подобный файл для других языков (скажем, все переводы с японского на итальянский), или в другом формате, то обращайтесь ко мне через почту snarky-собака-inbox-точка-ru
С радостью помогу 8 )

предупреждаем, китайская база – полные, т.е. не упрощенные формы иероглифов (использующиеся на Тайване и в Гонконге). Впрочем, в интернете есть много онлайн-конвертеров полных форм в упрощенные и обратно – например, тут или тут.


Привет! Меня зовут Саша. Я главный редактор Магазеты.

Мы собираем базу знаний о Китае и китайском языке при поддержке читателей уже 16 лет.

У нас нет рекламы, есть только вы. Поддержите Магазету и помогите сохранить её бесплатной и без рекламы.


Автор: Виктор Ширяев

Выпускник востфака СПбГУ, кафедра истории стран ДВ, Китай. Выпускник университета JFKU в Калифорнии, Integral Studies. Живу в Шанхае.

20 комментариев

  1. > предупреждаем, китайская база — полные, т.е.
    > не упрощенные формы иероглифов (использующиеся на Тайване
    > и в Гонконге).
    Это не так. База содержит и такие, и такие иероглифы. Все переводы на шанхайский (wuu) — упрощённые, на кантонский (yue) — традиционные, а вот на путунхуа — как когда. :)

    На самом сайте Tatoeb’ы используется adsotrans, и на странице предложения показываются оба перевода.

  2. Рад стараться, парни! Рад что поднял вам настроение. Ажно сам прослезился 8 )
    Ах, да… Спокойной ночи! 8 )

  3. Нет, идея интересная, точнее она давно не нова. Подобные добротные, но только двуязычные базы фраз давно существуют в инете. Этому же ресурсу с моей точки зрения не хватает профессионализма, т.к. некоторые переводы сделаны явно от фонаря и ниже всякой критики и их качество непонятно кем и как контролируется. Я так понял это свободный ресурс типа Википедии, что имеет свои плюс но и минусов куча.
    Многоязычность же при отсутствии какого-либо контроля за качеством только лишь добавляет ошибок. Зачастую наблюдаешь что фраза с какого-нибудь национального языка была переведена исходно неверно на английский, а с него неверное толкование перешло на другие языки. При это не исключена и многократная цепочка ошибок, что может иногда привести в свою очередь к подобию игры в испорченный телефон. С моей точки зрения в этом случае необходимо указывать на каком языке была исходная фраза хотя бы, чтобы в случае чего разобраться с ошибками.
    А то что там есть трад. китайский так им это даже в плюс, ибо обратная конвертация трад. в упр. достаточно лёгкое дело а вот наоборот – 100% не решаемая до сих пор задача.

    Меня также заинтересовало, откуда “ноги растут” у этого японского исходно ресурса (то что он японский и по существу не вызывает сомнений, ибо там просто обилие японских фраз). Оказывается они исходно подгрузили туда известную двуязычную яп.-англ. базу Tanaka Corpus (http://www.edrdg.org/wiki/index.php/Tanaka_Corpus), очень профессионально сделанную в своё время в рамках известного проекта яп.-англ.-яп. словаря Джима Брина WWWJDIC (также см. EDICT). Так что если китайская часть из себя пока ничего интересного не представляет, японская несомненно может быть интересна многим кому нужен японский язык.

    1. …к подобию игры в испорченный телефон…
      В Tatoeb’е есть различие между «прямыми» и «косвенными переводами», и следует учитывать, что косвенные переводы могут быть неточными (они отмечаются серо-коричневым цветом, под основными переводами).

      …наблюдаешь что фраза с какого-нибудь национального языка была переведена исходно неверно на английский…
      А напишите об этом, пожалуйста, в комментариях к предложению, и всё будет исправлено. ^^

      В таких случаях обычно предложение не удаляется, а разрывается связь между ними — они перестают считаться переводами. На это есть модераторы.

    2. мне очень нравится сама идея, честно говоря.

      потому что по всем переводчикам мы видим, какое у перевода качество… а причина основна вполне ясна – переводят по словам, теряют их из контекста – и привет.

      поэтому создание мультиязычной базы предложений считаю делом верным.

      а поскольку другого варианта так делать, кроме как интерактивное участие, я не вижу, то и выбранный ими курс считаю верным.

      другое дело, что модераторы должны быть жесткие, как на Википедии, например, где к материалу в целом, насколько возможно, относятся серьезно, и модерируют строго.

  4. Я всегда пользовалась вот этим ресурсом http://www.jukuu.com/ (здесь китайско-английские предложения, огромная база, сленг, термины etc.).

    PS.
    一切都是创造的,也是真实的。
    ENG: All that which is invented, is true.
    RUS: Всё то, что было изобретено, правильно. – ЭТО ЧТО ЗНАЧИТ??????

    1. пока копировала, заметила в примере “that which”, но у меня вопрос не про ошибки, а вообще про смысл фразы…

    2. Наверное то, что бессмысленного в этом мире нет, всему найдется свое место и т.д.

    3. Вообще-то это предложение уже вызывало у меня сомнения, но я побоялся его править, не понимая смысла. :)

      По хорошему, в Tatoeb’е складываются все предложения, даже бессмысленные и ругательные. Но мы пытаемся фильтровать их с помощью тегов (правда, на этом пока что тега нет). Теги уже экспортируются в файл tags.csv, правда, пока что об этом официально не сказано. Так что желающие могут отфильтровать предложения с тегами XXX, offensive, controversial, PG, rude, impolite, silly, non grammatical, joke, @change, @delete, @check, non-standard orthography, non-standard punctuation…

      (Для хороших предложений есть тег OK, но выставлен он только у некоторых английских.)

      1. ох, всё-равно фигня какая-то, думаю неправильный перевод, а потом и с неправильного уже передалось на другие языки, в т.ч. и на оригинальный обратно.

  5. Спасибо огромное Вам и спокойной ночи!
    4265. 连超级英雄们偶尔也该休息一下。
    ENG: Even superheros need an occasional break.
    RUS: Даже супергерои должны отдыхать время от времени.

  6. 11. 我不知道该说些什么。
    DEU: Ich finde keine Worte.
    ENG: I’m at a loss for words.
    FRA: J’en perds mes mots.
    JPN: 何と言ったら良いか分かりません。
    NLD: Ik heb er geen woorden voor.
    RUS: У меня нет слов.
    SPA: No tengo palabras.
    VIE: Tôi hết lời để nói.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *