Мультиязычная Tatoeba

Этот чудесный пост был прислан нам Вячеславом Рожковым через вот эту волшебную форму. Большое спасибо, Вячеслав, это супер!

“1. 我们试试看!
ENG: Let’s have a try!
РУС: Щас заценим!» :)

Сегодня на просторах инета был обнаружен интересный ресурс, называемый Tatoeba Project — веселое имечко, не правда ли? ;)

Участники проекта создают общими силами базу предложений на всевозможных языках, и что самое главное, со взаимными ссылками друг на друга — то есть, получается эдакий мультиязычный разговорник. В общем, всем интересующимся языками можно его посоветовать как один из источников информации по нужным языкам.

Помимо этого, с сайта можно скачать всю базу фраз целиком. База представляет из себя два отдельных файла с собственно фразами, и ссылками друг на друга. К сожалению, разобраться в этой мешанине и перевести ее в понятный вид под силу только программисту. Я не мог пройти мимо этой интересной задачки. Просидев пару часиков с кружкой чая, и получив массу программерского удовольствия, я привел базу в божеский вид, и хочу предложить вашему вниманию плоды своих трудов.

Из базы были отобраны только фразы на китайском, с их переводами на понятные всем нам языки: русский и английский. Из более чем 12 тысяч китайских фраз в итогде осталось только 5 тысяч с хвостиком (все остальные имеют переводы на французский, хинди и прочие чудесные языки). В итоге получился текстовый файл примерно такого содержания:

61. 不要再把我看成”正常»人!
ENG: Stop seeing me as a «normal» person!

62. 一切都是创造的,也是真实的。
ENG: All that which is invented, is true.
RUS: Всё то, что было изобретено, правильно.

63. 感到惊讶、感到惊奇就是明白的开始。
ENG: To be surprised, to wonder, is to begin to understand.
RUS: Изумление, удивление — это первый шаг на пути к постижению.

В дополнение прилагается файл, который содержит все 12 тысяч китайских фраз со всеми имеющимися переводами. Некоторые фразы, правда, переведены только на арабский ; )

Скачать архив можно здесь: http://snark.vl.ru/files/chinese_sentences.rar

P.S. Если кому-то потребуется подобный файл для других языков (скажем, все переводы с японского на итальянский), или в другом формате, то обращайтесь ко мне через почту snarky-собака-inbox-точка-ru
С радостью помогу 8 )

предупреждаем, китайская база — полные, т.е. не упрощенные формы иероглифов (использующиеся на Тайване и в Гонконге). Впрочем, в интернете есть много онлайн-конвертеров полных форм в упрощенные и обратно — например, тут или тут.

Orphus: Нашли опечатку? Нажмите Ctrl+Enter

Автор: Виктор Ширяев

Выпускник востфака СПбГУ, кафедра истории стран ДВ, Китай. Выпускник университета JFKU в Калифорнии, Integral Studies. Живу в Шанхае.

ostropoler
2010-08-26 01:32:56
Большое спасибо, Вячеслав! и - спокойной ночи :) 2. 我该去睡觉了。 ENG: I have to go to sleep. RUS: Мне пора идти спать.
ostropoler
2010-08-26 01:35:05
красиви, редки 10. 我不晓得。 ENG: I don't know. RUS: Я не знаю.
ostropoler
2010-08-26 01:36:55
сентансиз... ааа... я сейчас умру :)
YANG
2010-08-26 09:26:51
11. 我不知道该说些什么。 DEU: Ich finde keine Worte. ENG: I'm at a loss for words. FRA: J'en perds mes mots. JPN: 何と言ったら良いか分かりません。 NLD: Ik heb er geen woorden voor. RUS: У меня нет слов. SPA: No tengo palabras. VIE: Tôi hết lời để nói.
KirillTulaNet
2010-08-26 12:19:25
Спасибо огромное Вам и спокойной ночи! 4265. 连超级英雄们偶尔也该休息一下。 ENG: Even superheros need an occasional break. RUS: Даже супергерои должны отдыхать время от времени.
Невезида
2010-08-26 13:49:07
Я всегда пользовалась вот этим ресурсом http://www.jukuu.com/ (здесь китайско-английские предложения, огромная база, сленг, термины etc.). PS. 一切都是创造的,也是真实的。 ENG: All that which is invented, is true. RUS: Всё то, что было изобретено, правильно. - ЭТО ЧТО ЗНАЧИТ??????
Невезида
2010-08-26 13:51:04
пока копировала, заметила в примере "that which", но у меня вопрос не про ошибки, а вообще про смысл фразы...
LiBeiFeng
2010-08-26 14:27:48
Нет, идея интересная, точнее она давно не нова. Подобные добротные, но только двуязычные базы фраз давно существуют в инете. Этому же ресурсу с моей точки зрения не хватает профессионализма, т.к. некоторые переводы сделаны явно от фонаря и ниже всякой критики и их качество непонятно кем и как контролируется. Я так понял это свободный ресурс типа Википедии, что имеет свои плюс но и минусов куча. Многоязычность же при отсутствии какого-либо контроля за качеством только лишь добавляет ошибок. Зачастую наблюдаешь что фраза с какого-нибудь национального языка была переведена исходно неверно на английский, а с него неверное толкование перешло на другие языки. При это не исключена и многократная цепочка ошибок, что может иногда привести в свою очередь к подобию игры в испорченный телефон. С моей точки зрения в этом случае необходимо указывать на каком языке была исходная фраза хотя бы, чтобы в случае чего разобраться с ошибками. А то что там есть трад. китайский так им это даже в плюс, ибо обратная конвертация трад. в упр. достаточно лёгкое дело а вот наоборот - 100% не решаемая до сих пор задача. Меня также заинтересовало, откуда "ноги растут" у этого японского исходно ресурса (то что он японский и по существу не вызывает сомнений, ибо там просто обилие японских фраз). Оказывается они исходно подгрузили туда известную двуязычную яп.-англ. базу Tanaka Corpus (http://www.edrdg.org/wiki/index.php/Tanaka_Corpus), очень профессионально сделанную в своё время в рамках известного проекта яп.-англ.-яп. словаря Джима Брина WWWJDIC (также см. EDICT). Так что если китайская часть из себя пока ничего интересного не представляет, японская несомненно может быть интересна многим кому нужен японский язык.
Вячеслав
2010-08-26 15:46:21
Рад стараться, парни! Рад что поднял вам настроение. Ажно сам прослезился 8 ) Ах, да... Спокойной ночи! 8 )
iron
2010-08-26 15:56:45
Наверное то, что бессмысленного в этом мире нет, всему найдется свое место и т.д.
iron
2010-08-26 15:58:51
Ну да, он японский, даже по-японски называется. "Татоэба" - "пример"
Demetrius
2010-08-26 16:13:00
> предупреждаем, китайская база — полные, т.е. > не упрощенные формы иероглифов (использующиеся на Тайване > и в Гонконге). Это не так. База содержит и такие, и такие иероглифы. Все переводы на шанхайский (wuu) — упрощённые, на кантонский (yue) — традиционные, а вот на путунхуа — как когда. :) На самом сайте Tatoeb’ы используется adsotrans, и на странице предложения показываются оба перевода.
Demetrius
2010-08-26 16:15:05
...к подобию игры в испорченный телефон... В Tatoeb’е есть различие между «прямыми» и «косвенными переводами», и следует учитывать, что косвенные переводы могут быть неточными (они отмечаются серо-коричневым цветом, под основными переводами). ...наблюдаешь что фраза с какого-нибудь национального языка была переведена исходно неверно на английский... А напишите об этом, пожалуйста, в комментариях к предложению, и всё будет исправлено. ^^ В таких случаях обычно предложение не удаляется, а разрывается связь между ними — они перестают считаться переводами. На это есть модераторы.
Demetrius
2010-08-26 16:25:38
Вообще-то это предложение уже вызывало у меня сомнения, но я побоялся его править, не понимая смысла. :) По хорошему, в Tatoeb’е складываются все предложения, даже бессмысленные и ругательные. Но мы пытаемся фильтровать их с помощью тегов (правда, на этом пока что тега нет). Теги уже экспортируются в файл tags.csv, правда, пока что об этом официально не сказано. Так что желающие могут отфильтровать предложения с тегами XXX, offensive, controversial, PG, rude, impolite, silly, non grammatical, joke, @change, @delete, @check, non-standard orthography, non-standard punctuation... (Для хороших предложений есть тег OK, но выставлен он только у некоторых английских.)
Demetrius
2010-08-26 16:35:40
«ЭТО ЧТО ЗНАЧИТ??????» Как оказалось, это цитата Флобера.
Yougen
2010-08-26 18:25:21
для меня вещь очень полезная, Спасибо!
Невезида
2010-08-27 18:38:10
ох, всё-равно фигня какая-то, думаю неправильный перевод, а потом и с неправильного уже передалось на другие языки, в т.ч. и на оригинальный обратно.
ostropoler
2010-08-27 22:14:58
о, инсайдерская инфа, спасибо, очень интересно! :)
ostropoler
2010-08-27 22:16:44
спасибо за уточнения!
ostropoler
2010-08-27 22:20:14
мне очень нравится сама идея, честно говоря. потому что по всем переводчикам мы видим, какое у перевода качество... а причина основна вполне ясна - переводят по словам, теряют их из контекста - и привет. поэтому создание мультиязычной базы предложений считаю делом верным. а поскольку другого варианта так делать, кроме как интерактивное участие, я не вижу, то и выбранный ими курс считаю верным. другое дело, что модераторы должны быть жесткие, как на Википедии, например, где к материалу в целом, насколько возможно, относятся серьезно, и модерируют строго.