https://sputniknews.cn/20230712/1051738151.html
中文是俄Yandex浏览器视频用户翻译量第二大的语言
中文是俄Yandex浏览器视频用户翻译量第二大的语言
俄罗斯卫星通讯社
俄罗斯卫星通讯社莫斯科7月12日电 俄罗斯Yandex公司新闻处对卫星通讯社表示,中文仅次于英文是俄罗斯Yandex浏览器视频用户第二大进行翻译的语言。 2023年7月12日, 俄罗斯卫星通讯社
2023-07-12T16:56+0800
2023-07-12T16:56+0800
2023-07-12T16:56+0800
俄中关系
中文
yandex
汉语
翻译
https://cdn.sputniknews.cn/img/102139/68/1021396837_0:0:3067:1725_1920x0_80_0_0_61e3c45cc5364bdbd5a0c8a74e089dc8.jpg
新闻处表示:“中文是俄Yandex浏览器视频用户第二大进行翻译的语言。在翻译数量上排名第一的是英语视频短片。西班牙语位列第三。” 自2021年9月Yandex浏览器推出视频翻译功能以来,用户已翻译了2.88亿次外语视频。使用浏览器翻译最多的是教育内容(如讲座和教学视频)、娱乐视频(如访谈等)、小型设备评论、DIY类视频。 新闻处还指出,将视频从汉语翻译成俄语需要动用五个神经网络。 新闻处消息称:“首先,算法下载音轨,正是第一种神经网络对其进行处理,它将讲话人的语音变为文本。第二种神经网络——恢复标点符号。在这一阶段,词序‘被切割’为句子。在编‘句子’时,模型保留原有意义。第三种神经网络确定视频中有多少讲话人,每个讲话人的声音是什么样的——男性还是女性。这是为了让每个讲话人都有自己的配音。第四种神经网络将文本翻译成俄语。第五种神经网络——合成讲话并用不同的声音为不同讲话人配音。” 该公司称:“汉语具有最复杂的特点,浏览器的神经网络在一个月时间内就掌握了人们需要数年才能掌握的这一特点。人们之所以需用要花这么长的时间是因为要研究决定所说话语意义的四声。” 新闻处解释称:“将语音转化为文本是翻译的第一阶段,为此,浏览器的神经网络必须学习数千个汉字。每个汉字就读作一个音节。为了让神经网络学会理解这些汉字,开发人员将处理汉语所需的整个词汇表以10000个形符的形式进行了编码。与之相比,Yandex浏览器先前学习翻译的五种欧洲语言,则可容纳在一个5000个形符的词库中。” Yandex称:“随着Yandex浏览器的画外翻译的出现,用户可以获得大量之前由于语言障碍而无法访问的原始内容。讲座和纪录片、采访、发射飞船、视频博客、视频食谱和一步步的详细说明——所有这些现在都可以用俄语观看。”
https://sputniknews.cn/20230614/1051044067.html
https://sputniknews.cn/20230303/1048394416.html
俄罗斯卫星通讯社
feedback.cn@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
2023
俄罗斯卫星通讯社
feedback.cn@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
新闻
cn_CN
俄罗斯卫星通讯社
feedback.cn@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
https://cdn.sputniknews.cn/img/102139/68/1021396837_191:0:2922:2048_1920x0_80_0_0_b89b06a6d95cc5014a7a45d5ef61c237.jpg俄罗斯卫星通讯社
feedback.cn@sputniknews.com
+74956456601
MIA „Rossiya Segodnya“
俄中关系, 中文, yandex, 汉语, 翻译
中文是俄Yandex浏览器视频用户翻译量第二大的语言
俄罗斯卫星通讯社莫斯科7月12日电 俄罗斯Yandex公司新闻处对卫星通讯社表示,中文仅次于英文是俄罗斯Yandex浏览器视频用户第二大进行翻译的语言。
新闻处表示:“中文是俄Yandex浏览器视频用户第二大进行翻译的语言。在翻译数量上排名第一的是英语视频短片。西班牙语位列第三。”
自2021年9月
Yandex浏览器推出视频翻译功能以来,用户已翻译了2.88亿次外语视频。使用浏览器翻译最多的是教育内容(如讲座和教学视频)、娱乐视频(如访谈等)、小型设备评论、DIY类视频。
新闻处还指出,将视频从汉语翻译成俄语需要动用五个神经网络。
新闻处消息称:“首先,算法下载音轨,正是第一种神经网络对其进行处理,它将讲话人的语音变为文本。第二种神经网络——恢复标点符号。在这一阶段,词序‘被切割’为句子。在编‘句子’时,模型保留原有意义。第三种神经网络确定视频中有多少讲话人,每个讲话人的声音是什么样的——男性还是女性。这是为了让每个讲话人都有自己的配音。第四种神经网络将文本翻译成俄语。第五种神经网络——合成讲话并用不同的声音为不同讲话人配音。”
该公司称:“
汉语具有最复杂的特点,浏览器的神经网络在一个月时间内就掌握了人们需要数年才能掌握的这一特点。人们之所以需用要花这么长的时间是因为要研究决定所说话语意义的四声。”
新闻处解释称:“将语音转化为文本是翻译的第一阶段,为此,浏览器的神经网络必须学习数千个汉字。每个汉字就读作一个音节。为了让神经网络学会理解这些汉字,开发人员将处理汉语所需的整个词汇表以10000个形符的形式进行了编码。与之相比,Yandex浏览器先前学习翻译的五种欧洲语言,则可容纳在一个5000个形符的词库中。”
Yandex称:“随着Yandex浏览器的画外翻译的出现,用户可以获得大量之前由于语言障碍而无法访问的原始内容。讲座和纪录片、采访、发射飞船、视频博客、视频食谱和一步步的详细说明——所有这些现在都可以用俄语观看。”