新股讯
创投您的位置:首页 >财经 >

印度语之谜:全球科技公司如何使用机器学习来翻译本地语言

发布时间:2020-05-21 12:29:29 来源:

大约两年前,Subrata Bhowmick降落在加尔各答,并从一个受欢迎的叫车应用程序中叫了一辆出租车。几天后,他以孟加拉语从公司收到了促销信息,但脚本是英语。

这从很多方面总结了印度的语言问题,印度是22种主要语言,13种不同文字和超过720种方言的国家。

宝莱坞受欢迎的导演Imtiaz Ali Ali曾在2013年的一次采访中说:“令我着迷的是印度,或者更确切地说是印度北部,每20公里,语言,方言,音乐,食物,衣服……一切都会改变。”

尽管阿里是创意艺术界人士,但工程师在为印度市场量身定制的技术产品开发本地语言功能时面临着同样的难题。

相关新闻GWM要在印度2020年汽车博览会Ather 450X上首次亮相,起始价格为99,000卢比,亚马逊,Flipkart需要建立收集塑料废料的系统:CPCB转NGT

随着该国数字生态系统的发展,采用印度语脚本已变得越来越重要,这既为客户带来便利,又是扩大业务范围和范围的一种手段。到目前为止,已有多家公司采用了上述出租车综合服务商所做的工作-用英语输入您的母语。

几年前,政府开始在当时的电子和信息技术系下进行一项名为印度语言技术开发(TDIL)的研究项目。

多年来,跨学科研究导致现存研究领域的分裂,创造了“语言学与计算机科学之间的一门学科,涉及人类语言系的计算方面”。

计算语言学领域的研究在开发印度语言标准方面已经走了很长一段路。2014年,当时的信息技术部长Ram Sewak Sharma正在致力于将一个名为e-Bhasha的平台正式化,以便以其本国语言为印度公民提供在线内容。该平台于2015年作为任务模式项目(MMP)启动。

随后采取了其他举措,以使大多数印度人有可能以当地语言进行数字互动。其中一个是由语言技术专家领导的专门的全球团队,该团队将帮助印度人访问其本地脚本中的网址。

该项目的工作几乎接近完成,并且是围绕印度语言复杂问题的庞大技术作品的一部分。

全球发展

风险资本家和技术分析师玛丽·米克尔(Mary Meeker)于2016年发布的年度互联网趋势报告称,如果不将印度排除在外,全球互联网年增长率将降至7%,这标志着该国是具有高增长潜力的国家。

去年,她的报告说,尽管事实上只有四分之一的印度人可以访问印度人,但印度的互联网用户数量在2016年仍增长了28%以上。2017年,印度的互联网普及率达到27%。

通用接受指导小组(Universal Acceptance Steering Group)去年进行的一项研究旨在确保所有使用不同语言的网址相互兼容,该研究发现在线收入有望获得98亿美元的增长机会。

这项由Analysys Mason进行的研究调查了俄罗斯,中文,阿拉伯语,越南语和印度语等语言群体,他们表示,这些用户的在线支出每年可能高达62亿美元。

这加强了使用非英语使用者的母语来构建技术和系统的理由。在2016年,Google Translate宣布以不可思议的精确度翻译日语。Google的翻译服务使用机器学习,能够识别并自动翻译日语脚本中的复杂字符。

正如《纽约时报》杂志上的这篇文章所解释的那样,谷歌已经加快了对算法的微调,以使其相对于从现实世界的学习中获得人类灵活性。Google Brain是Alphabet的新部门,一直致力于开发人工神经网络,以通过旅行和错误来熟悉世界,这与幼儿学习诸如语言这样的基本生活的方式非常相似。

旨在为Google的Assistant和Translate产品的用户创造无缝体验的精锐团队利用人工智能和机器学习的力量,逐步完善基础程序,以拾取个人的怪癖和特质,例如说话人的口音和语调。在最短的时间内提供最佳结果。

本质上,谷歌教机器学习人类的语言。对于世界上面向消费者的翻译产品来说,这是一个突破。它在2016年每月以不同的语言翻译5亿月度用户和每天1400亿个单词。

其他大型科技公司也在加紧努力,以建立本地语言能力-微软,亚马逊和Facebook成为其中的主要参与者。

转折点

大约在2013-14年度,电子商务在印度城市风靡一时。从书籍到衣服,从鞋子到香水,所有内容现在都可以在线获得。甚至只需按一下按钮,即可进行杂货店购物,这标志着印度人购买基本必需品的方式出现了拐点。

但是,这种繁荣迎合了大部分讲英语的人口。大型电子商务公司很快就确定了印度市场的范围。印度腹地为电子零售商提供了一个尚未开发的市场,他们很快意识到,他们的下一波增长将来自二,三线城市的非英语听众。

Snapdeal于2015年涉猎某些本地语言内容,2015年,Snapdeal在其移动网站上引入了印地语和泰卢固语翻译。

同年1月,Google在印地语的Google地图中引入了车道导航。到了8月,它加大了努力,促使人们在印地语中创建更多内容,并通过其AdSense平台进行更积极的广告宣传。

“但是为什么印地语很重要?如果您在印度拥有庞大的用户群;或者您希望在这个战略性新兴市场中成长;将您的内容提供给印地语使用者是关键,”当时在博客中说。

去年,位于班加罗尔的Reverie Language Technologies提供了印度语的本地化服务,并拥有一个名为Swalekh的印度语键盘应用程序,该公司发布了一份有关印度本地语言内容使用前景的报告。

调查发现,2017年1月至2017年6月期间,印地语,马拉地语,古吉拉特语,泰卢固语和孟加拉语占用户输入的所有印度语单词的75%以上。

谷歌最近的一项研究还显示,2017年印度电子商务搜索量增长了61%。同一份报告还说,有45%的购物查询来自非都市城市,而2016年为36%。最高搜索量来自勒克瑙,斋浦尔和印多尔。

今年8月,印度互联网与移动协会(IAMAI)和坎塔尔IMRB在一份联合报告中表示,如果以互联网上的基本服务以他们的语言提供基本服务,那么潜在的2.05亿互联网非用户可能会实现数字化选择。

因此,企业的当务之急变得越来越明确-英语市场已经饱和,下一波在线业务的增长和收入浪潮将来自小镇,这些小镇的本地语言(如Imtiaz Ali Ali所说的)每20公里会更改一次。

为什么仍在进行中?

语言技术在印度仍然是一个不断发展的领域的原因之一是因为缺乏一个统一的平台,无法让所有利益相关者设定共同的议程。

Google翻译可能是互联网上最常用的翻译和音译资源,它可以追溯到2010年,从联合国和欧洲议会会议的笔录中“学习”不同的语言,人类将其翻译成六种语言。

不幸的是,印度没有类似的文本可以用于训练机器学习印度语言。可以理解的是,即使是现在就创建这些游戏,也需要投入大量的时间和金钱,从而削弱了私人玩家的利润动机。

“机器翻译算法通常使用人工翻译者创建的并行语料库进行训练,以实现高质量的输出。如果政府根据开放源代码许可提供这种平行的印度语对语料库(例如,泰米尔语至马拉地语),则可能催生翻译技术公司的增长。”前Google印度政策负责人Venkatesh Hariharan说主管-软件智囊团iSPIRT的金融科技总监。

印度的几家小公司在不同领域具有语言能力。其中包括翻译服务公司Process9,Reverie Language Technologies和IndusOs(使用印度语言的基于Android的操作系统)。

还有一些由志愿者主导的独立计划,例如非营利的Indic Project,该计划“为不讲英语的印度大部分地区创建印度语应用程序和解决方案”,并支持所有22种印度语。

“政府历来以为自己会自行建立语言技术,但大多数人尚未获得……。尽管政府一直在寻求构建语言技术,但它从未将民间社会或语言社区视为利益相关者,印度项目执行总监Anivar Aravind说。

另一个问题是,在线非英语内容的货币化仍未发生。

“虽然在语言方面取得了进步,但从语言网站获利的过程必须与英语相提并论。我必须说,印度的货币化已经走了很长一段路。为了使语言能够货币化,广告素材还必须使用当地语言。许多当地语言网站仍然有英文广告,”流行的印度语言门户网站Oneindia.com的创始人兼董事总经理BG Mahesh说。

Mahesh在1990年代末和2000年代初建立门户网站时,重点更多地放在了非居民印度人上,他们的交通流量占80-85%。

随着时间的流逝,大多数印度人都可以使用互联网并负担得起互联网,读写能力得到了提高,像他这样的门户网站也看到了印度用户。

仍然需要解决的是拥有以客户的本地语言搜索产品或物品,导航选项和整个付款周期的端到端流程。

在今年八月举行的印度年度活动上,谷歌宣布了一系列针对印度当地语言的举措和产品升级。几天后,亚马逊在印地文启动了其电子商务平台。

“光顾印度语言的科技巨头只能证明印度语言空间有多大。他们已经看到了印地语为他们发展的吸引力。Mahesh说。Facebook允许用户以12种印度语言发布信息,最早可追溯到2012年的8种语言。该社交网络没有像Google或Amazon这样的围绕区域语言的特定产品,但允许其产品,故事,视频等用户使用12种印度语言,尽管主要是内容生成,而不是推动商业发展。确实有一个市场,允许买卖双方通过社交网络直接联系。

未来的挑战

用印度语言进行工作和开发并不像翻译那样简单。

Reverie LanguageTechnologies的联合创始人兼首席执行官说:“重要的是,不仅要考虑技术部分,还要考虑其经验部分。”

帕尼说,举个例子,城市客户很了解电子商务网站上购物车的图像,对于二级或三级市场客户来说可能没有多大意义,因为他们没有看到以英语市场认可它的方式购买购物车。

同样,大多数网站上的麦克风图标对该市场的意义不大,他们经常将其混淆为“颤抖”,这是印度神话中湿婆神的常见标志。

“在电子商务网站上,电子邮件注册是一个障碍。货到付款不是默认模式也成为第二级和第三级市场中电子商务增长的障碍。根据我们的经验,有80%的客户出于这种原因而退出购物车,” Pani补充道。

大型技术公司进入印度语言领域肯定是积极的,但他们将不得不应对将内容本地化以适应不同地理位置的挑战,甚至可能与一些规模较小但经验丰富的参与者一起工作,他们能够更好地了解市场及其挑战。
热点推荐
随机文章