请选择 进入手机版 | 继续访问电脑版
快捷导航

微信登录,快人一步

开启左侧

对标200亿美元市值的Palantir,中译语通看点在哪?

[复制链接]

“洋葱、萝卜和西红柿,不相信世界上有南瓜这种东西。它们认为那是一种空想。南瓜不说话,默默地成长着。” 中译语通就是这样一个默默成长的南瓜。

至于为什么说它是那个默默成长的南瓜,这得从公司自身发展上说起。中译语通成立于2009年,是中国对外翻译有限公司的控股子公司,听到公司的名字我们很容易凭借自己的印象判断,给它打上一个翻译公司的标签,但是现实中的它却是一家人工智能大数据公司。


从中译语通的官网上可以看出,其产品服务解决方案主要覆盖大数据分析、机器翻译、智能语音识别和机器学习等人工智能核心领域。

为何对标Palantir?

Palantir 是一家B2B大数据和企业级安全服务提供商,其通过开发的专利软件为中央情报局(CIA)、美国国土安全局、美国联邦调查局(FBI)、美国国家安全局等关键部门提供有效的、可预见性大数据分析服务(结构化与非结构化数据)。目前主要有Gotham和Palantir两大核心产品,前者主要用于国防安全、网络安全和灾害预警,后者更偏重于金融、保险领域的应用。Palantir已成为仅次Uber 和 Airbnb,估值超过200亿美元的美国科技创业公司。为什么对标Palantir?与Palantir相比,中译语通不仅具备业务上的相似性,自身产品在算法和技术上,还拥有着全球最大规模的非结构化数据(文本、语音、图片、影像)的实时更新和分析能力。

跨越语言的大数据,全球数据实时获取与分析

当我们在百度搜索中文的时候,得到的结果只有中文结果,在谷歌搜索英文得到的结果只有英文。如果可以去除语言标签,那么对数据而言,当我们搜索一个关键词的时候,得到的结果应该是中文、英文、法文、俄文、德文等所有语言与这个关键词相关联的结果。而中译语通在做的,还不仅仅止于此。在本次专访中中译语通CEO于洋这样告诉虎嗅:

“在网络使用者正常的关键词搜索过程中,无论搜索结果是多少条,人们的阅读习惯常常是几条或者几十条,且语言单一。译见大数据要做的是不仅仅要去除掉所有语言标签,让用户能够搜到全球的相关信息,更要把搜索到的所有几十万条、几百万条数据都能够定性定量地分析。”

美国CIA指出,世界上90%的军事情报,都可以从开放的数据中获取。美国对本拉登的军事行动即是Palantir发挥了重要情报分析的作用。在今天国际上的反恐、反洗钱等重大活动,开放的非结构化数据的分析已经扮演着极为重要的角色。如此一来,中译语通在2015年10月30日第一次提出的“跨语言大数据”概念,显然将我们此前对大数据的认知范围又极大地延展了。并且,由此看来中译语通所覆盖的数据量已经超过其对标的Palantir。

“对非机构化开放数据的分析,在商业领域能够爆发巨大的价值。如我们可以通过开放的数据分析,清晰的画出一项新技术的生命曲线。再如我们可以通过开放的数据给企业清晰地画像,其全球的评价、产品系列、用户反馈、竞争对手、新技术研发等等,这将是很有趣的一件事情”访谈中于洋说。

(图为中译语通译见跨语言大数据信息搜索与分析综合平台)

智能语言科技打破沟通障碍

不是每一个人都有语言天赋,也不是每个人都能掌握多种语言,并在交流中能自如频道切换。在采访中我们对此功能进行了现场实测,双语实时显示的机器翻译质量与效率非常高。除此以外,“译云”语言科技生态下还有手机端的”找翻译“ APP、Yeekit网页翻译、输入法、机器辅助翻译工具等等,贯穿了完整的语言生态。更重要的是,透过语音识别和机器翻译的融合,对所有的网页文本数据、音频数据、图片视频内容数据能够进行实时分析,挖掘出更大的价值。

目前在智能语音识别领域,中译语通已经拥有了中文、英文的语音识别,年内将完成俄、日、韩、葡四个语言的语音识别。

工业大数据应用生态推动产业升级

工业大数据是智能制造与工业互联网的基础与核心,对企业流程化数据的收集、处理、可视化,有助于解决工业企业实际问题,提升制造智能水平,推动工业优化、升级、转型。针对工业大数据部分,目前中译语通通过与海尔联合发布海尔译见大数据平台。


(图为海尔译见工业大数据平台)

以全球多数据源的信息采集能力,多语种自有机器翻译的商业情报分析能力,为工业企业提供定制化解决方案,基于线上平台进行快速的可视化报表展现服务,为决策提供支持。

半年内两次融资,总金额近4亿元,得到资本认可的中译语通,优势在哪?

亿万级语言大数据积累

当算法趋于一致的时候,那么竞争的就是数据的规模和质量了。中译语通继承了母公司40余年亿万级高质量语言大数据,成为人工智能时代无价的数据资产,现在与160多所国内外知名的院校和进行实践互动的中译语通,还在不断地产生着高质量的数据。

全球百万级网站的实时数据更新

在数据获取方面,中译语通数据挖掘能力已经覆盖全球200多个国家,65种语言,超过150多万独立域名网站进行实时抓取,日更新网页数据超过3000多万篇,社交数据3亿条。而这些数据都还在高速地增长。

正面PK谷歌的机器翻译能力

2014年中译语通开始发力自然语言处理技术,经过两年多的研发,其机器翻译技术(统计机器翻译和神经网络机器翻译)飞速发展并已经达到世界领先水平,在现有的语种以及诸多垂直领域已经具备了正面PK谷歌翻译的能力。

现在已经实现32个语种的机器翻译,约992余个语言方向,其中中文到外文间的机器翻译,如中英、中俄、中韩、中西、中葡等十余个语言的机器翻译已经达到世界领先水平,并且在垂直领域已经实现规模化的机器翻译场景化应用。

每天超过1亿次的机器翻译服务请求

语言不应该是人们沟通或获取信息的障碍,机器翻译最大的意义在于扩大了人类认知信息的深度与广度现在“译云”机器翻译每天有超过1亿次的服务请求,相当于每天要翻译超过20亿字,每年累计超过7200多亿字。

为进一步满足全球用户的需求,中译语通会在2017年对机器翻译进行全面提速,在算法、高质量数据资源以及语种数量等方面进一步加大研发投入,并在多个垂直领域里提供更高质量的企业级机器翻译服务。

以公开数据为基础的非结构化大数据分析能力

大数据概念企业受到投资机构追捧,大数据理念蓝图创意不断,但在各行业数据共享的现实面前瞬间破碎,大数据的商业化应用之路被无形拉长,商业变现模式开始倍受质疑。

中译语通以全球海量的新闻数据、社交数据、网页数据等公开非结构化数据资源为基础,提供商业信息、公共安全、新闻媒体、灾害预警、投资决策、技术趋势和智慧医疗等各个领域的商业应用。据悉,2016年公司实现销售收入超过2.4亿,与阿里、微软、海尔、百度等行业巨头达成业务合作。

面对未来,哪些值得挑战?


如果说自身优势是资本对中译语通认可的内在原因,那么不断增长的全球大数据市场规模,则在为中译语通提供更大的展示舞台。

跨语言垂直领域的搜索,或许值得挑战

语言是中译语通的优势,每天接受过亿次访问的机器翻译,海量更新的全球数据,使中译语通拥有相当体量的用户规模和数据规模。跨语言的搜索的定位,又进一步放大其自己的优势,也同时会成为其大数据分析平台的重要入口。随着数据信息的积累和技术的不断完善,对全球数百万垂直网站及数据进行采集挖掘的中译语通会提供一个不错的多语言垂直搜索引擎。

非结构化数据的垂直化深耕

目前的中译语通垂直化大数据产品主要分为公共安全、新闻、金融、广告四个版块,很快中译语通将在今年的7月30日发布投资、医疗、金融、企业等多领域产品线,为用户提供热点剖析、商情分析、公共事件管理等决策支持平台。

可以大胆去想象下,如果能够对去掉语言标签后的文本、语音内容和影像内容的大数据进行交叉比对分析,不仅会是一件有趣的事情,其背后的商业价值也是不言而喻的。

后记:

开篇引用的关于南瓜的故事,来自德国作家于尔克•舒比格,这首诗的名字叫《当世界年纪还小的时候》。如这题目所言,当世界还小的时候,单一语种样本的大数据分析看起来足以应付。如今面对庞杂的大千世界,跨语言大数据分析的价值则毋庸置疑地迅速凸显起来。在这个过程中,中国的企业如何乘风破浪迅速发展,让我们拭目以待。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ