广告
您当前的位置:司各新闻网>科技>华为投资深思考,多模态语义理解的时代来了?

华为投资深思考,多模态语义理解的时代来了?

近日,36氪星获悉,深度思考人工智能机器人技术(北京)有限公司(以下简称“深度思考”)已从华为全资子公司哈勃科技投资有限公司(以下简称“哈勃投资”)获得数千万元人民币的战略投资。

通过对官方网站的深入思考,我们可以知道最突出的技术是“多模态深层语义理解引擎(ideepwise.ai)和人机交互技术”。官方网站显示,引擎技术可以同时理解文本和可视图像等多模态非结构化数据背后的深层语义。其中,长文本机器阅读理解技术、自由跨领域多轮人机对话技术和多模态信息语义理解技术是其突出优势。

好奇心的核心是两个问题。首先,深层思维的核心技术是什么,即多模态深层语义理解和人机交互技术,它面对的是什么样的着陆场景?第二,华为或其子公司为什么要进行深度思考,商业考虑和生态布局是什么?

从下面的文章中,我们可能会瞥见一两件事。

多模态和多模态语义理解

在8月结束的“2019机器阅读理解大赛”中,深度思考在两项核心技术指标中名列第一,并从全球2000多个团队中脱颖而出,赢得冠军。当时,36氪星人采访了深度思考人工智能和人工智能算法科学家的首席执行官杨志明博士。

“当人类说话时,他们通常是口语化的、不连续的、支离破碎的,甚至他们的语序颠倒了。语音识别只停留在语音指令上,无法理解用户的语言及其背后的逻辑,实际上无法解决用户在许多场景中的需求。”例如,当人们看电影时,他们不仅看图片,听声音,还看字幕,甚至与电影主题联系在一起。

每种信息的来源或形式可以被称为一种模式,例如人类的视觉、触觉、听觉、嗅觉和味觉。信息媒体包括语音、图像、视频、文本等,传感器包括红外、雷达、电磁等。

多模态人工智能是通过不同的信息维度和来源,帮助人工智能以更人性化的方式思考和学习。

随着算法、计算能力、云和芯片技术的不断成熟,人工智能,尤其是强人工智能,在过去几年中发展迅速。根据wipop2019人工智能趋势报告(Arial Intelligence Trend Report),过去五年中已经公布了50%的人工智能专利,这意味着人工智能产业在2014年至2018年的五年中已经进入了快速发展阶段。

当然,与单模人工智能技术相比,多模人工智能技术在算法和计算力方面要复杂得多。它甚至可以说是指数级的复杂性,最终的效果将更接近人类思维的效果。

以智能家居场景为例。语音识别技术的作用是听到并执行语音命令。一旦有复杂的声音表达,它会输入,“我不明白你在说什么?”你是这个意思吗?例如操作说明的进一步确认和细化。

能够帮助机器解决“理解”和“阅读”问题的真正问题是语义理解,其中机器阅读理解一直被认为是语义理解和自然语言处理的符号临界点。

据腾讯研究所2018年底统计,中国人工智能企业融资的前三大领域是计算机视觉与图像、自然语言处理和自动/辅助驾驶,第二大领域是自然语言处理,融资122亿元,占19%。

对“多模态深层语义理解引擎(ideepwise.ai)和人机交互技术”的深层思考,简而言之,就是实现从简单的机器感知到深度的语义理解,这将使人机交互更加智能化,也是机器真正走向智能化的关键。

这可能是深思熟虑能够吸引华为子公司投资的原因之一。

但显然,这不是唯一的原因。

华为和华为的生态

如今,很难用一句话来概括华为。其产业链包括通信设备、半导体、消费电子、云计算、安全等。公司收入也从2008年的183亿美元增加到2018年的1052亿美元。

不仅手机销量超过苹果,华为在5g、芯片和智能硬件方面的表现也非常抢眼,尤其是在5g行业。例如,搭载麒麟990芯片的最新旗舰手机mate30系列手机,也是业界第一款官方商用5g soc芯片。

另一个例子是鸿蒙操作系统,一个面向整个场景的分布式操作系统。根据上一次新闻发布会,鸿蒙操作系统首次应用于手机和平板电脑,并将应用于智能手表、智能屏幕、车载设备和智能扬声器等智能终端。

然而,光靠操作系统、芯片和5g技术并不能完全实现一切的互联。这些技术似乎是华为未来aiot战略的基础,但在此基础上,需要更有效的技术来增加基本把握,登陆更多场景,接触更多用户,实现无意义的体验。

多模态语义理解技术和类大脑人工智能技术可以发挥关键作用。

目前,基于ai多模态深层语义理解技术和人机对话产品的深度思考主要应用于智能车联网数字驾驶舱、智能车营销、手机智能移动终端、智能家居、智能医疗保健等应用场景。

以移动终端场景为例,在智能手机终端场景下,基于多模态深层语义理解和人机对话引擎(ideepwise.ai)的ai saas服务被深入考虑,为旅游、健康咨询、智能办公、休闲娱乐等场景提供ideepwise.ai.mobile智能人机对话交互。特别是在旅游领域,为2亿智能终端用户提供一站式人工智能智能旅游和生活服务,包括自动订票、火车票、酒店预订等人机对话服务。

通过哈勃,华为今年投资了山东田玉娥先进材料技术有限公司、集成电路设计公司捷华特微电子(杭州)有限公司以及本文提到的第三代半导体材料领域的深层思考。不难看出,哈勃在过去几个月投资的三家公司为华为提供了产品原材料、芯片设计和生产以及人工智能所需的最合适的人工智能技术。可以说,理想的战略布局是通过投资实现的。

我相信在华为的大环境下,这三家公司未来将会有更多的交流与合作。

华为子公司对深度思考的投资似乎也表明人工智能已经进入完全商业化阶段。它不是只在实验室进行测试和训练,而是不断地降落在真实场景中,进行实验,并越来越接近成功。

人工智能走出实验室

对大公司来说,尤其是那些在ict领域的公司,他们拥有的大量数据是一座储量丰富的金矿。然而,如果数据的价值不能被挖掘和发挥,那么数据的存在就毫无意义。巨人有用户、产品和场景,但他们缺乏人工智能的“炼金术”来提取金矿中的财富,从而最终在同类公司中获胜。

对于人工智能公司来说,找到一个好的生态伙伴或有真正商业需求的投资者,可以快速实现技术的落地,最终实现商业化,尤其是相关的云和芯片产业链。

仍然以智能家居场景为例,智能音频、智能电视、智能冰箱、智能空调等产品需要通过语音理解来启用,以提高其理解能力,从而真正实现人工智能。

结合多模态语义理解技术,这些智能家居和智能硬件不再是简单的人类语音命令执行者,而是隐形人工智能管家的联系人。他们将更好地了解人类的需求和习惯,并提供更加个性化和人性化的服务。

以智能车联网为例。5g和人工智能的发展给自动驾驶和车辆联网带来了很大希望。

传统的智能车载系统通常通过驾驶室的智能语音交互屏幕实现人机交互,而在智能车辆联网场景中,信息可以在车辆与道路基础设施之间、车辆与车辆之间、车辆与互联网之间进行连接和交互。车辆本身也通过视觉以及温度传感器、语音信息输入传感器等感知和理解车外环境。

对于用户来说,语言是最有效的交互方式,但是对于交通工具来说,在很短的时间内接受和理解语言并做出反应是一个巨大的挑战。除了语言模式,智能车联网还具有手势模式和图像模式等信息。

在数字场景中,深度思维技术可以提供对上述多模态信息的全面理解,为人机交互提供智能大脑,同时实现驾驶舱环境中人、车、家庭的联系。借助rpa自动软件机器人,不仅人和车辆可以交谈,而且车辆可以自动帮助驾驶员完成任务,如预订会议室、与其他智能设备连接、执行等。

“更重要的是解决和提高物联网和智能设备多模态语义理解的能力。”杨志明博士在之前对36氪星的采访中提到,在未来的场景中,终端设备通常会首先拥有各种传感器,这些传感器可以收集多维度的信息和数据。同时,在终端侧植入人工智能芯片将使这类设备具备图像识别、语音识别和语义理解等人工智能能力,而云在计算能力和服务支持方面更加强大。一方面,如果所有终端处理都由云完成,性能和响应可能会成为瓶颈。另一方面,终端设备必须具有人工智能理解能力,以使机器更好地理解人类意图。下一个时代一定是人工智能的aiot时代和多模态语义理解时代。

云、芯片和人工智能技术、深度思考技术和华为生态互为补充。


随机推荐
广告
广告