深度自学的可编程 DSP,且就在今天,具有软件生态系统的新型 XM6 IP 也被发售,其效率更高,计算能力更加强劲,还有新的节约能源专利。玩游戏 IP 游戏当 CEVA 宣告 XM4 DSP 推测定点算法中实训练的精度与全算法基本一样,误差将近 1 %时,它夺得了该领域许多的分析师奖项,CEVA 称之为高性能和功率效率让其从竞争,及软件框架的可行性进展中脱颖而出。
IP 公告公布于 Q1 2015 季度,第二年取得了许可证,第一批用于 IP 生产的硅钢将于今年下线。此后,CEVA 公布了其 CDNN2 平台,它是一款一键编译器工具,训练网络,并将其转换成合适 CEVA XM IPS 的代码。
新一代 XM6 统合了历代 XM4 的特点,改良了配备,可以采访硬件加速器,还享有新型的硬件加速器,而且,它还保有着 CDNN2 平台的兼容性,这样的编码可相容 XM4,也可以在 XM6 上高性能运营。CEVA 归属于 IP 业务,如 ARM,并与半导体公司合作,然后卖给 OEMs。
这一般来说必须很长的时间,来将新产品从构想实际跳入市场,特别是在是在安全性和汽车等行业于是以较慢发展时。CEVA 将 XM6 改为了一种可拓展的、可编程的 DSP,它可以用单一的代码库跨越市场,同时利用额外的功能来提高功率、性能,并降低成本。今天的公告中,还包括新型 XM6 DSP,CEVA 新的系列的图像和视觉软件库,一套新的硬件加速器,并将其带入 CDNN2 生态系统。CDNN2 是一款一键编译器工具,检测卷积,并应用于高于逻辑块和加速器的最佳方法传输数据。
XM6 将反对 OpenCL 和 C++ 开发工具,以及软件元素还包括 CEVA 的计算机视觉、神经网络和具有第三方工具的视觉处置库。硬件为标准 XM6 核心的处置部分构建 了AXI 相连,从而与加速器和内存交互。XM6 IP 里面有卷积的硬件加速器 CDNN 助手,它容许较低功率相同功能硬件,处置神经网络系统的疑难部分,如 GoogleNet,校正鱼眼上的图像或变形镜头,图像的杂讯未知,转换的函数是相同功能友好关系型的,以及其他的第三方硬件加速器。
XM6 的两大新的硬件功能,将协助大多数图像处理和机器学习算法。第一个是集中-挤满,或者说是读者一个周期中,L1 内存到向量寄存器中的 32 地址值的能力。CDNN2 编译器工具辨识串行代码读取,并构建矢量化来容许这一功能,当所需的数据通过记忆结构产于时,集中-挤满提升了数据读取时间。由于 XM6 是可配备的 IP,L1 数据储存的大小/相关性在硅设计水平是可调节的,CEVA 回应,这项功能对于给定尺寸的 L1 都有效地。
此级用作处置的向量寄存器是宽度为 8 的 VLIW 构建器,这样的配备才能满足要求。第二功能称作“滑动-窗口”数据处理,这项视觉处置的特定技术已被 CEVA 申请专利。有许多方法可以处理过程或智能中的图像,一般来说算法将马上用于平台所须要一块或大片像素。
对于智能部分,这些块的数量将重合,造成有所不同区域的图像被有所不同的计算出来区域器重。CEVA 的方法是保有这些数据,从而使下一步分析所须要信息量更加较少。听得一起否很非常简单,在 2009 年,我做到了类似于的三维微分方程分析,显然是这样,我很吃惊,它之前并没构建视觉/图像处理。
如果你有地方存储的话,重复使用原始数据,就可以节省时间,节省能源。CEVA 称之为 XM6 在轻矢量工作量中的性能增益是 XM4 的 3 倍,同比重制内核平均值提高了 2 倍。
XM6 在编码方面也比 XM4 更容易配备,获取“ 50% 额外的掌控”。融合明确的 CDNN 硬件加速器(HWA),CEVA 认为,生态系统中的卷积层,如 GoogleNet 消耗了周期中的大部分时间。CDNN HWA 使用了此编码,后用 512MACs 为它构建了相同的硬件, 用于 16 位反对构建了 8 倍的性能增益,且利用率为 95%。CEVA 提及用于 12 位的方法将节省芯片面积和成本,同时最小化精度损耗,但也有一些开发商拒绝用原始的 16 位方法,以反对未来的项目,因此,结果是自由选择了 16 位。
在该领域的汽车图像/视频处置方面,CEVA 有两大竞争对手,分别是 MobilEye 和 NVIDIA ,后者发售了 TX1 以增进神经网络的训练和推理小说。基于 690 MHz 情况下,TX1 在 TSMC 20nm 的平面处置技术,CEVA 说道,他们内部仿真得出的单体 XM6 在平台方面效率提高了 25 倍,而且,比 AlexNet 和 GoogleNet 速度快四倍。当然,尽管 XM6 也可以在 16nm 或 28nm 的 FinFET 运营,但这些都是其在 20nm 情况下运营的结果。这意味著,根据单批 TX1 发布的数据,XM6 在 FP16 用于 Alexnet ,比起 67帧/秒,它可以继续执行每秒运营 268 帧图像,比起于 5.1 w,它只要 800 mW。
在 16FF 中,功率的数值有可能更加较低,CEVA 告诉他我们,他们内部度量最初是在 28 nm / 16FF 情况下已完成的,但他们在 20 nm 情况下,用于了 TX1 对其各个方面新的展开了度量。应当认为的是,TX1 多出厂的数值指出,其效率比单出厂更佳,然而,它未能获取其他更好的对比值。CEVA 还用 DVFS 方案构建了功率门控,当 DSP 的各个部分或加速器空闲时,可减少功率。
很显著,NVIDIA 的优势是其解决方案的可用性,和 CUDA/OpenCL 软件开发,这两方面 CEVA 都想要通过一键软件平台来构建,如 CDNN2 ,并提高硬件,如 XM6。想到哪些半导体合作伙伴和未来的构建工具,能将这种图像处理与机器学习融合一起。CEVA 认为,智能手机、汽车、安全性和商业应用于,如无人机、自动化将是主要目标。Via:ANAND TECH引荐读者:微软公司 CEO 纳德纳:我们的 AI 之路将不会与众不同未来无人驾驶首秀,竟然不是自动驾驶轿车?原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:沙巴官网入口-www.lissalinks.com