- 政策解读
- 经济发展
- 社会发展
- 减贫救灾
- 法治中国
- 天下人物
- 发展报告
- 项目中心
|
2.虚拟现实与数字媒体技术
2.1媒体大数据内容理解与智能服务
通过对媒体大数据进行深度分析和关联挖掘,建立符合媒体内容理解的计算模型,实现异构媒体(图像、视频、音频和文本)的结构化描述和语义协同,突破媒体内容理解的关键技术,显著提升媒体大数据的使用价值,为基于语义的媒体搜索、监管与服务等相关产业的发展提供技术支撑并建立典型应用示范。下设5个研究方向。
2.1.1媒体大数据的深度分析与结构化描述(国拨经费限600万元,实施年限3年)
在超过10TB的数据集上建立多层次多角度的语义描述模型,研究媒体大数据的概念表示、事件提取、多角度语义表述、结构组织、内容分析的多层次结构化描述方法,形成超过300个媒体内容深度分析的概念模型,为媒体大数据的内容理解奠定基础。
2.1.2异构媒体数据的关联与挖掘(国拨经费限500万元,实施年限3年)
研究异构媒体关联分析与表达、基于上下文的多模态特征融合、异构媒体相似性计算等问题,建立异构媒体的语义关联和统一表示,实现跨媒体的内容挖掘和异构媒体的统一管理。在超过10TB的数据集上视频、图像、音频和文本之间的关联速度小于2秒。
2.1.3面向社交网络的搜索方法与群体行为分析(国拨经费限600万元,实施年限3年)
在社交网络数据信息融合的基础上,提出新型搜索模式与群体推荐方法,研究社交网络中个体角色、信息传播规律、群体行为演化的分析与预测技术,实现社交网络信息的高效获取和态势感知。在真实社交网络环境下,千万级用户动态社交数据的增量分析比静态分析速度提高15%,基于用户偏好的预测及信息推荐方法的准确率比现有方法提高10%。
2.1.4媒体大数据内容聚合与呈现(国拨经费限500万元,实施年限3年)
在分析用户的属性、兴趣偏好、行为特征等信息的基础上,通过领域知识构建和社会需求发现,建立用户的兴趣模型;在媒体内容聚类、关联和挖掘基础上,提供符合用户特定需求的多层次多维度的媒体信息聚合与呈现。聚合信息来源覆盖新闻、论坛、博客、微博、社交网站等网络媒体,热点事件信息提取的准确率超过85%。
2.1.5基于网络媒体内容的智能服务平台(国拨经费限800万元,企业牵头申报,实施年限3年)
搜集、整合与管理超过10亿网络媒体用户的数据,通过分类与挖掘建立超过30个多维度、分层次的需求模型;研发满足千万级用户并发访问的网络异构媒体大数据存储、管理与分析系统,构建高可靠的基于媒体内容的智能服务平台,实现关键技术验证和基于语义的媒体智能服务示范。
2.2面向移动终端的多模态自然交互技术
研究提升移动终端视觉、听觉感观性能的手段,探讨增强现实、情感语音、手势等创新性人机交互技术,实现系统集成,达到提高下一代智能移动终端易用性和便捷性的目的。下设5个研究方向。
2.2.1基于LCOS的眼镜型透视融合显示系统(国拨经费限1300万元,企业牵头申报,实施年限3年)
完成大规模SDRAM器件与数字逻辑器件共融的集成电路设计和准亚微米厚度液晶盒制造工艺研究,提供微型高分辨率(1920×1080)时间混色LCOS芯片;研究波导器件设计和加工方法,研制眼镜型透视式增强显示系统,波导器件厚度≤3mm,显示视场角≥35度,在该视场角范围内实现虚实融合显示。
2.2.2基于移动终端的户外实时视觉定位技术(国拨经费限600万元,企业参与申报,实施年限3年)
研究高效的视觉特征提取及编码技术、海量场景的快速识别技术、资源受限环境下的高精度实时跟踪定位技术。制定视觉定位相关技术标准,重点研究视觉特征的数据规范。单幅图像的视觉特征描述小于2K字节,视觉定位准确率大于80%。研制符合标准规范的低功耗硬件。建立基于移动终端的大范围户内外视觉定位服务平台,实现在旅游、文化等领域的示范应用。
2.2.3基于视觉的非接触式自然人机交互技术(国拨经费限500万元,企业参与申报,实施年限3年)
研制可用于移动终端的新型光学传感器设备,研究低功耗控制电路及新型多模传感紧凑(或单封装)型构件,在移动终端上实现新型多模态的非接触式自然人机交互。实现对用户手指运动的跟踪,完成虚拟键盘操作等功能,刷新速度30帧/秒,跟踪覆盖区域60度,跟踪范围50cm。
2.2.4多方言的高表现力情感语音交互系统(国拨经费限500万元,企业参与申报,实施年限3年)
研发带有多种方言口音的普通话低运算复杂度语音交互嵌入式引擎和基于云计算的语音交互服务平台,研制面向移动终端多种交互方式融合的情感语音交互系统。方言普通话连续语音识别正确率达到95%;对话、疑问、感叹语气自然度的主观意见平均分(MOS)超过4.0;愉悦、悲伤等情感识别准确率超过80%;日常生活问答的准确率超过80%。
2.2.5移动终端三维声场技术(国拨经费限600万元,企业参与申报,实施年限3年)
研究3D音频高效感知压缩技术,提升3D音频空间信息压缩率25%以上;研究个性化HRTF库多级选择方法,减少前后混淆效应30%以上;研究实时声场增强技术,在资源受限的移动终端上实现3D音频的实时生成,用耳机实现3D声场的再现;研制简单易用的3D音频编辑创作工具和播控服务器,支持2000人以上的并发3D音频请求。
2.3全景互动关键技术与示范系统
针对安全生产、仿真训练、文化科技等领域的应用需求,突破球面全景建模、复杂场景动态演化、实时角色植入与虚实合成、人群实时剧情交互等全景互动关键技术,构建具有高真实感的全景互动系统支撑平台并实现应用示范。下设3个研究方向:
2.3.1球面全景建模技术(国拨经费限500万元,实施年限3年)
针对球面全景应用要求,研究机载、车载和手持便携等设备获取的多源数据处理与建模技术,自然现象与动植物快速精细建模与表现技术,融合图形图像的表观模型建模及交互表现方式,研制3D全景建模工具,全景模型精度达厘米级,场景范围不小于100公里。
2.3.2大规模复杂场景动态演化模拟技术与系统(国拨经费限1000万元,实施年限3年)
重点研究基于数学物理特性的大规模复杂场景的高可信建模技术;探索研究交互过程中复杂场景的演化规律,研发具有高度物理真实的动态发展过程、发展状态模拟技术与平台,其中演化模拟的典型复杂场景不少于4个,帧率不低于25帧/秒;提出有效的误差度量方法和准则,构建模型可信性评估与验证平台。
2.3.3大型全景互动系统及其应用示范(国拨经费限800万元,企业牵头申报,实施年限3年)
突破多视角高清内容的高速自动生成技术、实时角色植入与虚实合成技术、用户人群实时交互技术,研制多线索数字脚本编辑与内容制作平台。集成本项目研究成果,面向安全生产、仿真训练、文化科技等领域需求,研发大型全景互动系统并应用示范,系统总体性能和主要技术指标达到2015年底国际先进水平。