2. 元智大学 资讯传播学系, 台湾 桃园 32003
2. Department of Information Communication, Yuan Ze University, Chung-Li Taiwan 32003, China
增强现实(Augmented Reality, AR)是一种把虚拟世界信息添加到用户视觉感官上再来观察真实世界信息的技术,其通过计算机加上相应的图像技术将真实的环境和虚拟的物体实时地叠加到了同一个画面或存在于同一个空间内[1]。
Wu等[2]于2013年首次提出时间心理视觉调制(Temporal Psycho Visual Modulation, TPVM)的概念用于实现AR,其方法是将高刷新的光学显示与非负矩阵分解相结合以达到不同条件下具有差异化的观看效果。该方法是基于视觉心理物理学(psycho-physics of vision)的一个认知:人眼视觉系统(Human Visual System, HVS)在多数情况下,无法察觉到超出60 Hz的光信号变化,同时利用投影仪或显示器可以超过60 Hz刷新率的机制,例如120 Hz或更高[3]。继而使用特殊的3D眼镜,针对不同的人群可以获取特定帧的图像信息,以达到增强现实的效果。在该技术提出后的一段时间内,许多研究者对此进行了更深入的研究并且进一步拓展其应用。Hu等[4]在TPVM的基础上,提出在观看同一视频时,针对不同的用户需求能够获取不同语种字幕的应用。该方法虽然能够满足不同用户对字幕的要求,但是不同字幕同时呈现在显示设备上会影响原始影像的显示效果。而在此基础上Zhai等[5]又将数字信息与视频相结合,做到防止影像偷拍的应用。可是,在完成防偷拍目的的同时,由于对普通影像进行的处理会使得正常人眼观察到的图像与原始图像存在一定的差异,实用性略有欠缺。Hu等[6]还利用该想法实现在显示器中显示的图像文字等信息与普通人眼观察的不同,以保证在公众场合对显示文字或图像信息的机密性。该方法虽然巧妙地实现了信息的多样性和安全性,但是需要佩戴价格不菲的3D眼镜,实用性受到一定限制。随着智能手机设备的普及,如果能利用手机内置的数字相机结合TPVM技术实现增强现实效果,便能大大降低使用成本,增强实用性。
本文基于上述想法提出一种解决方案:通过对普通影像进行处理,使得人眼视觉在数字显示器或者投影仪中能正常观察没有标记的原始影像,而使用数字拍摄装置智能设备能够捕捉到带有标记的图像,从而达到佩戴3D眼镜的效果。为了实现这个效果,特别设计了一个增强现实标记(AR标记)[7-8]嵌入方式。AR标记是一个参考标签标记系统,是用以完成增强现实效果的一种必要手段[9-10]。本文提出的AR标记嵌入方式是将数字相机与TPVM技术相结合以实现增强现实效果的有效手段。由于现在几乎人手一台的智能手机都标配了数字相机,本文方法的使用去除了之前研究文献中所使用的价格不菲的额外设备,大大降低了AR技术的使用限制,从而拓展了TPVM的实用性。
1 相关研究TPVM是Wu等[3]在2013年才提出的一种显示技术,该技术基于视觉心理物理学原理,巧妙地利用人眼视觉系统与数字相机成像系统的差异,将带有特殊信息的数据嵌入影像中,在高频率刷新的显示器中循环播放使用非负矩阵分解设计形成图像的原子帧,使得不同的观看者通过佩戴调制后的设备在观察同一个显示器时获取特殊信息或不同感知图像的目的。TPVM通过以下方式实现:通过使用特殊的液晶眼镜加权在高速播放显示器中的原子帧,再根据观察图像进行权重调整用以衰减原子帧的光强度,然后形成所需的图像。设Y为人眼所观察到的图像,X为高速循环播放的原子帧,W为权重且在0到1之间,液晶眼镜通过Y=XW的方式进行信息分解。由于像素值和特殊的液晶眼镜无法实现负值或负权重,在信号分解时Y=XW必须是一个非负矩阵分解。TPVM显示系统解决了以下显示问题:即在重建目标图像Y的最佳可视化情况下,找到在高速播放的显示器中的原子帧,同时确定在同步显示的液晶眼镜上的调制矩阵即权重W。
如前文所述,文献[4-5, 11]等将TPVM应用于信息隐藏、打击盗版、信息安全等方面,但这些系统都需要佩戴特殊的3D眼镜,使得在显示器中显示的图像文字等信息与普通人眼观察的内容产生一定的差异。这几种方法虽然巧妙地避开了信息的泄露,保护了信息的安全,打击了盗版行为,但是需要佩戴价格不菲的3D偏振眼镜,实用性受到一定限制。
2 系统方法本文方法主要结合TPVM技术与AR标记设计一个人眼不易察觉的附有增强现实影片的方法。人眼和数字相机成像之间存在一定差异:人眼视觉系统需要连续光场以形成一个稳定的完整图像;而对于数字成像照相机,不管其传感器类型是光电荷耦合器件(Charge-Coupled Device, CCD)还是互补金属氧化物半导体(Complementary Metal Oxide Semiconductor, CMOS)集成电路[12],其成像传感器的电荷清洗过程和拍摄参数设置过程都需要短暂的时间,所以在使用者按下快门后到图像拍摄完毕期间会存在延时情况。这样数字成像与人类视觉系统所产生的影像就有了不同。基于该差别,本文结合TPVM和AR技术设计一种方法使得人眼和数字相机捕捉到截然不同的图像。假设人眼不受影响的关键闪烁频率是60 Hz,投影仪的刷新率为120 Hz,则投影仪能够发射一对不会引起人眼闪烁感觉的关键帧。需要注意的是,DLP (Digital Light Processing)[13]投影技术的刷新率并不只限制于120 Hz。
图 1显示了本文方法的体系结构。首先将原始帧基于TPVM和AR技术加以处理后呈现在120 Hz刷新率的显示器上。当人们在浏览显示器显示的图片时,普通情况下观察到的影像与原始帧是一致的;但是,当通过手机的数字相机看屏幕在播放的影像时,手机会捕捉到AR标记并在屏幕上显示AR效果。
令I和T分别表示原始图像和AR标记图像;针对120 Hz的显示器或者投影仪产生一对奇偶数帧,分别用A和B来表示。首先,对于观察者来说,显示器或者投影仪等设备所发射的奇偶数帧应该能够使其正常观察到影像[14];其次,最大程度上使得照相设备能够捕捉到AR标记图像。为了达到AR的效果,意味着需要增加A、B和I之间的距离。这里,基于TPVM的显示机制需要满足以下式子:A=I-T以及B=I+T,这样能够使得显示出的影像为没有影响的一对帧。对于8-bit的RBG图像A、B和I,它的灰度值应该在[0, 255],所以T需要调整,使得奇偶数帧的灰度值在[0, 255]范围内。最后,人眼会观察到通过混合图像的补图像A+B=2I。可是,对于大多数的显示器或投影仪来说,亮度和灰度呈非线性关系。也就是说,人的眼睛无法接受直接调节灰度值和亮度的显示结果。下面分别介绍嵌入和读取的方法。
2.1 嵌入AR标记给定一个影片帧F和一个AR标记T,为了使影像的内容具有增强现实的辨识标记,本文方法利用120 Hz刷新率的显示器对T进行调整以嵌入F内。由于目前网络中大部分影像每秒传输的帧数(Frames Per Second)是30,所以对于120 Hz刷新率的显示器可以将原始的帧扩增为4张。嵌入过程如图 2所示。首先,复制F产生与之相同的4张子帧,分别表示为F1、F2、F3和F4;针对F3,运用水印技术将T与F3进行下列计算处理,以得到嵌入后的F3。
1) 利用最小方差算法寻找F3内最大的平滑区域,将此区域表示为F3AR;同时利用彩色转灰度算法将该区域RGB图像转为灰度图像,并表示为F3GAR。
2) 因为灰度图像的像素值在0~255,127为灰度图像的中间值。令F3GAR(x, y)为F3GAR于(x, y)的图像位置,T(x, y)为F3GAR(x, y)于(x, y)的图像位置。因为T是黑白图像,故令T(x, y)=0表示图像为黑色,T(x, y)=1表示图像为白色。这里设置一嵌入权重ω,根据F3AR的平均灰度值我们用如下方式进行操作。
若F3GAR(x, y)≥127,则依式(1) 将T(x, y)嵌入至F3AR(x, y):
$\mathit{\boldsymbol{\bar F}}_3^{{\rm{AR}}}(x,y){\rm{ = }}\left\{ {\begin{array}{*{20}{l}} {\omega \times \mathit{\boldsymbol{F}}_3^{{\rm{AR}}}(x,y),} & {\mathit{\boldsymbol{T}}(x,y) = 0}\\ {\mathit{\boldsymbol{F}}_3^{{\rm{AR}}}(x,y),} & {\mathit{\boldsymbol{T}}(x,y) = 1} \end{array}} \right.$ | (1) |
若F3GAR(x, y)<127,则依式(2) 将T(x, y)嵌入至F3AR(x, y):
$\mathit{\boldsymbol{\bar F}}_3^{{\rm{AR}}}(x,y){\rm{ = }}\left\{ {\begin{array}{*{20}{l}} {\left( {1 - \omega } \right) \times \mathit{\boldsymbol{F}}_3^{{\rm{AR}}}(x,y),} & {\mathit{\boldsymbol{T}}(x,y) = 0}\\ {\mathit{\boldsymbol{F}}_3^{{\rm{AR}}}(x,y),} & {\mathit{\boldsymbol{T}}(x,y) = 1} \end{array}} \right.$ | (2) |
之后,得到嵌入T之后的图像F3。
AR系统需要将数字相机获取的AR标记与计算机内记录的标记进行匹配,当获取的特征值达到阈值则认为匹配成功。这里让TY表示原始标记所有的特征点,TZ表示相机获取的特征点,误差TW=TY-TZ,误差率TL=TW/TY,误差率越低表示识别越准确。根据误差率确定嵌入权重ω的选择。
3) 对上述可能产生超出限额值的F3AR(x, y)像素值进行调整,如果F3AR(x, y)>255,则设定值等于255。这样便得到嵌入AR标记后的图像。
由于F3具有嵌入后的AR图案,故当播放视频时,人眼会对AR标记产生残留感,影响视觉质量。为了提升视频效果,将上述步骤所产生的F3与原始子帧F1、F2及F4组合成一个帧组F。在120 Hz显示器播放时,设定每一个子帧的播放频率为30 Hz,在120 Hz下刚好播放一组F。人眼视觉对于播放频率在60 Hz以下的视频显示会有明显的闪烁感,并且能够比较明显地观察到带有AR标记的图像以及残影,影响整个视频的观看体验,而调整后当F在120 Hz显示器播放时,可大大降低AR标记对人眼的残留感,让播放视频获得较佳的视觉质量。
2.2 读取AR标记由于更新频率为120 Hz比较高,当使用手机拍摄时,嵌入的标记只会存在于部分时间段内的影片中,需要在短时间内对影像获取嵌有AR标记的图像,所以这里选取一些快速的处理方法进行处理。对于在显示器上播放的影像,使用智能手机一秒4帧拍摄4张图像,令其为P1、P2、P3和P4。获取图像后,运用图像增强和二值化方式将这4张图像进行下列计算处理,以得到能使AR扫描的二值化图像。
1) 利用彩色转灰度算法将这4张RGB图像转为Gary图像,令其为G1、G2、G3和G4。
2) 由于获得的灰度图像黑白两色的对比不够明显,故当手机扫描时,不容易产生AR效果。为了使提升灰度图像的黑白对比效果并缩短计算的时间,选择进行直方图灰度拉伸的方法对图像进行增强。针对该灰度图像,分别计算获取各个图像的直方图H1、H2、H3和H4。
3) 令Gn(x, y)为Gn在(x, y)图像位置,n(n=1, 2, 3, 4) 为输入的图像编号,[a, b]为直方图内灰度值最多落入的区域,依式(3) 将直方图拉伸至[0, 255]的区域:
$\begin{array}{l} {{\mathit{\boldsymbol{\bar G}}}_n}(x,y){\rm{ = }}[255/(b - a)] \times [{\mathit{\boldsymbol{G}}_n}(x,y) - a];\\ \quad \quad \quad \quad n \in \left\{ {1,2,3,4} \right\} \end{array}$ | (3) |
以获得增强后的直方图H1、H2、H3和H4。直方图Hn(n=1, 2, 3, 4) 分别对应增强后的图像G′1、G′2、G′3和G′4,通过最大类间方差法分别进行下列处理:
设L为目标与背景的分割阈值,取值范围为该图像的最小灰度值与最大灰度值之间的值。目标点数占图像比例为m1,平均灰度为s1;背景点数占图像比例为m2,平均灰度为s2。图像的总平均灰度为:
$s = {m_1} \times {s_1} + {m_2} \times {s_2}$ | (4) |
依式(5) 计算出前景和背景图像的方差:
${\sigma ^2}(L) = {m_1}{({s_1} - s)^2} + {m_2}{({s_2} - s)^2}$ | (5) |
这里,当类间方差最大时阈值L则为所求。
4) 扫描处理后的二值化图像,获取需要的AR效果并呈现于手机上。
依照上述计算处理,可对每张影片的帧嵌入AR标记,来获得具有不可察觉AR的连续影片,把TPVM与AR技术相结合,将AR标记隐藏在图像中,人眼无法察觉,而使用智能移动设备依然能够获取AR效果。
3 仿真分析在实验阶段使用的计算机软硬件环境如下:CPU的型号为Intel酷睿i5 6300HQ,主频为2.3 GHz,内存为8 GB,使用Matlab R2015a软件进行编译并对图像进行处理。选择如图 3所示的图像作为一个帧F和一个AR标记T。对于F复制产生与之相同的4张子帧。
针对第三张帧F3,将T嵌入进图像中。首先,对于F,计算出其对应的灰度值的平均值为202。为了使得识别误差更小、显示效果更好,对于嵌入权重的选择给出如下建议:
AR标记T有31个特征点,设置嵌入权重分别为0.75,0.80,0.85,0.90和0.95时,处理后局部带有的AR标记如图 4所示,各权重下对特征点获取的误差数据如表 1所示。可以看出当嵌入权重为0.85时,手机扫描到28个特征点,误差为3,误差率为9.67%,此时最优,故建议选择该参数。
通过AR软件进行后置处理呈现AR效果。对于处理后的视频,用数字相机拍摄的效果如图 5(a)所示,人眼观看的效果如图 5(b)所示。这里选用的数字相机为Lenovo S810t手机的内置摄像头,分辨率为800万像素,手机操作系统为Android 4.3。
针对Lenovo手机获得的图像,将RGB图像转为Gary图像。针对该图像进行直方图灰度拉伸,将图像增强。最后使用最大类间方差法得出二值化后的黑白两色图像如图 6所示。手机获取AR标记并实现增强现实的最终效果如图 7(a)所示,图 7(b)为对不同原始图像采用相同方法获得的效果图。
不同手机摄像头在相同嵌入权重参数时的拍摄误差如表 2所示,这里选择权重参数为0.85。可以看出针对不同相机依然有较高的实用性。
为了拓展增强现实(AR)的实用性,本文提出一种基于TPVM技术和数字相机来实现AR效果的方法。通过利用人眼和半导体摄像传感器之间成像的差异,调整显示器或者投影仪的显示频率,将AR标记嵌入图片或影像内。在不影响影像正常播放下,实现人眼无法看见的AR标记,但可以通过使用智能手机计算装置捕捉到标记的存在并完成AR效果。本研究测试了不同手机不同权重下对嵌入的AR标记的影响,并且提出了比较好的嵌入权重选择。同时,结合选择使用一些快速的处理算法,能够减少智能移动设备的响应时间,更快地呈现AR效果。
目前,本文所提出的方法只是改善了部分问题,拓展了TPVM与增强现实的实用性。未来可从以下方面展开进一步研究:处理扫描图像的优化,设计适用于不同周围环境、较佳AR的嵌入处理等。
[1] | 朱淼良, 姚远, 蒋云良. 增强现实综述[J]. 中国图象图形学报, 2004, 9(7): 767-774. (ZHU M L, YAO Y, JIANG Y L. A survey on augmented reality[J]. Journal of Image and Graphics, 2004, 9(7): 767-774. DOI:10.11834/jig.200407144) |
[2] | WU X, ZHAI G. Temporal psychovisual modulation:A new paradigm of information display[exploratory DSP][J]. IEEE Signal Processing Magazine, 2013, 30(1): 136-141. DOI:10.1109/MSP.2012.2219678 |
[3] | QI H, ZHENG D, ZHAO J. Human visual system based adaptive digital image watermarking[J]. Signal Processing, 2008, 88(1): 174-188. DOI:10.1016/j.sigpro.2007.07.020 |
[4] | HU C, ZHAI G, GAO Z, et al. Simultaneous triple subtitles exhibition via temporal psychovisual modulation[C]//ICIEA 2014:Proceedings of the 20149th IEEE Conference on Industrial Electronics and Applications. Piscataway, NJ:IEEE, 2014:944-947. |
[5] | ZHAI G, WU X. Defeating camcorder piracy by temporal psychovisual modulation[J]. Journal of Display Technology, 2014, 10(9): 754-757. DOI:10.1109/JDT.2014.2317810 |
[6] | HU C, ZHAI G, GAO Z, et al. Information security display system based on spatial psychovisual modulation [C]// ICME 2014: Proceedings of the 2014 IEEE International Conference on Multimedia and Expo. Washington, DC: IEEE Computer Society, 2014: 1-4. |
[7] | KIM H, LEE W, WOO W. CAMAR tag framework: context-aware mobile augmented reality tag framework for dual-reality linkage [C]// ISUVR 2009: Proceedings of the 2009 International Symposium on Ubiquitous Virtual Reality. Washington, DC: IEEE Computer Society, 2009: 39-42. |
[8] | LU X Y, YOU B, LIN P-Y, Augmented reality via temporal psycho-visual modulation [C]// ICME 2016: Proceedings of the 2016 IEEE International Conference on Multimedia & Expo. Washington, DC: IEEE Computer Society, 2016: 1-4. |
[9] | HIEN T, HYERIM P, SEON H K, et al. Incorporating geo-tagged mobile videos into context-aware augmented reality applications [C]// BigMM 2016: Proceedings of the 2016 IEEE Second International Conference on Multimedia Big Data. Piscataway, NJ: IEEE, 2016: 295-302. |
[10] | KE F, HSU Y-C. Mobile augmented-reality artifact creation as a component of mobile computer-supported collaborative learning[J]. The Internet and Higher Education, 2015, 26: 33-41. DOI:10.1016/j.iheduc.2015.04.003 |
[11] | GAO Z, ZHAI G, WU X, et al. DLP based anti-piracy display system [C]// VCIP 2014: Proceedings of the 2014 IEEE Visual Communications and Image Processing Conference. Piscataway, NJ: IEEE, 2014:145-148. |
[12] | TAYLOR S A. CCD and CMOS imaging array technologies: technology review, EPC-1998-106[R]. Cambridge: Xerox Research Centre Europe, Cambridge Laboratory, 1998: 1-14. |
[13] | THOMAS J F, MICHAEL W D. Concepts in digital imaging technology, digital cameras readout and frame rates [EB/OL]. [2016-05-23]. http://learn.hamamatsu.com/articles/. |
[14] | YAMADA T, GOHSHI S, ECHIZEN I. Use of invisible noise signals to prevent privacy invasion through face recognition from camera images [C]// MM 2012: Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM, 2012: 1315-1316. |