存储器存取任务不繁重时,CPU利用率与内核频率呈近似线性关系,因此内核频率变化时,应用成本曲线(如负载曲线中所示)应与内核频率曲线呈平直并行走向。L2缓存接通时,MP3和AAC+解码器是很好的例子,因为MP3和AAC+解码器仅引入很少量的存储器存取操作,而且这些存取操作大多数都由L2缓存处理了。在没有L2缓存的情况下,应用负载随内核频率升高而增大。我们还发现,无论L2缓存接通还是断开,缓存失效率在CPU频率变化时,没有显着改变,这意味着,要表示存储器的存取情况,整体数据缓存失效率不是一个非常有效的衡量指标。
直觉上,存储器访问率包含了与缓存失效率类似的系统信息量,因为缓存失效直接引发存储器存取。不过,我们得到的结果表明,情况并非如此。例如,H.264 QCIF解码器显示了与H.264 QVGA解码器类似的缓存失效率趋势。但是与H.264 QCIF解码器相比,H.624 QVGA解码器在存储器存取上所占应用时间的百分比要大得多。这再一次证明,只监视缓存失效率是不够的。如果总体缓存存取量微不足道,那么缓存失效率未必导致性能下降。没有L2缓存的MP3解码器是这种情况的一个很好的例子。另一方面,典型的缓存失效率可能导致大量存储器存取操作。H.264 QVGA解码器显示了这种趋势。
这些不同的方法从不同角度反映出存储器的特性。我们能以合理的开销使用一种方法或组合使用多种方法,以更有效地进行性能分析、做出更准确的预测。
在测试中,我们使用了Marvell的应用处理器,运行基于Linux的操作系统,采用QVGA LCD显示器作为测试平台。pcb抄板该应用处理器包括两级缓存。在本次研究中,我们专注于MP3、AAC+和H.264解码器。
图1显示了对三种不同方法进行比较的结果。每张图都包括两条曲线:一条是启动了二级(L2)缓存的情况;另一条则是禁用了二级缓存的情况。测试了三个CPU频率。
如果不涉及存储器操作,那么CPU利用率应该随着CPU内核的频率呈线性关系,而应用成本(定义为CPU利用率和CPU频率的乘积)应该保持恒定。但在考虑存储器存取以后,CPU利用率就不再随内核频率呈线性关系了。在频率较高时,存储器对性能的影响往往更大,因为CPU要用更多的CPU周期等待存储器的响应(这里我们假定,存储器频率不随CPU频率而变)。从这种意义上,应用可以分为两种类型:计算限定型和存储器限定型。
接下来,我们来讲述如何用三种不同的方法表征存储器特性,电路板克隆并帮助确定应用的CPU利用率。在此,硬件性能信息是通过查看性能监视单元(Performance Monitoring Unit,简称PMU)来收集的。因此,Marvell的方法仅适用于有PMU硬件支持的系统。
1. 整体数据缓存失效率:直觉上,较高的数据缓存失效率意味着更大的存储器流量。为了获得数据缓存失效率的数值,我们需要监视一级数据缓存和二级数据缓存(如果有的话)的存取操作和失效总数。
2. 主存储器访问率:外部存储器控制器的占用率直接表明了存储器的利用率。为了得 到主存储器访问率数值,必须收集两种PMU信息:存储器控制器被占用的周期总数;监视窗口中的周期总数。
3. 数据停顿率:流水线停顿主要由数据相关性引起,而数据不可用的原因是存储器存取速度远比CPU速度低。因此,流水线的停顿次数反映了存储器的流量情况。此外,流水线停顿次数还表明了存储器存取的重要性。并不是每次存储器存取都对最终性能有关键影响,因此,持续跟踪因数据相关性对性能造成影响的存储器存取操作,是相当有用的。使用这种方法,可以监视由数据相关性引起停顿的事件情况。此外,必须记录总的周期数,以计算每个窗口中的数据停顿率。
当前位置:易博PCB抄板工作室 >> 技术文档 >> 深圳电路板克隆带你一起究存储器特性以分析和预测应用处理器性能及功耗