

(19) 日本国特許庁(JP)

## (12) 特許公報(B2)

(11) 特許番号

特許第6079433号  
(P6079433)

(45) 発行日 平成29年2月15日(2017.2.15)

(24) 登録日 平成29年1月27日(2017.1.27)

(51) Int.Cl.

G06F 17/10 (2006.01)  
G06F 15/80 (2006.01)

F 1

G06F 17/10  
G06F 15/80

D

請求項の数 7 (全 17 頁)

(21) 出願番号 特願2013-109210 (P2013-109210)  
 (22) 出願日 平成25年5月23日 (2013.5.23)  
 (65) 公開番号 特開2014-229133 (P2014-229133A)  
 (43) 公開日 平成26年12月8日 (2014.12.8)  
 審査請求日 平成28年2月26日 (2016.2.26)

(73) 特許権者 000005223  
 富士通株式会社  
 神奈川県川崎市中原区上小田中4丁目1番  
 1号  
 (74) 代理人 100090273  
 弁理士 國分 孝悦  
 (72) 発明者 伊藤 真紀子  
 神奈川県川崎市中原区上小田中4丁目1番  
 1号 富士通株式会社内  
 (72) 発明者 久保田 学  
 福岡県福岡市早良区百道浜2丁目2番1号  
 富士通九州ネットワークテクノロジーズ  
 株式会社内

最終頁に続く

(54) 【発明の名称】 移動平均処理プログラム、及びプロセッサ

## (57) 【特許請求の範囲】

## 【請求項 1】

m個(mは2以上の整数)の演算処理を並列に実行し、かつ0番目から(m-1)番目の入力要素を基に、0番目からp番目(pは0~m-1の整数)の前記入力要素の和を算出してp番目の結果要素としてそれぞれ返す部分総和命令を実行するプロセッサに、

入力データ系列のi番目から(i+m-1)番目(iは0及び自然数のうちの任意の数)の要素を0番目から(m-1)番目の前記入力要素とする前記部分総和命令を実行して第1のベクトルデータを取得する第1の演算処理と、

前記入力データ系列の(i+x)番目から(i+x+m-1)番目(xは自然数)の要素を0番目から(m-1)番目の前記入力要素とする前記部分総和命令を実行して第2のベクトルデータを取得する第2の演算処理と、

前記入力データ系列のi番目から(i+x-1)番目の要素の和に、前記第1のベクトルデータのp番目の要素を減算し、前記第2のベクトルデータのp番目の要素を加算する処理を、0番目から(m-1)番目の各要素について並列に行うことにより、互いに異なるm個の区間について要素の和を並列に算出する第3の演算処理と、

算出した各区間の要素の和から前記入力データ系列の移動平均を算出する移動平均処理とを実行させることを特徴とする移動平均処理プログラム。

## 【請求項 2】

値iをmずつ増加させて前記第1の演算処理、前記第2の演算処理、前記第3の演算処理、及び前記移動平均処理を1組として繰り返し実行し、

前の組の前記第3の演算処理における( $i + m$ )番目から( $i + x + m - 1$ )番目の要素についての和を、次の組の前記第3の演算処理における前記入力データ系列の*i*番目から( $i + x - 1$ )番目の要素の和として演算を行うことを特徴とする請求項1記載の移動平均処理プログラム。

#### 【請求項3】

前記入力データ系列は0番目から( $n - 1$ )番目( $n$ は2以上の整数)の要素を有し、

前記入力データ系列を各区間についての要素数をx個とするように拡張し前記移動平均を算出することを特徴とする請求項2記載の移動平均処理プログラム。

#### 【請求項4】

前記入力データ系列の0番目から( $n - 1$ )番目の要素に応じたマスクビットを生成し 10

、前記マスクビットに応じた要素のデータのロード処理及びストア処理を行うことを特徴とする請求項3記載の移動平均処理プログラム。

#### 【請求項5】

算出された移動平均を格納する出力バッファを有し、

前記入力データ系列の拡張に応じて、前記出力バッファを拡張したことを特徴とする請求項3又は4記載の移動平均処理プログラム。

#### 【請求項6】

前記移動平均を算出する各区間の有効な要素数の逆数を格納した係数テーブルを有し、

前記平均化処理では、前記第3の演算処理の結果に、前記係数テーブルを参照して得られる逆数を乗算し移動平均を算出することを特徴とする請求項1~5の何れか1項に記載の移動平均処理プログラム。 20

#### 【請求項7】

入力データ系列の移動平均を複数の区間について並列に算出する演算処理部を有し、

前記演算処理部は、

第1の SIMD レジスタの各要素に対して、前記入力データ系列の*i*番目から( $i + p$ )番目(*i*は0及び自然数のうちの任意の数、*p*は0~ $m - 1$ の整数、*m*は2以上の整数)の要素の和を算出して前記第1の SIMD レジスタに*p*番目の要素として格納する第1の演算処理と、

第2の SIMD レジスタの各要素に対して、前記入力データ系列の( $i + x$ )番目から( $i + x + p$ )番目(*x*は自然数)の要素の和を算出して前記第2の SIMD レジスタに*p*番目の要素として格納する第2の演算処理と、 30

前記入力データ系列の*i*番目から( $i + x - 1$ )番目の要素の和に、前記第2の SIMD レジスタの*p*番目の要素を加算し、前記第1の SIMD レジスタの*p*番目の要素を減算して第3の SIMD レジスタに*p*番目の要素として格納する処理を0番目から( $m - 1$ )番目の各要素について並列に行うことにより、互いに異なる*m*個の区間について要素の和を並列に算出する第3の演算処理と、

前記第3の SIMD レジスタに格納された要素の和から平均値を算出する平均化処理とを実行することを特徴とするプロセッサ。

#### 【発明の詳細な説明】

40

#### 【技術分野】

#### 【0001】

本発明は、移動平均処理プログラム、及びプロセッサに関する。

#### 【背景技術】

#### 【0002】

近年、無線通信技術では様々な方式が標準化されており、様々な無線通信方式に対応可能のようにソフトウェア無線というプロセッサで信号処理を行うものがある。従来の無線通信処理は、ハードウェア・ロジックで大量のデータを並列処理することで、高い通信性能を実現していた。また、モバイル機器に搭載されるため、低消費電力化の点から動作周波数を高くすることができない。そのため、プロセッサを用いてソフトウェア無線処理を 50

行う場合も、大量のデータを並列に処理することで性能を維持する必要があり、S I M D (Single Instruction Multiple Data) 型のプロセッサが使用されることが多い。

#### 【0003】

無線通信処理における信号処理のなかで、移動平均を求める処理がある。移動平均処理は、移動平均の対象とする区間の要素数を  $n$  とすると、入力データ系列のインデックス  $i$  に対して、 $i$  の値をインクリメントしながら、入力データ系列の  $i \sim (i + n - 1)$  番目の要素（データ）の平均値を順次求める処理である。移動平均処理は、 $i \sim (i + n - 1)$  番目の要素の総和を求めた後、 $(i + n)$  番目の要素を加算するとともに  $i$  番目の要素を減算して  $(i + 1) \sim (i + n)$  番目の要素の総和を求め、区間の要素数  $n$  で除算し平均値を求ることで効率的に処理を実行することができる（例えば、特許文献 1 参照）。

10

#### 【先行技術文献】

##### 【特許文献】

##### 【0004】

【特許文献 1】特開平 10 - 143495 号公報

【特許文献 2】特開 2012 - 75023 号公報

【特許文献 3】特開平 1 - 61114 号公報

【特許文献 4】特開平 10 - 285502 号公報

【特許文献 5】特開 2011 - 233085 号公報

##### 【発明の概要】

##### 【発明が解決しようとする課題】

20

##### 【0005】

しかし、 $i \sim (i + n - 1)$  番目についての演算結果に対し加減算等を行い、次の  $(i + 1) \sim (i + n)$  番目についての移動平均を求めていく移動平均処理は、データの依存関係から並列化が困難であり、S I M D 型のプロセッサで効率的に処理することが難しい。本発明は、移動平均処理に係る演算処理を並列化して移動平均処理の処理効率を向上させることを目的とする。

##### 【課題を解決するための手段】

##### 【0006】

移動平均処理プログラムの一態様は、 $m$  個 ( $m$  は 2 以上の整数) の演算処理を並列に実行し、かつ 0 番目から  $(m - 1)$  番目の入力要素を基に、0 番目から  $p$  番目 ( $p$  は  $0 \sim m - 1$  の整数) の入力要素の和を算出して  $p$  番目の結果要素としてそれぞれ返す部分総和命令を実行するプロセッサに、以下の処理を実行させる。入力データ系列の  $i$  番目から  $(i + m - 1)$  番目 ( $i$  は 0 及び自然数のうちの任意の数) の要素を 0 番目から  $(m - 1)$  番目の入力要素とする部分総和命令を実行して第 1 のベクトルデータを取得する第 1 の演算処理と、入力データ系列の  $(i + x)$  番目から  $(i + x + m - 1)$  番目 ( $x$  は自然数) の要素を 0 番目から  $(m - 1)$  番目の入力要素とする前記部分総和命令を実行して第 2 のベクトルデータを取得する第 2 の演算処理と、入力データ系列の  $i$  番目から  $(i + x - 1)$  番目の要素の和に、第 1 のベクトルデータの  $p$  番目の要素を減算し、第 2 のベクトルデータの  $p$  番目の要素を加算する処理を、0 番目から  $(m - 1)$  番目の各要素について並列に行うことにより、互いに異なる  $m$  個の区間について要素の和を並列に算出する第 3 の演算処理と、算出した各区間の要素の和から入力データ系列の移動平均を算出する移動平均処理とを実行させる。

30

##### 【発明の効果】

##### 【0007】

開示の移動平均処理プログラムは、入力データ系列の部分的な加算処理を別に計算することで、移動平均処理に係る処理を並列して実行し処理効率を向上させることができる。

##### 【図面の簡単な説明】

##### 【0008】

【図 1】本発明の実施形態におけるプロセッサの構成例を示す図である。

【図 2】本実施形態における移動平均処理の並列化を説明するための図である。

40

50

【図3】本実施形態における部分総和命令の演算を説明するための図である。

【図4】本実施形態における部分総和命令実行時のプロセッサを示す模式図である。

【図5】本実施形態における移動平均処理（中部分処理）の例を示す図である。

【図6】本実施形態における移動平均処理（中部分処理）を示すフローチャートである。

【図7】本実施形態における移動平均処理の例を示す図である。

【図8】本実施形態におけるマスク値設定命令を説明するための図である。

【図9】本実施形態における移動平均処理でのロード処理に係るプログラムの例を示す図である。

【図10】本実施形態における移動平均処理でのロード処理に係るプログラムの例を示す図である。

10

【図11】本実施形態における移動平均処理でのストア処理に係るプログラムの例を示す図である。

【図12】本実施形態における係数テーブルを説明するための図である。

【図13】本実施形態における移動平均処理での平均化処理に係るプログラムの例を示す図である。

【図14】本実施形態における移動平均処理に係るプログラムの例を示す図である。

【図15】移動平均処理の例を示す図である。

【図16】図15に示す移動平均処理に係るプログラムを示す図である。

【図17】本実施形態における部分総和命令実行時のプロセッサの他の例を示す模式図である。

20

#### 【発明を実施するための形態】

##### 【0009】

以下、本発明の実施形態を図面に基づいて説明する。

##### 【0010】

図15は、移動平均処理の例を示す図である。図15に示す移動平均処理は、入力バッファin\_bufに格納されている1つの入力データ系列に対して移動平均を求め、求めた移動平均を出力バッファout\_bufに格納する。移動平均の対象とする区間は、入力データ系列における前部分、中部分、後部分で異なる。区間の要素数は、前部分では初期区間をaとして、その後、順次xまで1ずつ増加し、中部分ではxであり、後部分では最終区間をbまで1ずつ減少する。

30

##### 【0011】

入力データ系列における前部分では、入力バッファin\_buf[0]～in\_buf[a-1]のa個の要素（入力データ）の平均値が出力バッファout\_buf[0]に格納され、入力バッファin\_buf[0]～in\_buf[a]の(a+1)個の要素の平均値が出力バッファout\_buf[1]に格納される。要素数が増加する、入力データ系列における前部分では、新規の要素を加算するのみで最古の要素を減算せず、除数を1ずつ増加させて移動平均を求める。このようにして移動平均を順次求めていき、入力バッファin\_buf[0]～in\_buf[x-2]の(x-1)個の要素の平均値が出力バッファout\_buf[x-a-1]に格納される。

##### 【0012】

また、入力データ系列における中部分では、入力バッファin\_buf[0]～in\_buf[x-1]のx個の要素の平均値が出力バッファout\_buf[x-a]に格納され、入力バッファin\_buf[1]～in\_buf[x]のx個の要素の平均値が出力バッファout\_buf[x-a+1]に格納される。入力データ系列における中部分では、新規の要素を加算し、最古の要素を減算して、xで除算して移動平均を求める。このようにして移動平均を順次求めていき、入力バッファin\_buf[n-x]～in\_buf[n-1]のx個の要素の平均値が出力バッファout\_buf[n-a]に格納される。

40

##### 【0013】

また、入力データ系列における後部分では、入力バッファin\_buf[n-x+1]～in\_buf[n-1]の(x-1)個の要素の平均値が出力バッファout\_buf[n-a+1]に格納される。要素数が減少する、入力データ系列における後部分では、最古の要素を減算するのみで新規の要素を加算せず、除数を1ずつ減少させて移動平均を求める。このようにして移動平均を順次求

50

めていき、入力バッファ  $in\_buf[n-b-1] \sim in\_buf[n-1]$  の ( $b + 1$ ) 個の要素の平均値が出力バッファ  $out\_buf[n+x-a-b-1]$  に格納され、入力バッファ  $in\_buf[n-b] \sim in\_buf[n-1]$  の  $b$  個の要素の平均値が出力バッファ  $out\_buf[n+x-a-b]$  に格納される。

#### 【0014】

前述の図 15 に示した移動平均処理に係るプログラム例を図 16 に示す。事前処理 1601 では、入力バッファ  $in\_buf[0]$  から入力バッファ  $in\_buf[a-2]$  までの各要素を加算して総和値  $sum$  が算出される。前部分処理 1602 では、新規の要素である入力バッファ  $in\_buf[i]$  の要素を総和値  $sum$  に加算した後にカウント値  $cnt$  で除算して求めた平均値  $avr$  が、出力バッファ  $out\_buf[j]$  に格納される。中部分処理 1603 では、総和値  $sum$  に新規の要素である入力バッファ  $in\_buf[i]$  の要素を加算し、最古の要素である入力バッファ  $in\_buf[i-x]$  の要素を減算した後に値  $x$  で除算して求めた平均値  $avr$  が、出力バッファ  $out\_buf[j]$  に格納される。後部分処理 1604 では、最古の要素である入力バッファ  $in\_buf[i-x]$  の要素を総和値  $sum$  から減算した後にカウント値  $cnt$  で除算して求めた平均値  $avr$  が、出力バッファ  $out\_buf[j]$  に格納される。  
10

#### 【0015】

図 16 に示したような移動平均処理では、前の演算結果に対して、新規の要素を 1 つ加算したり最古の要素を 1 つ減算したりするために、演算処理を並列化することが困難であり、 SIMD 型のプロセッサで効率良く処理することが難しい。以下に説明する実施形態では、入力データ系列の部分的な加算処理を別個に計算することで、移動平均処理に係る処理を並列して実行可能にし、処理効率の向上を図る。  
20

#### 【0016】

図 1 は、本発明の実施形態におけるプロセッサの構成例を示す図である。本実施形態におけるプロセッサ 10 は、例えば並列に演算処理を実行可能な SIMD 型のプロセッサであり、  $m$  個のデータを並列処理する SIMD 型のプロセッサを一例として示している。プロセッサ 10 は、プログラムカウンタ (PC) 12、命令デコーダ (DECODER) 14、SIMD レジスタファイル 16、SIMD パイプライン・レジスタ 18A、18B、22、及び演算処理部 21 を有する。演算処理部 21 は、複数の演算器 (ALU) 20-0、20-1、…、20-( $m - 1$ ) を有する。

#### 【0017】

プロセッサ 10 は、命令メモリ (RAM) 30 からプログラムカウンタ 12 のカウント値に応じて読み出された命令を命令デコーダ 14 でデコードする。そして、プロセッサ 10 は、命令デコーダ 14 でのデコード結果に応じて、演算処理に用いるデータをレジスタファイル 16 の SIMD レジスタから読み出して SIMD パイプライン・レジスタ 18A、18B に格納する。演算処理に必要なデータ等は、データメモリ (DRAM) 40 から適宜読み出されてレジスタファイル 16 の SIMD レジスタに格納されている。  
30

#### 【0018】

また、プロセッサ 10 は、SIMD パイプライン・レジスタ 18A、18B に格納したデータを用い、命令デコーダ 14 でのデコード結果に応じた演算処理を演算処理部 21 の演算器 20-0、20-1、…、20-( $m - 1$ ) で実行し、演算結果を SIMD パイプライン・レジスタ 22 に格納する。SIMD パイプライン・レジスタ 22 に格納された演算結果は、SIMD レジスタファイル 16 に書き込まれる。  
40

#### 【0019】

ここで、入力データ系列における中部分の移動平均処理での  $x$  個の要素の平均値を求める処理に注目すると、 $x$  個の要素の和を求める演算は、図 2 (A) 及び (B) に示すように新規の要素を加算し、最古の要素を減算する演算を行う。本実施形態では、図 2 (B) に示すように、 $x$  個の要素の和を求める演算を  $m$  並列で行うために、各演算において減算する古い要素の総和 201 及び加算する新しい要素の総和 202 を別に計算し、それを用いて  $x$  個の要素の和を求ることで並列化する。

#### 【0020】

図 2 に示す例は、 $x$  個の要素の和を求める演算を 4 並列で行う例であり、減算する古い  
50

要素の総和  $201$  として、 $t$  番目の要素、 $t$  番目と  $(t + 1)$  番目の要素の総和、 $t$  番目から  $(t + 2)$  番目の要素の総和、及び  $t$  番目から  $(t + 3)$  番目の要素の総和を求める。また、加算する新しい要素の総和  $202$  として、 $u$  番目の要素、 $u$  番目と  $(u + 1)$  番目の要素の総和、 $u$  番目から  $(u + 2)$  番目の要素の総和、及び  $u$  番目から  $(u + 3)$  番目の要素の総和を求める。

#### 【0021】

そして、 $t$  番目から  $(u - 1)$  番目の要素の総和に対して、古い要素の総和  $201$  を減算する処理及び新しい要素の総和  $202$  を加算する処理をそれぞれ並列に行うことで  $\times$  個の要素の和を求める演算を並列化する。この減算する古い要素の総和や加算する新しい要素の総和を求めるために、本実施形態では、 $m$  個のデータを並列処理可能なプロセッサにおいて、 $0 \sim (m - 1)$  番目の要素の部分総和を返す部分総和命令を設ける。  
10

#### 【0022】

部分総和命令は、SIMDレジスタ  $vs$  に格納されている  $m$  個の要素（データ）から部分総和を算出し、SIMDレジスタ  $vr$  に格納する命令である。すなわち、部分総和命令を実行すると、SIMDレジスタ  $vs$  の  $0$  番目の入力要素がベクトルデータの  $0$  番目の結果要素として SIMDレジスタ  $vr$  に格納され、SIMDレジスタ  $vs$  の  $0$  番目と  $1$  番目の入力要素の加算結果がベクトルデータの  $1$  番目の結果要素として SIMDレジスタ  $vr$  に格納される。また、SIMDレジスタ  $vs$  の  $0$  番目から  $m$  番目の入力要素の加算結果がベクトルデータの  $m$  番目の結果要素として SIMDレジスタ  $vr$  に格納される。すなわち、部分総和命令では、SIMDレジスタ  $vs$  の  $0$  番目から  $k$  番目（ $k$  は整数）の入力要素の加算結果がベクトルデータの  $k$  番目の結果要素として SIMDレジスタ  $vr$  に格納される。  
20

#### 【0023】

図3(A)は、 $m = 4$ としたときの部分総和命令の演算処理を行う演算回路の構成例を示す図である。SIMDレジスタ  $vs$  の  $0$  番目の要素  $vs[0]$  が SIMDレジスタ  $vr$  の  $0$  番目の要素  $vr[0]$  に入力される。加算器301は、SIMDレジスタ  $vs$  の  $0$  番目の要素  $vs[0]$  と  $1$  番目の要素  $vs[1]$  が入力され、その出力が SIMDレジスタ  $vr$  の  $1$  番目の要素  $vr[1]$  に入力される。加算器302は、加算器301の出力と SIMDレジスタ  $vs$  の  $2$  番目の要素  $vs[2]$  が入力され、その出力が SIMDレジスタ  $vr$  の  $2$  番目の要素  $vr[2]$  に入力される。また、加算器303は、加算器302の出力と SIMDレジスタ  $vs$  の  $3$  番目の要素  $vs[3]$  が入力され、その出力が SIMDレジスタ  $vr$  の  $3$  番目の要素  $vr[3]$  に入力される。このようにして図3(A)に示す演算回路は、 $m = 4$ としたときの部分総和命令に応じた図3(B)に示す演算処理を実行する。  
30

#### 【0024】

なお、部分総和命令の演算処理を行う演算回路の構成は、図3(A)に示した回路に限定されるものではなく、図3(B)に示す演算処理を実行可能な回路構成であれば良い。例えば、図3(C)に示すような回路でも良い。図3(C)は、 $m = 4$ としたときの部分総和命令の演算処理を行う演算回路の他の構成例を示す図である。SIMDレジスタ  $vs$  の  $0$  番目の要素  $vs[0]$  が SIMDレジスタ  $vr$  の  $0$  番目の要素  $vr[0]$  に入力される。加算器311は、SIMDレジスタ  $vs$  の  $0$  番目の要素  $vs[0]$  と  $1$  番目の要素  $vs[1]$  が入力される。加算器311の出力が SIMDレジスタ  $vr$  の  $1$  番目の要素  $vr[1]$  に入力される。加算器312は、加算器311の出力と SIMDレジスタ  $vs$  の  $2$  番目の要素  $vs[2]$  が入力される。加算器312の出力が SIMDレジスタ  $vr$  の  $2$  番目の要素  $vr[2]$  に入力される。また、加算器313は、SIMDレジスタ  $vs$  の  $2$  番目の要素  $vs[2]$  と  $3$  番目の要素  $vs[3]$  が入力される。加算器314は、加算器311の出力と加算器313の出力が入力される。加算器314の出力が SIMDレジスタ  $vr$  の  $3$  番目の要素  $vr[3]$  に入力される。図3(C)に示した回路構成では、部分総和命令の演算処理に係る加算の段数が低減できる。  
40

#### 【0025】

図4は、本実施形態における部分総和命令実行時のプロセッサを示す模式図である。図4においても、 $m = 4$ としたときの部分総和命令実行時のプロセッサを一例として示して  
50

いる。図4において、図1に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。演算処理部21が有する複数の演算器により複数の加算器(ADD)24-1、24-2、24-3が実現される。

#### 【0026】

SIMDパイプライン・レジスタ18の0番目の要素が、SIMDパイプライン・レジスタ22の0番目の要素として入力される。SIMDパイプライン・レジスタ18の1番目の要素と0番目の要素が加算器24-1に入力され、加算器24-1の出力がSIMDパイプライン・レジスタ18の2番目の要素と加算器24-1の出力が加算器24-2に入力され、加算器24-2の出力がSIMDパイプライン・レジスタ22の2番目の要素として入力される。SIMDパイプライン・レジスタ18の3番目の要素と加算器24-2の出力が加算器24-3に入力され、加算器24-3の出力がSIMDパイプライン・レジスタ22の3番目の要素として入力される。なお、図4においては、演算処理部21において3段の加算処理が行われるが1サイクルで実行可能である。10

#### 【0027】

図17は、本実施形態における部分総和命令実行時のプロセッサの他の例を示す模式図である。図17においても、 $m = 4$ としたときの部分総和命令実行時のプロセッサを一例として示しており、図4(C)に示したように部分総和命令の演算処理を行う例に対応するものである。図17において、図1、図4に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。演算処理部21Bが有する複数の演算器により複数の加算器(ADD)24B-1、24B-2、24B-3、24B-4が実現される。20

#### 【0028】

SIMDパイプライン・レジスタ18の0番目の要素が、SIMDパイプライン・レジスタ22の0番目の要素として入力される。SIMDパイプライン・レジスタ18の1番目の要素と0番目の要素が加算器24B-1に入力され、加算器24B-1の出力がSIMDパイプライン・レジスタ22の1番目の要素として入力される。SIMDパイプライン・レジスタ18の2番目の要素と加算器24B-1の出力が加算器24B-2に入力され、加算器24B-2の出力がSIMDパイプライン・レジスタ22の2番目の要素として入力される。また、SIMDパイプライン・レジスタ18の3番目の要素と2番目の要素が加算器24B-3に入力される。加算器24B-1の出力と加算器24B-3の出力が加算器24B-4に入力され、加算器24B-4の出力がSIMDパイプライン・レジスタ22の3番目の要素として入力される。なお、図17においても、演算処理部21における加算処理は1サイクルで実行可能である。30

#### 【0029】

図5は、本実施形態における移動平均処理(中部分処理)の例を示す図であり、 $m = 4$ (4並列)の場合を例として示している。プロセッサ10は、部分総和命令により $t \sim (t + 3)$ 番目の要素の部分総和及び $u \sim (u + 3)$ 番目の要素の部分総和をそれぞれ求める。そして、プロセッサ10は、図5(A)に示す1つ前での最後の要素の演算結果である $t$ 番目から $(u - 1)$ 番目の要素の総和に対して、部分総和命令により求めた $u \sim (u + 3)$ 番目の要素の部分総和を加算する((図5(B))。さらに、プロセッサ10は、図5(B)に示す加算結果に対して、部分総和命令により求めた $t \sim (t + 3)$ 番目の要素の部分総和を減算する((図5(C))。これにより、 $(t + 1)$ 番目から $u$ 番目の要素の総和を求める演算、 $(t + 2)$ 番目から $(u + 1)$ 番目の要素の総和を求める演算、 $(t + 3)$ 番目から $(u + 2)$ 番目の要素の総和を求める演算、及び $(t + 4)$ 番目から $(u + 3)$ 番目の要素の総和を求める演算を並列して実行することができる。40

#### 【0030】

同様にして、プロセッサ10は、部分総和命令により $(t + 4) \sim (t + 7)$ 番目の要素の部分総和及び $(u + 4) \sim (u + 7)$ 番目の要素の部分総和をそれぞれ求める。そして、プロセッサ10は、図5(D)に示す1つ前(図5(C))での最後の要素の演算結50

果である( $t + 4$ )番目から( $u + 3$ )番目の要素の総和に対して、部分総和命令により求めた( $u + 4$ )～( $u + 7$ )番目の要素の部分総和を加算する((図5(E)))。さらに、プロセッサ10は、図5(E)に示す加算結果に対して、部分総和命令により求めた( $t + 4$ )～( $t + 7$ )番目の要素の部分総和を減算する((図5(F)))。これにより、( $t + 5$ )番目から( $u + 4$ )番目の要素の総和を求める演算、( $t + 6$ )番目から( $u + 5$ )番目の要素の総和を求める演算、( $t + 7$ )番目から( $u + 6$ )番目の要素の総和を求める演算、及び( $t + 8$ )番目から( $u + 7$ )番目の要素の総和を求める演算を並列して実行することができる。

#### 【0031】

例えれば、図5に示したように要素の総和を求める演算を4並列で実行すると、中部分処理での処理効率は4倍になる。なお、図5においては、1つ前での演算結果に対して新しい要素の部分総和を加算した後に古い要素の部分総和を減算する例を示したが、1つ前での演算結果に対して古い要素の部分総和を減算した後に新しい要素の部分総和を加算するようにもしても良い。

10

#### 【0032】

図6は、本実施形態における移動平均処理(中部分処理)を示すフローチャートである。プロセッサ10は、前部分処理が終了して中部分処理に進むと、ステップS601にて、前部分処理における最後の要素の演算結果をSIMDレジスタvr0の各要素vr0[0]～vr0[m-1]に入力する。次に、ステップS602にて、プロセッサ10は、中部分処理で処理すべき要素のうち、未処理の要素が存在するか否かを判定する。その結果、未処理の要素が存在しなければ、中部分処理に係る計算を終了して後部分処理に進む。一方、未処理の要素が存在する場合には、ステップS603へ進む。

20

#### 【0033】

ステップS603にて、プロセッサ10は、部分総和命令を実行して、加算する $u \sim (u + m - 1)$ 番目の新しい要素の部分総和を求め、SIMDレジスタvr1の各要素vr1[0]～vr1[m-1]に入力する。また、ステップS604にて、プロセッサ10は、部分総和命令を実行して、減算する $t \sim (t + m - 1)$ 番目の古い要素の部分総和を求め、SIMDレジスタvr2の各要素vr2[0]～vr2[m-1]に入力する。なお、ステップS603及びステップS604の処理は順不同である。

#### 【0034】

30

次に、ステップS605にて、プロセッサ10は、対応する要素毎にSIMDレジスタvr0にSIMDレジスタvr1を加算しSIMDレジスタvr2を減算する処理を行い、演算結果をSIMDレジスタvr3の各要素vr3[0]～vr3[m-1]に入力する。続いて、ステップS606にて、プロセッサ10は、SIMDレジスタvr3の各要素vr3[0]～vr3[m-1]に対して区間に含まれる要素数に応じた平均化処理を行って平均値を算出し、所定の記憶領域に書き込む。そして、ステップS607にて、プロセッサ10は、SIMDレジスタvr3の最後の要素vr3[m-1]をSIMDレジスタvr0の各要素vr0[0]～vr0[m-1]に入力して、ステップS602に戻る。

#### 【0035】

以上説明したように、m個のデータを並列処理可能なプロセッサにおいて、入力データ系列の部分的な $0 \sim (m - 1)$ 番目の要素の部分総和を返す部分総和命令を設けることでの移動平均処理での区間の要素の和を求める演算を並列して実行することができる。これにより、移動平均処理に係る処理を並列に行うことを利用し処理効率を向上させることができ、例えばSIMD型のプロセッサで移動平均処理を効率良く処理することが可能になる。

40

#### 【0036】

ここで、前述した図15に示したような移動平均処理では、入力データ系列における前部分、中部分、後部分で区間の要素数が変化している。そのため、図16に示したように条件分岐が発生するとともに、それぞれのループ処理が小さくなりループ制御に係るオーバーヘッドが大きくなり、処理効率が低下してしまう。そこで、本実施形態では、各区間

50

の要素数を  $x$  として演算処理が実行できるように、図 7 に示すように入力バッファ  $in\_buf$  及び出力バッファ  $out\_buf$  を仮想的に拡張して、移動平均処理に係る処理効率をさらに向上させる。

#### 【 0 0 3 7 】

図 7 は、本実施形態における移動平均処理の例を示す図である。入力バッファ  $in\_buf$  の配列をインデックスが  $( -x )$  まで負側に仮想的に拡張し、入力バッファ  $in\_buf$  の配列をインデックスが  $( n + x - b - 1 )$  まで正側に仮想的に拡張する。また、出力バッファ  $out\_buf$  の配列をインデックスが  $( -a + 1 )$  まで負側に仮想的に拡張する。

#### 【 0 0 3 8 】

このように入力バッファ  $in\_buf$  の配列を仮想的に拡張することで、入力データ系列における前部分、中部分、後部分での移動平均処理における区間の要素数を  $x$  に揃えることができる。また、出力バッファ  $out\_buf$  の配列を仮想的に拡張することで、事前処理についても各区間で平均値を求める通常の処理と同様の処理で実行することができる。したがって、移動平均処理において条件分岐がなくなり、また 1 つのループ処理で移動平均処理が実行可能になるので、移動平均処理に係る処理効率を向上させることができる。10

#### 【 0 0 3 9 】

ここで、拡張された入力バッファ  $in\_buf$  の配列における負のインデックス、すなわち入力バッファ  $in\_buf$  の  $( -x )$  番目から  $( -1 )$  番目の各要素については、マスク付きのロード命令により読み出しを抑制して 0 とする。同様に、拡張された入力バッファ  $in\_buf$  における  $n$  以上のインデックス、すなわち入力バッファ  $in\_buf$  の  $n$  番目から  $( n + x - b - 1 )$  番目の各要素については、マスク付きのロード命令により読み出しを抑制して 0 とする。また、拡張された出力バッファ  $out\_buf$  の配列における負のインデックス、すなわち出力バッファ  $out\_buf$  の  $( -a + 1 )$  番目から  $( -1 )$  番目の各要素については、マスク付きのストア命令により書き込みを抑制する。20

#### 【 0 0 4 0 】

マスク付きのロード命令は、マスクレジスタ  $m_r$  の上位側から  $x$  ビット目の値が 0 の場合には 0 を、値が 1 の場合にはロードデータを SIMD レジスタの  $x$  番目の要素に格納する。また、マスク付きのストア命令は、マスクレジスタ  $m_r$  の上位側から  $x$  ビット目の値が 1 の場合のみ、SIMD レジスタの  $x$  番目の要素のストア処理を行う（値が 0 の場合には何もしない）。なお、本実施形態では、 $m$  ビットのマスクレジスタ  $m_r$  において、最上位のビットを 0 ビット目とし、最下位のビットを  $( m - 1 )$  ビット目とする。30

#### 【 0 0 4 1 】

マスクレジスタ  $m_r$  に値を設定するマスク値設定命令、及びマスク値設定命令  $_R$  について説明する。図 8 ( A ) は、マスク値設定命令を説明するための図である。マスク値設定命令は、値が  $k$  ( $0 < k < m$ ) の場合に、マスクレジスタ  $m_r$  の 0 ビット目から  $( k - 1 )$  ビット目までの値を 1 に設定し、 $k$  ビット目から  $( m - 1 )$  ビット目までの値を 0 に設定する。すなわち、マスク値設定命令は、値が  $k$  の場合には、マスクレジスタ  $m_r$  の上位側から  $k$  ビットの値を 1 に設定し、残りの  $( m - k )$  ビットの値を 0 に設定する。また、マスク値設定命令は、値が 0 以下の場合には、マスクレジスタ  $m_r$  のすべてのビットの値を 0 に設定し、値が  $m$  以上の場合には、マスクレジスタ  $m_r$  のすべてのビットの値を 1 に設定する。40

#### 【 0 0 4 2 】

図 8 ( B ) は、マスク値設定命令  $_R$  を説明するための図である。マスク値設定命令  $_R$  は、値が  $k$  ( $0 < k < m$ ) の場合に、マスクレジスタ  $m_r$  の 0 ビット目から  $( m - k - 1 )$  ビット目までの値を 0 に設定し、 $( m - k )$  ビット目から  $( m - 1 )$  ビット目までの値を 1 に設定する。すなわち、マスク値設定命令  $_R$  は、値が  $k$  の場合には、マスクレジスタ  $m_r$  の下位側から  $k$  ビットの値を 1 に設定し、残りの  $( m - k )$  ビットの値を 0 に設定する。また、マスク値設定命令  $_R$  は、値が 0 以下の場合には、マスクレジスタ  $m_r$  のすべてのビットの値を 0 に設定し、値が  $m$  以上の場合には、マスクレジスタ  $m_r$  のすべてのビットの値を 1 に設定する。50

**【 0 0 4 3 】**

例えは、図9に示すプログラムにより、図7に示した領域701に含まれる入力バッファin\_bufの(-x)番目から(-1)番目に対応する各要素が0とされる。図9において、コード901の処理は、マスク値設定命令\_\_Rにより値( $i d \times 0 + m$ )に応じたマスク値をマスクレジスタm0に設定する。また、コード902の処理は、マスクレジスタm0の値に応じて、入力バッファin\_bufの( $i d \times 0$ )番目から( $i d \times 0 + m - 1$ )番目に対応する要素をロードして SIMDレジスタvtに格納する。また、コード903の処理は、値 $i d \times 0$ にmを加算し新たな値 $i d \times 0$ とする。この図9に示したプログラムを実行することで、入力バッファin\_bufの(-x)番目から(-1)番目に対応する各要素は0とされ、入力バッファin\_bufの0番目以降に対応する各要素はロードされてSIMDレジスタvtに格納される。10

**【 0 0 4 4 】**

また、図10に示すプログラムにより、図7に示した領域702に含まれる入力バッファin\_bufのn番目から( $n + x - b - 1$ )番目に対応する各要素が0とされる。図10において、コード1001の処理は、マスク値設定命令により値( $i d \times 1$ )に応じたマスク値をマスクレジスタm1に設定する。また、コード1002の処理は、マスクレジスタm1の値に応じて、入力バッファin\_bufのi番目から( $i + m - 1$ )番目に対応する要素をロードして SIMDレジスタvuに格納する。また、コード1003の処理は、値 $i d \times 1$ からmを減算し新たな値 $i d \times 1$ とする。この図10に示したプログラムを実行することで、入力バッファin\_bufのn番目以降に対応する各要素は0とされ、入力バッファin\_bufの0番目から( $n - 1$ )番目に対応する各要素はロードされてSIMDレジスタvuに格納される。20

**【 0 0 4 5 】**

また、図11に示すプログラムにより、図7に示した領域703に含まれる出力バッファの(-a+1)番目から(-1)番目に対応する要素のストア処理が抑制される。図11において、コード1101の処理は、マスク値設定命令\_\_Rにより値( $i d \times 2 + m$ )に応じたマスク値をマスクレジスタm2に設定する。また、コード1102の処理は、マスクレジスタm2の値に応じて、出力バッファout\_bufの( $i d \times 2$ )番目から( $i d \times 2 + m - 1$ )番目に対応する要素に移動平均結果をストアするストア処理を行う。また、コード1103の処理は、値 $i d \times 2$ にmを加算し新たな値 $i d \times 2$ とする。この図11に示したプログラムを実行することで、出力バッファout\_bufの(-a+1)番目から(-1)番目に対応する各要素に係るストア処理は抑制され、出力バッファout\_bufの0番目以降に対応する各要素について演算結果のストア処理が行われる。30

**【 0 0 4 6 】**

移動平均処理においては、平均値を算出するために平均化処理を行うが、この平均化処理を除算により行うと処理に要するサイクル数が大きくなってしまう。また、入力データ系列における前部分、中部分、後部分で、有効な要素数が異なる。そこで、本実施形態では、平均値を求めるための除数の逆数が格納された係数テーブルを設ける。そして、係数テーブルから得られる値iに応じた除数の逆数を、区間中の要素の総和に乗算することでの平均値を算出するように、処理効率を向上させる。40

**【 0 0 4 7 】**

図12は、本実施形態における係数テーブルに格納される値iに応じた除数及びその逆数を示した図である。値iが0～(x-1)であるときは、入力データ系列における前部分(事前処理を含む)に相当し、有効な要素数、すなわち除数は(i+1)であり、その逆数は $1 / (i + 1)$ である。また、値iがx～(n-1)であるときは、入力データ系列における中部分に相当し、有効な要素数、すなわち除数はxであり、その逆数は $1 / x$ である。また、値iがnより大きいときは、入力データ系列における後部分に相当し、有効な要素数、すなわち除数は(x+n-i-1)であり、その逆数は $1 / (x + n - i - 1)$ である。

**【 0 0 4 8 】**

したがって、図12に示した値*i*に応じた逆数を、*i*番目の要素として格納した係数テーブル

*tbl*

を作成し、図13に示すプログラムにより係数テーブル

*tbl*

から値*i*に応じた逆数を取得して区間の要素の総和に乗算することで平均値を算出することができる。図13において、コード1301の処理は、係数テーブル

*tbl*

の*i*番目から(*i*+*m*-1)番目の要素をロードしてSIMDレジスタ

v d

に格納する。また、コード1302の処理は、対応する要素毎に、SIMDレジスタ

v sum

に格納されている区間の要素の総和とSIMDレジスタ

v d

に格納されている値とを乗算して得られる平均値を、SIMDレジスタ

v ave

に格納する。

#### 【0049】

以上説明した各処理を適用した本実施形態における移動平均処理に係るプログラムの例を図14に示す。この図14において、図9～図11、図13に示した構成要素と同一の構成要素には同一の符号を付し、重複する説明は省略する。なお、図14においては、区間の要素の総和を求める際に減算される部分総和が格納されるSIMDレジスタを

v t 2

とし、その部分総和を求めるための入力バッファ

in\_buf

からのロードデータが格納されるSIMDレジスタを

v t 1

としている。同様に、区間の要素の総和を求める際に加算される部分総和が格納されるSIMDレジスタを

v u 2

とし、その部分総和を求めるための入力バッファ

in\_buf

からのロードデータが格納されるSIMDレジスタを

v u 1

としている。

#### 【0050】

図14において、コード1401の処理は、部分総和命令によりSIMDレジスタ

v t 1

に格納されている値を基に部分総和を算出してSIMDレジスタ

v t 2

に格納する。また、コード1402の処理は、部分総和命令によりSIMDレジスタ

v u 1

に格納されている値を基に部分総和を算出してSIMDレジスタ

v u 2

に格納する。コード1403の処理は、対応する要素毎に、SIMDレジスタ

v sum

の値にSIMDレジスタ

v u 2

の値を加算するとともにSIMDレジスタ

v t 2

の値を減算して区間の要素の総和を算出し、SIMDレジスタ

v sum

に格納する(上書きする)。コード1404の処理は、SIMDレジスタ

v sum

の最後の要素

vsum[m-1]

をSIMDレジスタ

v sum

の各要素に格納する(上書きする)。

#### 【0051】

なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されなければならないものである。すなわち、本発明はその技術思想、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

本発明の諸態様を付記として以下に示す。

#### 【0052】

##### (付記1)

*m*個(*m*は2以上の整数)の演算処理を並列に実行し、かつ0番目から(*m*-1)番目の入力要素を基に、0番目から*p*番目(*p*は0～*m*-1の整数)の前記入力要素の和を算出して*p*番目の結果要素としてそれぞれ返す部分総和命令を実行するプロセッサに、

入力データ系列の*i*番目から(*i*+*m*-1)番目(*i*は0及び自然数のうちの任意の数)の要素を0番目から(*m*-1)番目の前記入力要素とする前記部分総和命令を実行して第1のベクトルデータを取得する第1の演算処理と、

前記入力データ系列の(*i*+*x*)番目から(*i*+*x*+*m*-1)番目(*x*は自然数)の要素を0番目から(*m*-1)番目の前記入力要素とする前記部分総和命令を実行して第2のベクトルデータを取得する第2の演算処理と、

前記入力データ系列の*i*番目から(*i*+*x*-1)番目の要素の和に、前記第1のベクトルデータの*p*番目の要素を減算し、前記第2のベクトルデータの*p*番目の要素を加算する処理を、0番目から(*m*-1)番目の各要素について並列に行うことにより、互いに異なる*m*個の区間について要素の和を並列に算出する第3の演算処理と、

算出した各区間の要素の和から前記入力データ系列の移動平均を算出する移動平均処理

10

20

30

40

50

とを実行させることを特徴とする移動平均処理プログラム。

(付記 2 )

値  $i$  を  $m$  ずつ増加させて前記第 1 の演算処理、前記第 2 の演算処理、前記第 3 の演算処理、及び前記移動平均処理を 1 組として繰り返し実行し、

前の組の前記第 3 の演算処理における ( $i + m$ ) 番目から ( $i + x + m - 1$ ) 番目の要素についての和を、次の組の前記第 3 の演算処理における前記入力データ系列の  $i$  番目から ( $i + x - 1$ ) 番目の要素の和として演算を行うことを特徴とする付記 1 記載の移動平均処理プログラム。

(付記 3 )

前記入力データ系列は 0 番目から ( $n - 1$ ) 番目 ( $n$  は 2 以上の整数) の要素を有し、

10

前記入力データ系列を各区間についての要素数を  $x$  個とするように拡張し前記移動平均を算出することを特徴とする付記 2 記載の移動平均処理プログラム。

(付記 4 )

前記入力データ系列の 0 番目から ( $n - 1$ ) 番目の要素に応じたマスクビットを生成し、

前記マスクビットに応じた要素のデータのロード処理及びストア処理を行うことを特徴とする付記 3 記載の移動平均処理プログラム。

(付記 5 )

前記入力データ系列を ( $-x$ ) 番目まで拡張し、前記入力データ系列の ( $-x$ ) 番目から ( $-1$ ) 番目の要素については前記マスクビットにより要素のロード処理を抑制することを特徴とする付記 4 記載の移動平均処理プログラム。

20

(付記 6 )

前記移動平均を求める最終の区間の要素数が  $b$  ( $b$  は  $x$  以下の任意の整数) である場合に、入力データ系列を ( $n + x - b - 1$ ) 番目まで拡張し、入力データ系列の  $n$  番目から ( $n + x - b - 1$ ) 番目までの要素のロード処理を抑制することを特徴とする付記 4 記載の移動平均処理プログラム。

(付記 7 )

算出された移動平均を格納する出力バッファを有し、

前記入力データ系列の拡張に応じて、前記出力バッファを拡張したことを特徴とする付記 3 記載の移動平均処理プログラム。

30

(付記 8 )

前記移動平均を求める初期の区間の要素数が  $a$  ( $a$  は  $x$  以下の任意の整数) である場合に、前記出力バッファの系列を ( $-a + 1$ ) 番目まで拡張し、

前記出力バッファの系列の ( $-a + 1$ ) 番目から ( $-1$ ) 番目の要素のストア処理を抑制することを特徴とする付記 4 記載の移動平均処理プログラム。

(付記 9 )

前記移動平均を算出する各区間の有効な要素数の逆数を格納した係数テーブルを有し、

前記平均化処理では、前記第 3 の演算処理の結果に、前記係数テーブルを参照して得られる逆数を乗算し移動平均を算出することを特徴とする付記 1 記載の移動平均処理プログラム。

40

(付記 10 )

前記プロセッサは、SIMD 型のプロセッサであることを特徴とする付記 4 記載の移動平均処理プログラム。

(付記 11 )

入力データ系列の移動平均を複数の区間にについて並列に算出する演算処理部を有し、

前記演算処理部は、

第 1 の SIMD レジスタの各要素に対して、前記入力データ系列の  $i$  番目から ( $i + p$ ) 番目 ( $i$  は 0 及び自然数のうちの任意の数、 $p$  は  $0 \sim m - 1$  の整数、 $m$  は 2 以上の整数) の要素の和を算出して前記第 1 の SIMD レジスタに  $p$  番目の要素として格納する第 1 の演算処理と、

50

第2のS I M Dレジスタの各要素に対して、前記入力データ系列の( $i + x$ )番目から( $i + x + p$ )番目( $x$ は自然数)の要素の和を算出して前記第2のS I M Dレジスタに $p$ 番目の要素として格納する第2の演算処理と、

前記入力データ系列の*i*番目から( $i + x - 1$ )番目の要素の和に、前記第2のS I M Dレジスタの

番目の要素を加算し、前記第1のS I M Dレジスタの

番目の要素を減算して第3のS I M Dレジスタに

番目の要素として格納する処理を0番目から( $m - 1$ )番目の各要素について並列に行うことにより、互いに異なるm個の区間について要素の和を並列に算出する第3の演算処理と、

前記第3のS I M Dレジスタに格納された要素の和から平均値を算出する平均化処理とを実行することを特徴とするプロセッサ。

10

(付記12)

前記入力データ系列は0番目から( $n - 1$ )番目( $n$ は2以上の整数)の要素を有し、前記入力データ系列を各区間についての要素数をx個とするように拡張し前記平均値を算出することを特徴とする付記11記載のプロセッサ。

(付記13)

前記入力データ系列の0番目から( $n - 1$ )番目の要素に応じたマスクビットを生成し、

前記マスクビットに応じた要素のデータのロード処理及びストア処理を行うことを特徴とする付記12記載のプロセッサ。

(付記14)

20

前記移動平均を算出する各区間の有効な要素数の逆数を格納した係数テーブルを有し、前記平均化処理では、前記第3の演算処理の結果に、前記係数テーブルを参照して得られる逆数を乗算し移動平均を算出することを特徴とする付記11記載のプロセッサ。

(付記15)

前記プロセッサは、S I M D型のプロセッサであることを特徴とする付記11記載のプロセッサ。

#### 【符号の説明】

##### 【0053】

- 10 プロセッサ
- 12 プログラムカウンタ
- 14 命令デコーダ
- 16 レジスタファイル
- 18、22 S I M Dレジスタ
- 20 演算器
- 21 演算処理部
- 24 加算器
- 30 命令メモリ
- 40 データメモリ

30

【図1】



【図2】



【図3】



【図4】



【図5】



【図6】



【図7】



【図8】

(A) マスク値設定命令

|       | マスク値設定命令                                    |
|-------|---------------------------------------------|
| 0以下   | 0 0 0 ... 0 0 0                             |
| 1     | 1 0 0 ... 0 0 0                             |
| 2     | 1 1 0 ... 0 0 0                             |
| ⋮     | ⋮                                           |
| k     | <u>1 1 ... 1 0 ... 0 0</u><br>kビット (m-k)ビット |
| ⋮     | ⋮                                           |
| (m-1) | 1 1 1 ... 1 1 0                             |
| m以上   | 1 1 1 ... 1 1 1                             |

(B) マスク値設定命令\_R

|       | マスク値設定命令_R                                  |
|-------|---------------------------------------------|
| 0以下   | 0 0 0 ... 0 0 0                             |
| 1     | 0 0 0 ... 0 0 1                             |
| 2     | 0 0 0 ... 0 1 1                             |
| ⋮     | ⋮                                           |
| k     | <u>0 0 ... 0 1 ... 1 1</u><br>(m-k)ビット kビット |
| ⋮     | ⋮                                           |
| (m-1) | 0 1 1 ... 1 1 1                             |
| m以上   | 1 1 1 ... 1 1 1                             |

【図9】

```

i_dx0=-x;
for (i=0; i<N; i+=m) {
    m0=マスク値設定命令_R(i_dx0+m); ↪901
    vt=ベクタロード(&in_buf[i_dx0], m0);
    .
    .
    i_dx0+=m; ↪903
}

```

【図10】

```

i_dx1=n;
for (i=0; i<N; i+=m) {
    m1=マスク値設定命令(i_dx1); ↪1001
    vu=ベクタロード(&in_buf[i], m1); ↪1002
    .
    .
    i_dx1-=m; ↪1003
}

```

【図11】

```

i_dx2=-a+1;
for (i=0; i<N; i+=m) {
    m2=マスク値設定命令_R(i_dx2+m); ↪1101
    .
    .
    データストア(&out_buf[i_dx2], m2, 移動平均結果);
    i_dx2+=m; ↪1103
}

```

【図12】

| i     | 除数      | 係数          |
|-------|---------|-------------|
| 0~x-1 | i+1     | 1/(i+1)     |
| x~n-1 | x       | 1/x         |
| n~    | x+n-i-1 | 1/(x+n-i-1) |

【図13】

```

for (i=0; i<N; i+=m) {
    vd=ベクタロード(&divtbl[i]); ~1301
    vave=vsum*vd; ~1302
    .
    .
}

```

【図14】

```

idx0=-x;
idx1=n;
idx2=-a+1;

vsum={0, 0, ..., 0};
for (i=0; i<n+x-a-b; i+=m) {
    m0=マスク値設定命令_R(idx0+m); ~901
    m1=マスク値設定命令(idx1); ~1001
    vt1=ベクタロード(&in_buf[idx0], m0); ~902
    vu1=ベクタロード(&in_buf[i], m1); ~1002
    vd=ベクタロード(&divtbl[i]); ~1301
    vt2=部分総和命令(vt1); ~1401
    vu2=部分総和命令(vu1); ~1402
    vsum=vsum+vu2-vt2; ~1403
    vave=vsum*vd ~1302
    m2=マスク値設定命令_R(idx2+m); ~1101
    データストア(&out_buf[idx2], m2, vave);
    idx0+=m; ~903
    idx1-=m; ~1003
    idx2+=m; ~1103
    vsum=(vsum[m-1], vsum[m-1], ..., vsum[m-1]);
}

```

1404

【図15】



【図16】

```

sum=0;
//事前処理
for (i=0; i<a-1; i++) sum+=in_buf[i];
//前部分処理
for (j=0, cnt=a; cnt<x; i++, j++, cnt++) {
    sum+=in_buf[i];
   avr=sum/cnt;
    out_buf[j]=avr;
}
//中部分処理
for (; i<n; i++, j++) {
    sum+=in_buf[i];
    sum-=in_buf[i-x];
    avr=sum/x;
    out_buf[j]=avr;
}
//後部分処理
for (; i<n+b; i++, j++, cnt--) {
    sum-=in_buf[i-x];
    avr=sum/cnt;
    out_buf[j]=avr;
}

```

1601  
1602  
1603  
1604

【図17】



---

フロントページの続き

(72)発明者 野元 一宏

福岡県福岡市早良区百道浜2丁目2番1号 富士通九州ネットワークテクノロジーズ株式会社内

審査官 田中 幸雄

(56)参考文献 国際公開第2013/095634 (WO, A1)

米国特許出願公開第2008/0172437 (US, A1)

特開平10-143495 (JP, A)

特開昭63-187366 (JP, A)

(58)調査した分野(Int.Cl., DB名)

G 06 F 17/10

G 06 F 15/80