

(19) 日本国特許庁(JP)

## (12) 特許公報(B2)

(11) 特許番号

特許第5575477号  
(P5575477)

(45) 発行日 平成26年8月20日(2014.8.20)

(24) 登録日 平成26年7月11日(2014.7.11)

(51) Int.Cl.

G06F 9/305 (2006.01)  
G06F 15/80 (2006.01)

F 1

G06F 9/30 340C  
G06F 15/80

請求項の数 43 (全 28 頁)

|               |                               |
|---------------|-------------------------------|
| (21) 出願番号     | 特願2009-529420 (P2009-529420)  |
| (86) (22) 出願日 | 平成19年9月21日 (2007.9.21)        |
| (65) 公表番号     | 特表2010-504594 (P2010-504594A) |
| (43) 公表日      | 平成22年2月12日 (2010.2.12)        |
| (86) 國際出願番号   | PCT/US2007/079234             |
| (87) 國際公開番号   | W02008/036945                 |
| (87) 國際公開日    | 平成20年3月27日 (2008.3.27)        |
| 審査請求日         | 平成21年3月23日 (2009.3.23)        |
| (31) 優先権主張番号  | 11/525,981                    |
| (32) 優先日      | 平成18年9月22日 (2006.9.22)        |
| (33) 優先権主張国   | 米国(US)                        |

前置審査

|           |                                                                                    |
|-----------|------------------------------------------------------------------------------------|
| (73) 特許権者 | 593096712<br>インテル コーポレイション<br>アメリカ合衆国 95054 カリフォルニア州 サンタクララ ミッション カレッジ ブールバード 2200 |
| (74) 代理人  | 100107766<br>弁理士 伊東 忠重                                                             |
| (74) 代理人  | 100070150<br>弁理士 伊東 忠彦                                                             |
| (74) 代理人  | 100091214<br>弁理士 大貫 進介                                                             |
| (72) 発明者  | ジュリア、マイケル、エー.<br>アメリカ合衆国 97123 オレゴン州<br>ヒルズボロ サウスウェスト 321スト プレイス 16730             |

最終頁に続く

(54) 【発明の名称】文字列を処理するための命令及び論理回路

## (57) 【特許請求の範囲】

## 【請求項 1】

命令を記憶した機械読み取り可能媒体であって、前記命令は、機械により実行されると、前記機械に

第1のパック化オペランドの有効なデータ要素のすべてと、第2のパック化オペランドの有効なデータ要素のすべてとの全組み合わせについて比較する段階であって、前記比較の第1の結果は、前記第1のオペランドの有効データ要素と前記第2のオペランドの有効データ要素との間の比較のみの比較結果を含む段階と、

前記比較の第1の結果を記憶する段階と  
を含む方法を実行させる、媒体。

10

## 【請求項 2】

前記第1の結果は前記データ要素のいずれかが等しいかどうか示す、請求項1に記載の機械読み取り可能媒体。

## 【請求項 3】

前記第1の結果は、前記第1のオペランドに示された一範囲のデータ要素について、その範囲に前記第2のオペランドのデータ要素があるか示す、請求項1に記載の機械読み取り可能媒体。

## 【請求項 4】

前記第1の結果は前記第1のオペランドの各データ要素が、前記第2のオペランドの各データ要素と等しいかどうか示す、請求項1に記載の機械読み取り可能媒体。

20

**【請求項 5】**

前記第1の結果は前記第1のオペランドのデータ要素の一部の順序が、前記第2のオペランドのデータ要素の一部の順序と等しいかどうか示す、請求項1に記載の機械読み取り可能媒体。

**【請求項 6】**

前記第1の結果の一部をネゲートする、請求項1に記載の機械読み取り可能媒体。

**【請求項 7】**

前記第1の結果は、マスク値またはインデックス値のいずれかにより表される、請求項1に記載の機械読み取り可能媒体。

**【請求項 8】**

第1の单一命令複数データ(SIMD)オペランドの有効なデータ要素のすべてと、第2のSIMDオペランドの有効なデータ要素のすべてとの全組み合わせについて比較し、SIMDオペランド比較結果を生成する比較ロジックと、

前記比較ロジックを制御して前記SIMDオペランド比較結果に関するインジケータを記憶する第1の制御信号とを有する装置。

**【請求項 9】**

前記第1と第2のオペランドのデータ要素の有効性を明示的に示す、請求項8に記載の装置。

**【請求項 10】**

前記第1と第2のオペランドのデータ要素の有効性を默示的に示す、請求項8に記載の装置。

**【請求項 11】**

前記第1の制御信号は、前記比較ロジックが符号付きまたは符号無しの値を比較するかどうか示す符号制御信号を含む、請求項8に記載の装置。

**【請求項 12】**

前記第1の制御信号は、どれかが等しい、範囲内にある、及びそれぞれ等しいよりなるリストから選択した集約機能を前記比較ロジックが実行するかどうか示す集約機能信号を含む、請求項11に記載の装置。

**【請求項 13】**

前記第1の制御信号は、ネゲート信号を含み、前記比較ロジックに前記比較の結果の少なくとも一部をネゲートさせる、請求項12に記載の装置。

**【請求項 14】**

前記第1の制御信号は、前記比較ロジックが前記比較の結果のMSBまたはLSBのインデックスを生成するかどうか示すインデックス信号を含む、請求項13に記載の装置。

**【請求項 15】**

前記第1の制御信号は、前記比較ロジックが前記比較の結果としてゼロ延長マスクまたはバイト又はワードへの拡張マスクを生成するかどうかを示すマスク信号を含む、請求項14に記載の装置。

**【請求項 16】**

前記第1の制御信号は、複数のビットを記憶する制御フィールドである、請求項15に記載の装置。

**【請求項 17】**

单一命令複数データ(SIMD)比較命令を記憶する第1のメモリと、

前記SIMD比較命令を実行して、第1のオペランドの有効なデータ要素のすべてと、第2のオペランドの有効なデータ要素のすべてとの全組み合わせについて比較して、SIMDオペランド比較結果を生成し、前記第1のオペランドと前記第2のオペランドとは前記SIMD比較命令で示され、前記SIMDオペランド比較結果に関するインジケータを記憶するプロセッサと

を有する、システム。

**【請求項 18】**

10

20

30

40

50

前記第1のオペランドを、第1のレジスタのアドレスにより前記命令内に示す、請求項17に記載のシステム。

【請求項19】

前記第2のオペランドを、メモリアドレスまたは第2のレジスタにより前記命令内に示す、請求項18に記載のシステム。

【請求項20】

前記命令は前記プロセッサに対する制御信号を示すイミーディエイトフィールドを含む、請求項19に記載のシステム。

【請求項21】

イミーディエイトフィールドは、前記オペランドが符号付きバイト、符号無しバイト、符号付きワード、または符号無しワードを含むかどうかを示す、請求項20に記載のシステム。

【請求項22】

前記イミーディエイトフィールドは集約機能を前記プロセッサが実行することを示す、請求項21に記載のシステム。

【請求項23】

前記イミーディエイトフィールドは、マスクまたはインデックスを前記命令の実行に応じて生成するかどうかを示す、請求項22に記載のシステム。

【請求項24】

前記命令は、前記第1及び第2のオペランドの明示的に有効データ要素のみを比較させる、請求項17に記載のシステム。

【請求項25】

前記命令は、前記第1及び第2のオペランドの默示的に有効データ要素のみを比較させる、請求項17に記載のシステム。

【請求項26】

第1のテキストストリングに対応する第1のパック化オペランドを記憶する第1の記憶領域と、

第2のテキストストリングに対応する第2のパック化オペランドを記憶する第2の記憶領域と、

前記第1のパック化オペランドのすべての有効データ要素を、前記第2のパック化オペランドのすべての有効データ要素と比較する比較ロジックと、

第1のパック化オペランドの有効データ要素と第2のパック化オペランドの有効データ要素との間の比較のみの比較結果を含む、前記比較ロジックが実行した前記比較の結果アレイを記憶する第3の記憶領域とを有するプロセッサ。

【請求項27】

前記比較ロジックは値の2次元のアレイを生成し、前記アレイのエントリーは前記第1のパック化オペランドの有効データ要素と前記第2のパック化オペランドの有効データ要素との間の比較に対応する、請求項26に記載のプロセッサ。

【請求項28】

前記比較ロジックは、前記値の2次元のアレイに、いずれかが等しい、範囲内にある、各々が等しい、及び非連続的サブストリングがマッチするよりなる集約機能の1つを実行する、請求項27に記載のプロセッサ。

【請求項29】

前記結果アレイは、マスク値またはインデックス値のいずれかにより表される、請求項28に記載のプロセッサ。

【請求項30】

SIMD比較命令をデコードするデコーダと、  
整数レジスタと浮動小数点レジスタとを含むレジスタファイルと、

前記レジスタを前記レジスタファイルにリネームするレジスタリネーミングであって、前記レジスタファイルは第1のパック化オペランドを格納する第1のソースレジスタと第

10

20

30

40

50

2 のパック化オペランドを格納する第 2 のソースレジスタとを有するレジスタリネーミングと、

前記デコーダからのマイクロ演算を保持するキューと、

前記ソースレジスタ中の依存したオペランドの準備状況に基づき、前記オペランドの実行をスケジューリングするスケジューラと、

前記第 1 のパック化オペランドの有効なデータ要素のすべてと、前記第 2 のパック化オペランドの有効なデータ要素のすべてとの全組み合わせについて比較する実行ユニットであって、前記実行ユニットの比較結果は有効な第 1 のオペランドのデータ要素と有効な第 2 のオペランドのデータ要素との間の比較のみの比較結果を含む、前記レジスタファイルに結合した実行ユニットと、

前記実行ユニットの比較結果を記憶するデスティネーションレジスタとを有するプロセッサ。

#### 【請求項 3 1】

前記実行ユニットは第 1 の制御信号により制御される、請求項 3 0 に記載のプロセッサ。

#### 【請求項 3 2】

前記第 1 と第 2 のオペランドのデータ要素の有効性を明示的に示す、請求項 3 1 に記載のプロセッサ。

#### 【請求項 3 3】

前記第 1 と第 2 のオペランドのデータ要素の有効性を默示的に示す、請求項 3 1 に記載の装置。

#### 【請求項 3 4】

前記第 1 の制御信号は、前記実行ユニットが符号付きの値または符号無しの値を比較するかどうか示す符号制御信号を含む、請求項 3 1 に記載のプロセッサ。

#### 【請求項 3 5】

前記第 1 の制御信号は、どれかが等しい、範囲内にある、及びそれぞれ等しいよりなるリストから選択した集約機能を前記実行ユニットが実行するかどうか示す集約機能信号を含む、請求項 3 1 に記載のプロセッサ。

#### 【請求項 3 6】

前記第 1 の制御信号は、前記実行ユニットに前記比較結果の少なくとも一部をネゲートさせるネゲート信号を含む、請求項 3 1 に記載のプロセッサ。

#### 【請求項 3 7】

前記第 1 の制御信号は、前記実行ユニットが前記比較結果の M S B または L S B のインデックスを生成するかどうか示すインデックス信号を含む、請求項 3 1 に記載のプロセッサ。

#### 【請求項 3 8】

前記第 1 の制御信号は、前記比較ロジックが前記比較結果としてゼロ延長マスクまたはバイト又はワードへの拡張マスクを生成するかどうかを示すマスク信号を含む、請求項 3 1 に記載のプロセッサ。

#### 【請求項 3 9】

前記実行ユニットは、整数演算と浮動小数点演算とを実行するロジックを有する、請求項 3 0 に記載のプロセッサ。

#### 【請求項 4 0】

前記スケジューラは、高速スケジューラ、低速 / 汎用浮動点スケジューラ、単純浮動小数点スケジューラのうち 1 つ以上を有する、請求項 3 0 に記載のプロセッサ。

#### 【請求項 4 1】

S I M D 比較命令をデコードするデコーダと、

整数レジスタと浮動小数点レジスタとを含む複数のレジスタを格納したレジスタファイルと、

前記レジスタを前記レジスタファイルにリネームするレジスタリネーミングであって、

10

20

30

40

50

前記レジスタファイルは第1のパック化オペランドを格納する第1のソースレジスタと第2のパック化オペランドを格納する第2のソースレジスタとを有するレジスタリネーミングと、

前記デコーダからのマイクロ命令を格納するキューと、

前記ソースレジスタ中の依存したオペランドの準備状況に基づき、前記オペランドの実行をスケジューリングするスケジューラと、

前記第1のパック化オペランドの有効なデータ要素のすべてと、前記第2のパック化オペランドの有効なデータ要素のすべてとの全組み合わせについて比較する、前記レジスタファイルに結合した実行ユニットであって、前記第1と第2のパック化オペランドのデータ要素は8ビット、16ビット、または32ビットである、実行ユニットと、

10

前記第1と第2のパック化オペランドの対応するデータ要素が等しいと前記実行ユニットが判断すると、すべてが1である結果配列を格納するデスティネーションレジスタとを有する、プロセッサ。

#### 【請求項42】

前記実行ユニットは値の2次元のアレイを生成し、前記アレイのエントリーは前記第1のパック化オペランドの有効データ要素と前記第2のパック化オペランドの有効データ要素との間の比較に対応する、請求項41に記載のプロセッサ。

#### 【請求項43】

前記実行ユニットは、前記値の2次元のアレイに、いずれかが等しい、範囲内にある、各々が等しい、及び非連続的サブストリングがマッチするよりなる集約機能の1つを実行する、請求項42に記載のプロセッサ。

20

#### 【発明の詳細な説明】

##### 【技術分野】

##### 【0001】

本願開示は、論理的及び数学的演算を行う、処理装置並びに関連するソフトウェア及びソフトウェア列の分野に関する。

##### 【背景技術】

##### 【0002】

計算機システムは、我々の社会でますます普及している。計算機の処理能力により、広範な職業で働く人々の効率と生産性が向上している。計算機を買って所有する費用は落ち続けている。従って、より多くの消費者が、より新しく、より速い計算機を活用できるようになっている。更に、多くの人は、ノート型の計算機を、その自由度ゆえに、楽しんで利用している。可搬型計算機により、利用者は、職場を離れても旅行中でも、簡単にデータを持ち運ぶことができ、仕事もできる。このような場面は、営業職や管理職にとって、また学生にとってすらも、ありふれた光景である。

30

##### 【0003】

処理装置の技術が進むにつれ、より新しいソフトウェアも開発が進んでいる。このソフトウェアは、進んだ処理装置を持つ計算機で走る。利用者は概して、自分の計算機に、より高い性能を期待し要求する。このことは、使うソフトウェアの種類には無関係である。このような性能に関する問題が起こりうるのは、処理装置の内部で実際に実行される命令及び演算の種類からである。ある種類の演算は、完了するのに、他の演算よりも時間がかかる。その理由は、演算が複雑であるせいか、演算に必要な回路の型のせいか、その両方のせいである。このことが、ある種の複雑な演算を処理装置の内部で実行する方法を、最適化する動機である。

40

##### 【0004】

通信の応用が、10年以上に渡って、超小型処理装置の進歩を駆り立ててきた。実際、計算と通信の間の境界線は、ますますぼやけてきている。この理由は、部分的には、通信の応用で文字列を使うからである。文字列の応用は、一般消費者向け市場で広まっている。また、文字列の応用は、多数の装置で広まっている。装置とは例えば携帯電話から個人用計算機までである。このような装置は、文字列情報を、一層より高速に処理することを

50

求めている。文字列を通信する装置は、計算し通信する装置に進化し続いている。計算し通信する装置は、次のような形の応用を行う。即ち、マイクロソフト（登録商標）インスタントメッセンジャー（商標）、電子メールの応用（例えばマイクロソフト（登録商標）アウトロック（商標））、及び携帯電話メールの応用である。その結果、将来における、個人の計算及び通信の体験は、文字列を扱う能力について、更により豊かになると期待される。

#### 【0005】

従って、計算又は通信する装置同士の間で交換される文字列情報を、処理すること又は構文解析することは、現在の計算装置及び通信装置にとって、一段と重要性を増している。とりわけ、通信又は計算する装置が文字情報の列を解釈することは、文字列データに対して行う最も重要な演算のうちの、いくつかを含む。このような演算では、計算量が嵩むにしても、データの並列度は高い水準であってもよい。この並列度を利用して、様々なデータ格納装置を使う効率的な実装を行える。格納装置とは、例えば、単一命令複数データ（S I M D）型のレジスタである。数多くの現在の計算機アーキテクチャはまた、次のことを要求する。即ち、複数の演算、複数の命令、又は複数の下位命令（よく「マイクロ命令」又は「μ o p」という。）を使って、様々な論理的及び数学的演算を、多数の演算対象に対して行う。このことにより、処理速度を上げ、その論理的及び数学的演算を行うのに必要なクロック周期の数を減らす。

#### 【発明の概要】

#### 【発明が解決しようとする課題】

#### 【0006】

例えば、多数の命令から成る命令列が、次のことを行うために必要であってもよい。即ち、文字列の中の特定の語を解釈するのに必要な1つ以上の演算である。この演算は、処理装置、システム、又は計算機プログラムの内部の様々なデータ型が表現する、2つ以上の文字列語を比べることを含む。しかし、このような従来の技術では、多数の処理周期が必要になることがあり、処理装置又はシステムは、結果を得るために、不要な電力を消費してしまうことがある。更に、いくつかの従来技術では、演算の対象としてもよいデータ型として、限られたものしか使えないことがある。

#### 【課題を解決するための手段】

#### 【0007】

本発明の一態様によると、命令を記憶した機械読み取り可能媒体が提供される。前記命令は、機械により実行されると、前記機械に第1のパック化オペランドの各データ要素を、第2のパック化オペランドの各データ要素と比較する段階と、前記比較の第1の結果を記憶する段階を含む方法を実行させる。

#### 【図面の簡単な説明】

#### 【0008】

【図1A】計算機システムの区画図である。計算機システムは、処理装置を含む。処理装置は、実行部を含む。実行部は、命令を実行する。命令は、文字列比較演算を行う。この命令は、本願発明の1つの実施例による。

【図1B】本願発明の別の実施例による、別の例の計算機システムの区画図である。

【図1C】本願発明の更に別の実施例による、更に別の例の計算機システムの区画図である。

【図2】1つの実施例による処理装置のマイクロアーキテクチャの区画図である。この実施例は、論理回路を含む。この論理回路は、本願発明による文字列比較演算を1つ以上行う。

【図3A】本願発明の1つの実施例による、マルチメディアレジスタにおける種々のパック化データ型の表現を示す。

【図3B】別の実施例による、パック化データ型を示す。

【図3C】本願発明の1つの実施例による、マルチメディアレジスタにおける種々の符号付き及び符号無しのパック化データ型の表現を示す。

10

20

30

40

50

【図3D】演算の符号化（即ち命令符号）の形式の1つの実施例を示す。

【図3E】演算の符号化（即ち命令符号）の別な形式を示す。

【図3F】演算の符号化の更に別な形式を示す。

【図4】論理回路の区画図である。この論理回路は、本願発明の1つの実施例により、少なくとも1つの文字列比較演算を、1つ以上の単精度パック化データ演算対象に対して行う。

【図5】配列の区画図である。この配列を使って、1つの実施例による少なくとも1つの文字列比較演算を行ってもよい。

【図6】本発明の1つの実施例で行ってもよい演算を示す。

【発明を実施するための形態】

10

【0009】

本願発明を実施例を使って説明する。本願発明は、実施例及び添付の図面によっては、限定されない。

【実施例】

【0010】

以下の記載が記述するのは、技法の実施例である。この技法は、処理装置、計算機システム、又はソフトウェアプログラムの内部で、文字列の要素同士の間を比べる演算を行う。以下の記載では、多数の個別の詳細を記述する。詳細とは例えば処理装置の型、マイクロアーキテクチャの事情、事象、実施可能な機構、等である。詳細を記載する目的は、本願発明のより深い理解を与えるためである。しかし、当業者は次の点に注意。即ち、本発明を、そのような個別の詳細を抜きに実施してもよい。加えて、いくつかの周知の構造、回路などは、詳細を示していない。これは、本願発明を不要に複雑に示すのを避けるためである。

20

【0011】

以下の実施例を、処理装置を参照して記述する。しかし、他の実施例を、他の型の集積回路や論理部品に応用できる。本願発明と同じ技術及び教示を、他の型の回路又は半導体部品に容易に応用できる。他の型の回路又は半導体部品も、より高いパイプライン効率及び改善した性能から、利益を受けることができる。本願発明の教示は、データの演算を行う、いかなる処理装置又は機械にも、応用できる。なお、本願発明は、256ビット、128ビット、64ビット、32ビット、又は16ビットのデータの演算を行う処理装置又は機械に限定されない。本願発明を、パック化データを演算する必要がある、いかなる処理装置及び機械にも、応用できる。

30

【0012】

以下の記載では、説明のために、多数の個別の詳細を記述する。詳細を記載する目的は、本願発明の徹底的な理解を与えるためである。しかし、当業者は次の点を理解することになる。即ち、これらの個別の詳細は、本願発明を実施するために必要ではない。場合により、周知の電気的な構造及び回路については、特に詳しくは記載していない。これは、本願発明を不要に複雑に示すのを避けるためである。加えて、以下の記載は、例を示す。添付の図面は、様々な例を示す。これらの例を示すのは、説明のためである。しかし、これらの例を、本願発明を限定する意味で解釈してはならない。これらの例は、本願発明の例を示すことを、意図しているだけである。これらの例は、本願発明の全ての可能な実装を網羅する一覧を示すことを、意図していない。

40

【0013】

以下の例では、命令の取り扱い及び分散を、実行部及び論理回路の文脈で記述する。しかし、本願発明の他の実施例を、ソフトウェアによっても実現できる。1つの実施例では、本願発明の方法を、機械が実行可能な命令に実施する。この命令を使って、次のことを行える。即ち、汎用処理装置又は専用処理装置をこの命令によってプログラムし、本願発明の工程を実行させる。本願発明を、計算機プログラム又はソフトウェアとして提供してもよい。この計算機プログラム又はソフトウェアは、機械可読媒体又は計算機可読媒体を含んでもよい。機械可読媒体又は計算機可読媒体は、命令を内部に格納して持つ。この命

50

令を使って、計算機（又は他の電子装置）をプログラムしてもよい。このプログラムにより、本願発明による処理を行う。代わりに、本願発明の工程を、特定のハードウェア部品によって実行してもよい。特定のハードウェア部品は、本願発明の工程を実行するための、配線を固定した論理回路を含む。又は、本願発明の工程を、プログラムされた計算機部品と専用ハードウェア部品との、いかなる組み合わせによっても実行してもよい。このようなソフトウェアを、システムの記憶装置の内部に格納できる。同様に、命令を分散できる。この分散を、網により行う。又は、この分散を、他の計算機可読媒体を使って行う。

#### 【0014】

従って、機械可読媒体は、機械（例えば計算機）が読める形式で情報を格納又は伝達するための、いかなる機構を含んでもよい。機械可読媒体は、次のものを含むが、これらに限定されない：フロッピー（登録商標）ディスクケット；光学ディスク；コンパクトディスク；CD-ROM；光磁気ディスク；ROM；RAM；EPROM；EEPROM；磁気カード若しくは光学カード；フラッシュ記憶装置；インターネット上の伝送；電気的、光学的、音響的、若しくは他の形態の伝搬する信号（例えば搬送波、赤外線信号、デジタル信号、等）；又は、同様のもの。従って、計算機可読媒体は、機械（例えば計算機）が読める形式で、電子的な命令又は情報を、格納又は伝達するのに適した、いかなる型の媒体及び機械可読媒体をも含む。更に、本願発明を、計算機プログラムとしてダウンロードしてもよい。即ち、プログラムを、遠隔の計算機（例えばサーバー）から転送して、要求する計算機（例えばクライアント）に取り込んでもよい。プログラムの転送を、次の信号によって行ってもよい。即ち、電気的、光学的、音響的、又は他の形態のデータ信号。これらの信号を、搬送波又は他の伝搬媒体に実施する。これらの信号は、通信接続（例えばモデム接続、網接続等）を経由する。

10

#### 【0015】

設計は、様々な段階を踏んでもよい。即ち、設計は、創案からシミュレーションを経て製造に至る。設計を表現するデータは、その設計を多数の方法で表現してもよい。まず、シミュレーションで便利なのは、次の方法である。即ち、ハードウェアを、ハードウェア記述言語又は別の機能記述言語を使って表現してもよい。加えて、論理の及び／又はトランジスターのゲート水準の回路モデルを、設計の過程の何らかの段階で作ってもよい。更に、ほとんどの設計者は、何らかの段階で、ハードウェアモデルにおける、種々の素子の物理的な配置を表現する水準のデータに辿り着く。従来の半導体の製造技術を使う場合には、このハードウェアモデルを表現するデータは、半導体マスクの様々な層に種々の特徴が有るか無いかを指定するデータであってもよい。このマスクを使って集積回路を作る。設計におけるいかなる表現でも、そのデータをいかなる形態の機械可読媒体に格納してもよい。機械可読媒体とは、次のものでもよい。即ち、そのような情報を伝送するために、変調した若しくは他の方法で生成した、光学的若しくは電気的な波、記憶装置、又は磁気若しくは光学的な格納器（例えば円盤）。これらの媒体のいかなるものも、設計又はソフトウェア情報を「担う」又は「示す」のでもよい。符号又は設計を示す又は担う電気的な搬送波を伝送する場合に、その電気信号の複写、蓄積、又は再送を行うと、新しい複写ができる。従って、通信設備者又は網提供者は、本願発明の技術を実施する物（即ち搬送波）の複写を作ってもよい。

20

30

#### 【0016】

近年の処理装置では、多数の異なる実行部を使って、様々な命令を処理し実行する。全ての命令が平等に作られている訳では無い。即ち、ある命令は他の命令よりも早く完了する。別の命令は、完了するのに莫大なクロックサイクルを費やすことがある。命令の実行速度が速ければ速いほど、処理装置の全体的な性能はより良いことになる。従って、有利なのは、なるべく多くの命令を、なるべく速く実行することである。しかし、いくつかの命令は、他の命令よりも遙かに複雑である。従って、実行時間と処理装置の資源を、他の命令よりも多く必要とする。そのような命令の例としては、浮動小数点命令、記憶装置からの読み込み／記憶装置への書き出し操作、データの移動命令等がある。

40

#### 【0017】

50

ますます多くの計算機システムを、インターネット、文章作成、及びマルチメディアのアプリケーションで使うようになったので、時が経つにつれ、処理装置に、それらを支援する機能が追加されてきた。例えば、単一命令複数データ(SIMD)型の整数及び浮動小数点命令、並びに、ストリーミングSIMD拡張(SSE)のような命令は、特定のプログラムの仕事を実行するのに必要な命令の総数を減らす。このことにより、消費電力を減らすこともできる。このような命令がソフトウェアの性能を高速化できるのは、複数のデータ要素に並列に演算を行うことによる。その結果、広範な応用で性能を上げられる。応用は、映像の処理、発話の処理、及び画像や写真的の処理を含む。SIMD命令の実装は、超小型処理装置や類似の論理回路で行われている。このような実装は、通常、多数の問題を孕んでいる。更に、SIMD演算は複雑なので、大抵は追加の回路が必要になる。追加の回路により、データを正しく処理して演算する。

#### 【0018】

現在、少なくとも2つのパック化演算対象のデータ要素の各々を比べるSIMD命令は存在しない。本発明の1つの実施例で行うようなSIMDパック化比較命令が無いと、応用プログラムで同じ結果を得るために、多数の命令及びデータレジスタが必要になることがある。応用プログラムは、例えば文字列についての、解釈、圧縮及び復元、処理、並びに演算を行う。本願で開示する実施例では、「文字列」の比較と「列」の比較を、相互に交換可能なように参照する。しかし、本発明の実施例を、情報のいかなる列(例えば、文字の列、数値の列、又は他のデータの列)にも適用してよい。

#### 【0019】

従って、本願発明の実施例による、少なくとも1つの文字列比較命令は、プログラムのオーバーヘッド及び必要な資源を減らせる。本願発明の実施例は、文字列を構文解析する演算を、SIMD関連のハードウェアを利用する算法として実装する方法を提供する。現在、SIMDレジスタにあるデータについて、文字列を構文解析する演算を行うことは、やや困難で手間がかかる。算法によっては、算術演算を実行する肝心の命令の数よりも、算術演算のためにデータを配置する命令に、より多くの数を必要とするほどである。本願発明の実施例による文字列比較演算の実施例を実装することにより、文字列を処理するために必要な命令の数を大幅に減らせる。

#### 【0020】

本願発明の実施例は、文字列を比べる1つ以上の演算を実装するための命令を含む。文字列を比べる演算は、一般に、データの2つの列からのデータ要素を比較することに関する。この比較により、どのデータ要素が合致するかを判断する。別の変形例を、汎用の文字列比較算法について作ってもよい。この算法も後で開示する。一般化した意味では、文字列比較演算の1つの実施例を、2つのパック化演算対象中にある個々のデータ要素に適用する。2つのパック化演算対象は、データの2つの列を示す。この文字列比較演算の実施例を、次のように汎用的に示せる:

D E S T 1 < - S R C 1 c m p S R C 2 ;

1つのパック化したSIMDデータ演算対象について、この汎用演算を、各演算対象の各データ要素の位置に適用できる。

#### 【0021】

上記の動作において、「DEST」と「SRC」は、対応するデータや動作の送信先と送信元を表す一般的な用語である。実施形態では、レジスタ、またはメモリ、または図示したものとは異なる名称や機能を有するその他の記憶領域により実施できる。例えば、一実施形態では、DEST1は一時的記憶レジスタやその他の記憶領域であり、SRC1とSRC2は送信先の第1と第2の記憶レジスタまたはその他の記憶領域である。他の実施形態では、SRC及びDEST記憶領域は同一記憶領域内(例えば、SIMDレジスタ)の異なるデータ記憶要素に対応する。

#### 【0022】

さらに、一実施形態では、ストリング比較動作により、あるソースレジスタの各要素が他のソースレジスタの各要素と等しいかどうかのインジケータを生成し、そのインジケー

10

20

30

40

50

タを D E S T 1 等のレジスタに記憶する。一実施形態では、インジケータはインデックス値である。他の実施形態では、インジケータはマスク値である。他の実施形態では、インジケータはその他のデータ構造やポインタを表す。

#### 【 0 0 2 3 】

図 1 A はコンピュータシステムの一例を示すブロック図である。このコンピュータシステムはプロセッサを有する。このプロセッサは、本発明の一実施形態によるストリング比較動作の命令を実行する実行ユニットを含む。システム 1 0 0 は、ここに説明する実施形態のような、本発明により、データを処理するアルゴリズムを実行する論理回路を含む実行ユニットを利用する、プロセッサ 1 0 2 等のコンポーネントを含む。システム 1 0 0 は、カリフォルニア州サンタクララ市のインテルコーポレイションから入手可能な P E N T I U M (登録商標) I I I 、 P E N T I U M (登録商標) 4 、 X e o n (商標) 、 I t a n i u m (登録商標) 、 X S c a l e (登録商標) 、 S t r o n g A R M (登録商標) に基づくプロセッシングシステムを表す。しかし、(他のマイクロプロセッサを有する P C 、エンジニアリングワークステーション、セットトップボックス等を含む)他のシステムを使うことも可能である。一実施形態では、サンプルシステム 1 0 0 は、ワシントン州レドモンド市のマイクロソフトコーポレーションのウィンドウズ (登録商標) オペレーティングシステムのバージョンを実行するが、他のオペレーティングシステム (ユニックス、リナックス等) 、組み込みソフトウェア、及び / またはグラフィカルユーザインターフェイス等を用いても良い。このように、本発明の実施形態は、ハードウェア回路とソフトウェアの特定の組み合わせには限定されない。

#### 【 0 0 2 4 】

実施形態はコンピュータシステムには限定されない。本発明の別の実施形態は、その他のデバイス、例えばハンドヘルドデバイスや組み込みアプリケーション等で利用することもできる。ハンドヘルドデバイスの例としては、セルラ電話、インターネットプロトコルデバイス、デジタルカメラ、パーソナルデジタルアシスタント (P D A ) 、ハンドヘルド P C などがある。組み込みアプリケーションには、マイクロコントローラ、デジタルシグナルプロセッサ (D S P ) 、システムオンチップ、ネットワークコンピュータ (N e t P C ) 、セットトップボックス、ネットワークハブ、ワイドエリアネットワーク (W A N ) スイッチ、その他のオペランドにストリング比較演算を実行するシステムがある。さらに、複数のデータ (several data) に対して同時に命令を実行してマルチメディアアプリケーションの効率を向上させるアーキテクチャを組み込んだ。データのタイプとボリュームが大きくなるにつれ、コンピュータやそのプロセッサはより効率的な方法でデータを操作するように高機能化 (enhanced) されねばならない。

#### 【 0 0 2 5 】

図 1 A は、コンピュータシステム 1 0 0 のブロック図であり、プロセッサ 1 0 2 を有する。プロセッサ 1 0 2 は、1つまたは複数のオペランド (operands) のデータ要素を比較するアルゴリズムを実行する1つまたは複数の実行ユニット 1 0 8 を含む。一実施形態をシングルプロセッサデスクトップまたはサーバシステムについて説明するが、別の実施形態をマルチプロセッサシステムで利用することができる。システム 1 0 0 はハブアーキテクチャの一例である。コンピュータシステム 1 0 0 は、データ信号を処理するプロセッサ 1 0 2 を含む。プロセッサ 1 0 2 は、C I S C (complex instruction set computer) マイクロプロセッサ、R I S C (reduced instruction set computing) マイクロプロセッサ、V L I W (very long instruction word) マイクロプロセッサ、複数の命令セットの組み合わせを実装したプロセッサ、他のデジタルシグナルプロセッサ等の任意のプロセッサである。プロセッサ 1 0 2 は、プロセッサバス 1 1 0 と結合し、プロセッサバス 1 1 0 により、プロセッサ 1 0 2 とシステム 1 0 0 の他のコンポーネントとの間でデータ信号を送信できる。システム 1 0 0 の要素は、本技術分野の当業者に周知である従来の機能を実行する。

#### 【 0 0 2 6 】

一実施形態では、プロセッサ 1 0 2 はレベル 1 (L 1 ) 内部キャッシュメモリ 1 0 4 を

10

20

30

40

50

含む。アーキテクチャによって、プロセッサ 102 は単一内部キャッシュを有しても、複数内部キャッシュレベルを有していてもよい。あるいは、他の実施形態では、キャッシュメモリはプロセッサ 102 の外部にあってもよい。他の実施形態では、具体的な実施形態及び必要性に応じて内部キャッシュと外部キャッシュを組み合わせてもよい。レジスタファイル 106 は、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、命令ポイントレジスタを含む様々なレジスタに相異なるタイプのデータを格納できる。

#### 【0027】

プロセッサ 102 には、実行ユニット 108 もあり、整数及び浮動小数点の演算を実行する論理回路を含む。プロセッサ 102 は、マクロ命令のマイクロコードを格納するマイクロコード (μ コード) ROM も含む。この実施形態では、実行ユニット 108 はパック化命令セット 109 を処理する論理回路を含む。一実施形態では、パック化命令セット 109 は、複数のオペランドの要素を比較するパック化ストリング比較命令 (packed string comparison instruction) を含む。汎用プロセッサ 102 の命令セットにパック化命令セット 109 を含めることにより、その命令を実行する関連回路とともに、多くのマルチメディアアプリケーションで利用する演算を汎用プロセッサ 102 においてパック化データを用いて実行することができる。このように、プロセッサのデータバスの幅を最大限に用いてパック化データ (packed data) に演算を行ことにより、多くのマルチメディアアプリケーションを高速化し、より効率的に実行することができる。これにより、プロセッサのデータバスを介してデータを小さい単位で転送して、一度に一データ要素に演算を実行する必要が無くなる。

マイクロコントローラ、組み込みプロセッサ、グラフィックスデバイス、DSP、その他のタイプの論理回路において、実行ユニット 108 の別の実施形態を利用することもできる。システム 100 は、メモリ 120 を含む。メモリ 120 は、DRAM (dynamic random access memory) デバイス、SRAM (static random access memory) デバイス、フラッシュメモリデバイス、その他のメモリデバイスである。メモリ 120 は、プロセッサ 102 により実行できる、データ信号で表された命令及び / またはデータを格納できる。

システム論理チップ 116 はプロセッサバス 110 とメモリ 120 に結合している。例示した実施形態では、システム論理チップ 116 はメモリコントローラハブ (MCH) である。プロセッサ 102 は、プロセッサバス 110 を介して MCH 116 と通信できる。MCH 116 は、命令とデータの格納、グラフィックスコマンド、データ、及びテクスチャの格納のために、メモリ 120 への広帯域幅メモリバス 118 を提供する。MCH 116 は、プロセッサ 102、メモリ 120、及びシステム 100 のその他のコンポーネントの間でデータ信号を方向付け (direct)、プロセッサバス 110、メモリ 120、及びシステム I/O 122 間のデータ信号をブリッジする。実施形態によっては、システム論理チップ 116 は、グラフィックスコントローラ 112 に結合するためのグラフィックスポートを提供する。MCH 116 は、メモリインターフェイス 118 を通してメモリ 120 に結合している。グラフィックスカード 112 は、AGP (Accelerated Graphics Port) インターコネクト 114 により MCH 116 に結合されている。

#### 【0028】

システム 100 は、独自のハブインターフェイスバス 122 を用いて、MCH 116 を I/O コントローラハブ (ICH) 130 に結合する。ICH 130 は、ローカル I/O バスを介して I/O デバイスに直接接続する。ローカル I/O バスは、メモリ 120、チップセット、及びプロセッサ 102 に周辺機器を接続する高速 I/O バスである。例としては、オーディオコントローラ、ファームウェアハブ (フラッシュ BIOS) 128、ワイヤレスラジオカード 126、データストレージ 124、ユーザ入力及びキーボードインターフェイスを含むレガシー I/O コントローラ、USB (Universal Serial Bus) 等のシリアル拡張ポート、及びネットワークコントローラ 134 がある。データストレージデバイス 124 は、ハードディスクドライブ、フロッピー (登録商標) ディスクドライブ、CD-ROM デバイス、フラッシュメモリデバイス、その他の大容量ストレージデバイ

10

20

30

40

50

スである。

**【0029】**

システムの他の実施形態の場合、ストリング比較命令を含むアルゴリズムを実行する実行ユニットをシステムオンチップ(system on a chip)で利用できる。システムオンチップの一実施形態は、プロセッサ及びメモリである。かかるシステムのメモリはフラッシュメモリである。フラッシュメモリはプロセッサ及びその他のシステムコンポーネントと同じダイ(die)にあってもよい。また、他の論理ブロック、例えばメモリコントローラまたはグラフィックスコントローラ等がシステムオンチップ上にあってもよい。

**【0030】**

図1Bは、本発明の一実施形態の原理を化体するデータ処理システム140を示す。当業者には言うまでもなく、本発明の範囲から逸脱することなく、ここに説明する実施形態を別の処理システムで利用することもできる。

10

**【0031】**

コンピュータシステム140は、ストリング比較演算を含むSMD演算を実行できるプロセッシングコア159を有する。一実施形態では、プロセッシングコア159は、任意タイプのアーキテクチャの処理ユニットを表し、CISC、RISC、VLIWなど各タイプのアーキテクチャを含むが、これらには限定されない。プロセッシングコア159は、1つまたは複数のプロセステクノロジーでの生産に適しており、機械読み取り可能媒体で十分に詳しく表せるので、生産が容易になる。

**【0032】**

プロセッシングコア159は、実行ユニット142、一組のレジスタファイル145、及びデコーダ144を有する。プロセッシングコア159は、この他の回路(図示せず)も含むが、この回路は本発明を理解するためには必要ない。実行ユニット142は、プロセッシングコア159が受け取った命令を実行するために使用する。実行ユニット142は、一般的なプロセッサ命令を認識するのに加え、パック化命令セット143の命令を認識して、パック化データフォーマットに演算を実行する。パック化命令セット143は、ストリング比較演算をサポートする命令を含み、他のパック化命令を含んでも良い。実行ユニット142は内部バスによりレジスタファイル145に結合している。レジスタファイル145は、データを含む情報を格納する、プロセッシングコア159上の記憶領域を表す。上記の通り、パック化データを記憶するのに用いる記憶領域は必須ではない。実行ユニット142はデコーダ144に結合している。デコーダ144は、プロセッシングコア159が受け取った命令を制御信号及び/またはマイクロコードエントリーポイント(microcode entry points)にデコードするために用いられる。実行ユニット142は、これらの制御信号及び/またはマイクロコードエントリーポイントに応じて適切な演算を実行する。

20

**【0033】**

プロセッシングコア159は、他の様々なシステムデバイスと通信するためにバス141と結合されている。

システムデバイスには、シンクロナスDRAM(SDRAM)コントロール146、静态RAM(SRAM)コントロール147、バーストフラッシュメモリインターフェイス148、PCMCIA/コンパクトフラッシュ(登録商標)(CF)カードコントロール149、液晶ディスプレイLCDコントロール150、DMAコントローラ151、代替バスマスターインターフェイス152が含まれるが、これらには限定されない。一実施形態では、データプロセッシングシステム140は、I/Oバス153を介して様々なI/Oデバイスと通信するためのI/Oブリッジ154も有する。I/Oデバイスには、例えばUART155、USB156、ブルートゥースワイヤレスUART157、及びI/O拡張インターフェイス158が含まれるが、これらには限定されない。

30

**【0034】**

データプロセッシングシステム140の一実施形態は、ストリング比較演算を含むSMD演算を実行できる、モバイル、ネットワーク及び/またはワイヤレス通信およびプロ

40

50

セッシングコア 159 である。プロセッシングコア 159 は、様々なオーディオ、ビデオ、画像化、及び通信アルゴリズムでプログラムすることができる。これらのアルゴリズムには、例えば、ウォルシュ・アダマール変換、高速フーリエ変換、離散余弦変換 (DCT) 、これらのそれぞれの逆変換；色空間変換等の圧縮・解凍方法、ビデオエンコード動き予測、またはビデオデコード動き補償；パルスコード変調 (PCM) 等の変復調 (MOD EM) 機能等が含まれる。

#### 【0035】

図 1C は、 SIMD ストリング比較演算を実行できるデータ処理システムのさらに別の実施形態を示す。別の一実施形態によるデータプロセッシングシステム 160 は、メインプロセッサ 166 、 SIMD コ・プロセッサ 161 、キャッシュメモリ 167 、及び入出力システム 168 を含む。入出力システム 168 は、任意的に、ワイヤレスインターフェイス 169 に結合している。 SIMD コ・プロセッサ 161 は、ストリング比較演算を含む SIMD 演算を実行できる。プロセッシングコア 170 は、1つまたは複数のプロセステクノロジーでの生産に適しており、機械読み取り可能媒体で十分に詳しく表せるので、プロセッシングコア 170 を含むデータプロセッシングシステム 160 の全部または一部の生産が容易になる。

#### 【0036】

一実施形態では、 SIMD コ・プロセッサ 161 は、実行ユニット 162 と一組のレジスタファイル 164 を有する。メインプロセッサ 165 の一実施形態は、実行ユニット 162 が実行する SIMD ストリング比較命令を含む命令セット 163 の命令を認識するデコーダ 165 を有する。別の実施形態では、 SIMD コ・プロセッサ 161 は、デコーダ 165B の少なくとも一部を有し、命令セット 163 の命令をデコードする。プロセッシングコア 170 は、この他の回路 ( 図示せず ) も含むが、この回路は本発明の実施形態を理解するためには必要ない。

#### 【0037】

動作中、メインプロセッサ 166 は、キャッシュメモリ 167 や入出力システム 168 とのインターラクションを含む、一般的なタイプのデータ処理演算を制御するデータ処理命令ストリーム ( stream of data processing instructions ) を実行する。 SIMD コ・プロセッサ命令はデータ処理命令ストリームの中に組み込まれている。メインプロセッサ 166 のデコーダ 165 は、 SIMD コ・プロセッサ命令を、付随する SIMD コ・プロセッサ 161 が実行すべきタイプであるとして認識する。従って、メインプロセッサ 166 は、これらの SIMD コ・プロセッサ命令 ( または、 SIMD コ・プロセッサ命令を表す制御信号 ) をコ・プロセッサバス 166 上に発行し、付随する SIMD コ・プロセッサはコ・プロセッサバス 166 からコ・プロセッサ命令を受け取る。この場合、 SIMD コ・プロセッサ 161 は、それに宛てられた SIMD コ・プロセッサ命令を受け取り、実行する。

#### 【0038】

SIMD コ・プロセッサ命令が処理するデータは、ワイヤレスインターフェイス 169 を介して受け取ってもよい。一例として、音声通信をデジタル信号の形式で受信して、 SIMD コ・プロセッサ命令で処理して、その音声通信を表すデジタルオーディオサンプルを再生する。他の一例として、圧縮オーディオ及び / またはビデオをデジタルビットストリームの形式で受信して、 SIMD コ・プロセッサ命令で処理して、そのデジタルオーディオサンプル及び / またはモーションビデオフレームを再生してもよい。プロセッシングコア 170 の一実施形態では、メインプロセッサ 166 と SIMD コ・プロセッサ 161 は単一のプロセッシングコア 170 に集積されている。プロセッシングコア 170 は、実行ユニット 162 、一組のレジスタファイル 164 、及びデコーダ 165 を有し、 SIMD ストリング比較命令を含む命令セット 163 の命令を認識する。

#### 【0039】

図 2 は、プロセッサ 200 のマイクロアーキテクチャを示すブロック図である。プロセッサ 200 は、本発明の一実施形態によるストリング比較命令を実行する論理回路を含む

10

20

30

40

50

。ストリング比較命令の一実施形態では、第1のオペランドの各データ要素を第2のオペランドの各データ要素と比較して、各比較結果が一致したかを示すインジケータを格納する。実施形態では、サイズがバイト、ワード、ダブルワード、クアッドワード(quadword)等であり、データタイプが整数や浮動小数点であるデータ要素に、ストリング比較命令を演算することができる。一実施形態では、インオーダー(in-order)フロントエンド201がプロセッサ200の一部となっており、実行するマクロ命令をフェッチして、後でプロセッサパイプラインで使用するように準備する。フロントエンド201は複数のユニットを含む。一実施形態では、命令プリフェッチャ226は、メモリからマクロ命令をフェッチして、命令デコーダ228に供給(feed)する。命令デコーダ228は、マクロ命令を、機械が実行可能なマイクロ命令またはマイクロ演算(micro opやμopsとも呼ぶ)と呼ばれるプリミティブ(primitives)にデコードする。一実施形態では、トレースキャッシュ230は、デコードされたマイクロ演算を取って、プログラムオーダーシーケンス(program ordered sequences)またはトレース(traces)を組立、実行のためにマイクロ演算キュー234に入れる。トレースキャッシュ230が複雑なマクロ命令を見つける(encounter)と、マイクロコードROM232がその演算を完了するのに必要なマイクロ演算を供給する。  
10

#### 【0040】

多数のマクロ命令は単一のマイクロ演算に変換されるが、他のマクロ命令はその演算を完全に完了するのに複数の(several)マイクロ演算を必要とする。一実施形態では、1つのマクロ命令を完了するのに5つ以上のマイクロ演算が必要であれば、デコーダ228はマイクロコードROM232にアクセスしてマクロ命令を実行する。一実施形態では、パック化ストリング比較命令を少数のマイクロ演算にデコードして、命令デコーダ228で処理する。他の実施形態では、演算を行うのに多数のマイクロ演算が必要な場合、パック化ストリング比較アルゴリズムをマイクロコードROM232内に格納することもできる。トレースキャッシュ230は、マイクロコードROM232のストリング比較アルゴリズムのマイクロコードシーケンスを読むための、正しいマイクロ命令ポインタを決定するエントリーポイントのプログラマブルロジックアレイ(PLA)である。マイクロコードROM232がカレントの(current)マクロ命令のマイクロ演算のシーケンス決定sequencing)を終了すると、マシンのフロントエンド201は、トレースキャッシュ230からマイクロ演算のフェッチを再開する。  
20  
30

#### 【0041】

一部の SIMD その他のマルチメディアタイプの命令は複雑な命令であると考えられる。浮動小数点関係の命令もほとんどが複雑な命令である。そこで、命令デコーダ228は複雑なマクロ命令が来ると(encounter)、マイクロコードROM232の適切な場所にアクセスして、そのマクロ命令のマイクロコードシーケンスを読み出す。そのマクロ命令を実行するのに必要な様々なマイクロ演算を、アウトオブオーダー(out-of-order)実行エンジン203に送り、適切な整数実行ユニット及び浮動小数点実行ユニットで実行する。

#### 【0042】

アウトオブオーダー実行エンジン203は、マイクロ命令の実行準備をするところである。アウトオブオーダー実行論理回路は、多数のバッファを有し、マイクロ命令がパイプラインを下り、実行スケジューリングがなされるにつれ、実行を最適化するように、マイクロ命令のフローをスムーズにして並べ替える。アロケータロジックは、各マイクロ演算を実行するために必要なマシンバッファとリソースをアロケートする。レジスタリネーミングロジックは、ロジックレジスタをレジスタファイルのエントリーにリネーム(rename)する。アロケータは、命令スケジューラであるメモリスケジューラ、高速スケジューラ202、低速・一般浮動小数点スケジューラ204、及び単純浮動小数点スケジューラ206の前にある、メモリ演算用と非メモリ演算用の2つのマイクロ演算キューの一方の各マイクロ演算にエントリーをアロケートする。マイクロ演算スケジューラ202、204、206は、マイクロ演算が依存する入力レジスタオペランドソースの準備状況(readin  
40  
50

ess)と、マイクロ演算がその演算を完了するのに必要とする実行リソースの利用可能性とに基づき、マイクロ演算がいつ実行できるか決定する。本実施形態の高速スケジューラ202は、メインクロックサイクルの半分ごとにスケジューリングができるが、他のスケジューラはメインプロセッサクロックサイクルごとにしかスケジューリングができない。複数のスケジューラはディスパッチポートをアビトリエーションしてマイクロ演算の実行をスケジューリングする。

#### 【0043】

レジスタファイル208、210はスケジューラ202、204、206と、実行ブロック211の実行ユニット212、214、216、218、220、222、224との間にある。整数演算と浮動小数点演算にはそれぞれ別のレジスタファイル208、210がある。他の実施形態では、整数レジスタ及び浮動小数点レジスタは同一レジスタファイルにあってもよい。本実施形態の各レジスタファイル208、210は、ちょうど完了した結果であってまだレジスタファイルに書き込まれていないものを、新しいディpendent(dependent)なマイクロ演算にバイパスまたは転送するバイパスネットワークを含む。整数レジスタファイル208と浮動小数点レジスタファイル210は、互いにデータをやりとりすることができる。一実施形態では、整数レジスタファイル208は、下位32ビット用と上位32ビット用である2つの別々のレジスタファイルに分離されている。一実施形態の浮動小数点レジスタファイル210は、128ビット幅のエントリーを有する。浮動小数点命令は、一般的には64ビットから128ビットの幅のオペランドを有するからである。

10

#### 【0044】

実行ブロック211は、実行ユニット212、214、216、218、220、222、224を含み、これらにより命令が実際に実行される。このセクションにはレジスタファイル208、210が含まれる。レジスタファイル208、210は、マイクロ命令の実行に必要な整数及び浮動小数点データオペランドの値が記憶される。本実施形態のプロセッサ200は、複数の実行ユニット、すなわちアドレス生成ユニット(AGU)212、AGU214、高速ALU216、高速ALU218、低速ALU220、浮動小数点ALU222、浮動小数点moveユニット224により構成されている。本実施形態では、浮動小数点実行ブロック222、224は、浮動小数点演算、MMX演算、SIMD演算、及びSSE演算を実行する。本実施形態の浮動小数点ALU222は、64ビット対64ビットの浮動小数点割り算器を含み、割り算、平方根、剩余のマイクロ演算を実行する。本発明の実施形態では、浮動小数点値が関わる動作は浮動小数点ハードウェアで行われる。例えば、整数形式と浮動小数点形式の間の変換には浮動小数点レジスタファイルが関与する。同様に、浮動小数点割り算演算は浮動小数点割り算器で行われる。一方、非浮動小数点型や整数型は整数ハードウェアリソースで処理される。単純かつ頻度が高いALU演算は高速ALU実行ユニット216、218に行く。本実施形態の高速ALU216、218は、有効レイテンシーがクロックサイクルの半分である高速演算を実行できる。一実施形態では、ほとんどの複雑な整数演算は低速ALU220に行く。低速ALU220が、乗算、シフト、フラグロジック、ブランチ処理等のレイテンシーが長いタイプの演算用の整数実行ハードウェアを含むからである。メモリロード・ストア命令は、AGU212、214で実行される。この実施形態は、整数ALU216、218、220は、64ビットデータオペランドに整数演算を実行するものとして説明した。別の実施形態では、ALU216、218、220は、16, 32, 128, 256等の様々なデータビットをサポートするよう実施することもできる。同様に、浮動小数点ユニット222、224は、様々な幅のビットを有するある範囲のオペランドをサポートするように実施することもできる。一実施形態では、浮動小数点ユニット222、224は、SIMD命令やマルチメディア命令とともに、128ビット幅のパック化データオペランドに演算をすることができる。

20

30

40

#### 【0045】

本実施形態では、マイクロ演算スケジューラ202、204、206は、親のロード(load)の実行が終わる前に、ディpendent演算(dependent operations)をディスパ

50

ツチする。マイクロ演算はプロセッサ 200においてスペキュレーティブ (speculatively) にスケジューリングされるので、プロセッサ 200はメモリミスを処理するロジックも含む。データキャッシュにおいてデータロードがミスすると、パイプライン中には、データが一時的に正しくないディベンデント演算がある。正しくないデータを使う命令をリプレイメカニズムが追跡し、再実行する。ディベンデント演算のみをリプレイする必要があり、インディベンデント演算は完了することができる。プロセッサの一実施形態のスケジューラとリプレイメカニズムは、ストリング比較演算の命令シーケンスを捉えるように設計されている。

#### 【0046】

「レジスタ」という用語は、オペランドを特定するマクロ命令の一部として使われる、  
オンボードプロセッサの記憶場所を言う。換言すると、ここでレジスタとは、プロセッサ  
の外側から（プログラマーの視点から）見えるレジスタである。しかし、一実施形態の  
レジスタは、特定タイプの回路を意味していると限定すべきではない。むしろ、実施形態の  
レジスタは、データを記憶して供給し、本明細書に記載する機能を実行できるだけよい  
。ここで説明したレジスタは、専用の物理的レジスタ、レジスタリネーミングを利用した  
動的割当の物理的レジスタ、専用の物理的レジスタ及び動的割当の物理的レジスタの組  
み合わせなど、任意数の異なる技術を用いて、プロセッサ内の回路により実施するこ  
ができる。一実施形態では、整数レジスタは 32 ビットの整数データを記憶する。一実施形  
態のレジスタファイルは、パック化データ用に 8 個のマルチメディア SIMD レジスタも  
含む。以下の説明では、レジスタは、カリフォルニア州サンタクララ市のインテルコーポ  
レイションの MMX テクノロジーで実現された、マイクロプロセッサの 64 ビット幅 MM  
X（登録商標）レジスタ（場合によっては「mm」レジスタとも呼ぶ）などの、パック化  
データを保持するように設計されたデータレジスタであるものとする。これらの MMX レ  
ジスタは、整数形式と浮動小数点形式とがあるが、 SIMD 命令や SSE 命令をともなう  
パック化データ要素に利用できる。同様に、 SSE2, SSE3, SSE4 またはそれ以  
降（総称的に「SSEx」と呼ぶ）のテクノロジーに関する 128 ビット幅の XMM レジ  
スタも、このようなパック化データオペランドを保持するために用いることができる。本  
実施形態では、パック化データや整数データを記憶する際、レジスタは 2 つのデータタイ  
プを区別する必要はない。  
10

#### 【0047】

以下の図の実施例では、複数のデータオペランドを説明する。図 3A は、本発明の一実  
施形態によるマルチメディアレジスタにおける様々なパック化データタイプを表した図  
である。図 3A は、128 ビット幅オペランドの、パック化バイト 310、パック化ワード  
320、及びパック化ダブルワード 330 を示している。本実施例のパック化バイトフォ  
ーマット 310 は、128 ビットの長さで、16 個のパック化バイトデータ要素を含む。  
ここでは、1 バイトは 8 ビットのデータであると定義する。各バイトデータ要素の情報は  
、バイト 0 がビット 7 からビット 0 まで、バイト 1 がビット 15 からビット 8 まで、バ  
イト 2 がビット 23 からビット 16 まで、そして最終的にバイト 15 がビット 127 からビ  
ット 120 までに記憶される。このように、レジスタのすべてのビットが利用される。こ  
のような記憶構成をとることにより、プロセッサの記憶効率が高まる。また、16 個のデ  
ータ要素にアクセスするので、1 つの演算を 16 個のデータ要素に並行に演算するこ  
ができる。  
30

#### 【0048】

一般的に、データ要素は、単一のレジスタや記憶場所 (memory location) に格納され  
る個別のデータ (individual piece of data) であり、他のデータ要素と同じ長さの  
ものである。SSE × テクノロジーに関連するパック化データシーケンスでは、XMM レ  
ジスタに格納されるデータ要素数は、128 ビットを個々のデータ要素のビット長で割  
った数である。MMX 及び SSE テクノロジーに関連するパック化データシーケンスでは、  
MMX レジスタに格納されるデータ要素数は、64 ビットを個々のデータ要素のビット長  
で割った数である。図 3A に示したデータタイプは 128 ビット長であるが、本発明の実  
40

50

20

30

40

50

施形態は、64ビット幅でもその他のサイズのオペランドでも動作可能である。本実施例のパック化ワードフォーマット320は、128ビットの長さで、8個のパック化ワードデータ要素を含む。各パック化ワードは16ビットの情報を含む。図3Aのパック化ダブルワードフォーマット330は、128ビットの長さで、4個のパック化ダブルワードデータ要素を含む。各パック化ダブルワードデータ要素は32ビットの情報を含む。パック化クアドワード(quadword)は、128ビットの長さであり、2つのパック化クアドワードデータ要素を含む。

#### 【0049】

図3Bは、別のレジスタ内データ記憶フォーマットを示す図である。各パック化データは独立した2つ以上のデータ要素を含んでいても良い。パック化ハーフ341、パック化シングル342、及びパック化ダブル343である3つのパック化データフォーマットを示した。パック化ハーフ341、パック化シングル342、及びパック化ダブル343の一実施形態は、固定小数点データ要素である。別の実施形態では、パック化ハーフ341、パック化シングル342、及びパック化ダブル343は、浮動小数点データ要素を含んでいてもよい。パック化ハーフ341の別の一実施形態は、8個の16ビットデータ要素を含む128ビット長データである。パック化シングル342の一実施形態は、128ビットの長さであり、4個の32ビットデータ要素を含む。パック化ダブル343の一実施形態は、128ビットの長さであり、2つの64ビットデータ要素を含む。言うまでもなく、かかるパック化データフォーマットは、例えば、96ビット、160ビット、192ビット、224ビット、256ビット、またはそれ以上のレジスタ長に拡張することができる。

#### 【0050】

図3Cは、本発明の一実施形態によるマルチメディアレジスタにおける様々な符号付き及び符号無しのパック化データタイプを表した図である。符号無しパック化バイト表現344は、 SIMDレジスタにおける符号無しパック化バイトの記憶を示す。各バイトデータ要素の情報は、バイト0がビット7からビット0まで、バイト1がビット15からビット8まで、バイト2がビット23からビット16まで、そして最終的にバイト15がビット127からビット120までに格納される。このように、レジスタのすべてのビットが利用される。このような記憶構成をとることにより、プロセッサの記憶効率が高まる。また、16個のデータ要素にアクセスするので、1つの演算を16個のデータ要素に並行に演算することができる。符号付きパック化バイト表現345は、符号付きパック化バイトの記憶を示す。各バイトデータ要素の8番目のビットは符号インジケータである。符号無しパック化ワード表現346は、ワード7からワード0までがどのように SIMDレジスタに記憶されるかを示している。符号付きパック化ワード表現347は、符号無しパック化ワードレジスタ内表現346と同様である。各ワードデータ要素の16番目のビットは符号インジケータである。符号無しパック化ダブルワードデータ表現348は、ダブルワードデータ要素がどのように格納されるか示している。符号付きパック化ダブルワード表現349は、符号無しパック化ダブルワードレジスタ内表現348と同様である。必要な符号ビットは、各ダブルワードデータ要素の32番目のビットである。一実施形態では、オペランドは定数でもよく、それが付随する命令によって変化しない。

#### 【0051】

図3Dは、オペレーションエンコーディング(opcode)フォーマット360の一実施形態を示す。これは、32ビット以上であり、レジスタ・メモリオペランドのアドレッシングモードは、「IA-32 Intel Architecture Software Developer's Manual Volume 2: Instruction Set Reference」に記載されたopcodeフォーマットのタイプに対応している。このマニュアルは、ワールドワイドウェブintel.com/design/litcenterで、カリフォルニア州サンタクララ市のインテルコーポレーションから入手できる。一実施形態では、ストリング比較演算は1つまたは複数のフィールド361及び362でエンコードされる。2つまでのソースオペランド識別子364と365を含め、一命令につき2つまでのオペランドの場所が特定される。ストリング比較命令の一実施形態では、デスティネ

10

20

30

40

50

ーションオペランド識別子 366 はソースオペランド識別子 364 と同じであり、他の実施形態では異なる。別の実施形態では、デスティネーションオペランド識別子 366 はソースオペランド識別子 365 と同じであり、他の実施形態では異なる。ストリング比較命令の一実施形態では、ソースオペランド識別子 364 と 365 により特定されるソースオペランドの一方は、ストリング比較命令の結果により上書きされる。一方、他の実施形態では、識別子 364 はソースレジスタ要素に対応し、識別子 365 はデスティネーションレジスタ要素に対応する。ストリング比較命令の一実施形態では、オペランド識別子 364 と 365 は、32 ビットまたは 64 ビットのソース及びデスティネーションオペランドを特定するために用いられる。

## 【0052】

10

図 3E は、40 ビットまたはそれ以上の、別のオペレーションエンコーディング (opcode) フォーマット 370 を示す。opcode フォーマット 370 は、opcode フォーマット 360 に対応し、任意的なプレフィックスバイト 378 を含む。ストリング比較演算のタイプは、1つまたは複数のフィールド 378、371 及び 372 でエンコードされる。1つの命令につき 2 つまでのオペランドの場所がソースオペランド識別子 374 と 375、及びプレフィックスバイト 378 により特定される。ストリング比較命令の一実施形態では、プレフィックスバイト 378 は、32 ビット、64 ビット、または 128 ビットのソース及びデスティネーションオペランドを特定するために用いられる。ストリング比較命令の一実施形態では、デスティネーションオペランド識別子 376 はソースオペランド識別子 374 と同じであり、他の実施形態では異なる。別の実施形態では、デスティネーションオペランド識別子 376 はソースオペランド識別子 375 と同じであり、他の実施形態では異なる。一実施形態では、ストリング比較演算は、オペランド識別子 374 と 375 により特定されるオペランドの各要素を、オペランド識別子 374 と 375 により特定される他のオペランドの各要素と比較、その各要素をストリング比較演算の結果により上書きする。一方、他の実施形態では、識別子 374 と 375 により特定されるオペランドのストリング比較は、他のレジスタの他のデータ要素に書き込まれる。opcode フォーマット 360 と 370 では、MOD フィールド 363 と 373、及び任意的なスケール・インデックス・ベース及びディスプレースメントバイトにより部分的に規定される、レジスタからレジスタ、メモリからレジスタ、メモリによるレジスタ、レジスタによるレジスタ、イミーディエイト (immediate) によるレジスタ、レジスタからメモリへのアドレッシングが可能である。

20

## 【0053】

30

次に図 3F を参照して、別の実施形態では、64 ビット単一命令複数データ ( SIMD ) 算術演算は、コ・プロセッサデータ処理 (CDP) 命令により実行される。オペレーションエンコーディング (opcode) フォーマット 380 は、CDP opcode フィールド 382 と 389 を有するかかる CDP 命令を示す。ストリング比較演算の別の実施形態では、CDP 命令のタイプは、1つまたは複数のフィールド 383、384、387 及び 388 でエンコードされる。2 つまでのソースオペランド識別子 385 と 390 と、1つのデスティネーションオペランド識別子 386 とを含め、一命令につき 3 つまでのオペランドの場所を特定できる。コ・プロセッサの一実施形態は、8、16、32 及び 64 ビット値で動作できる。一実施形態では、ストリング比較演算は整数データ要素に実行される。実施形態では、ストリング比較命令は、条件フィールド 381 を用いて、条件付きで実行してもよい。ストリング比較命令によっては、ソースデータサイズはフィールド 383 によりエンコードできる。ストリング比較命令の実施形態では、SIMD フィールドでゼロ (Z)、ネガティブ (N)、キャリー (C)、オーバーフロー (V) の検出ができる。命令によっては飽和のタイプをフィールド 384 でエンコードしてもよい。

40

## 【0054】

一実施形態では、ストリング比較演算の結果が非ゼロであることを示すために、フィールドまたは「フラグ」を用いてもよい。実施形態によっては、ソース要素が無効であることを示すフラグや、ストリング比較演算の結果の LSB または MSB を示すフラグなどの

50

他のフィールドを使ってもよい。

#### 【0055】

図4は、本発明による、パック化データオペランドにストリング比較演算を実行するロジックの一実施形態を示すブロック図である。本発明の実施形態は、上記のような様々なタイプのオペランドで機能するように実施できる。一実施形態では、本発明によるストリング比較演算は、特定のデータタイプに作用する命令セットとして実施する。例えば、整数と浮動小数点を含む32ビットデータタイプの比較を実行するパック化ストリング比較命令を提供する。同様に、整数と浮動小数点を含む64ビットデータタイプの比較を実行するパック化ストリング比較命令を提供する。以下の説明と実施例により、データ要素が何を表しているかに関わらずデータ要素を比較する比較命令の動作を説明する。説明を簡単にするため、一部の実施例は、データ要素がテキストの言葉である1つまたは複数のストリング比較命令の実行を示す。  
10

#### 【0056】

一実施形態では、ストリング比較命令は、第1のデータオペランドDATA A 410の各要素を、第2のデータオペランドDATA B 420の各要素と比較し、各比較の結果をRESULTANT 440レジスタに格納する。以下の説明では、DATA A、DATA B、及びRESULTANTはレジスタであるものとする。しかし、そのように限定されず、レジスタ、レジスタファイル、及びメモリの記憶場所を含む。一実施形態では、テキストストリング比較命令（例えば、「PCMPxSTRy」）は1つのマイクロ演算にデコードされる。別の実施形態では、各命令は、データオペランドにテキストストリング比較演算を行う様々な数のマイクロ演算にデコードできる。この実施例では、オペランド410、420は、ワード幅のデータ要素を有するソースレジスタ・メモリに格納された128ビット幅の情報である。一実施形態では、オペランド410、420は、128ビットSSEX XMMレジスタ等の128ビット長 SIMD レジスタに保持される。一実施形態では、RESULTANT 440はXMMデータレジスタでもある。他の実施形態では、RESULTANT 440は、拡張レジスタ（例えば、「EAX」）などの他のタイプのレジスタであってもよく、メモリの記憶場所であってもよい。実施形態によっては、オペランドとレジスタは32、64、256ビットなどの長さであっても良く、バイト、ダブルワード、またはクアドワードサイズのデータ要素を有していてもよい。この実施例のデータ要素はワードサイズであるが、同じコンセプトをバイトやダブルワードサイズの要素に拡張することができる。一実施形態では、データオペランドが64ビット幅であれば、XMMレジスタの替わりにMMXレジスタを用いる。  
20  
30

#### 【0057】

一実施形態では、第1のオペランド410は、A7, A6, A5, A4, A3, A2, A1及びA0の8つのデータ要素により構成されている。第1と第2のオペランドの要素間の各比較は、結果440中のデータ要素の位置に対応してもよい。一実施形態では、第2のオペランド420は、B7, B6, B5, B4, B3, B2, B1及びB0の8つのデータセグメントにより構成されている。ここでデータセグメントとは、長さが等しく、1データワード（16ビット）より構成される。しかし、データ要素とデータ要素位置はワード以外の粒度（granularities）を有していてもよい。各データ要素がバイト（8ビット）、ダブルワード（32ビット）、またはクアドワード（64ビット）であるとき、128ビットオペランドは16バイト幅、4ダブルワード幅、または2クアドワード幅のデータ要素をそれぞれ有する。本発明の実施形態は特定の長さのデータオペランドやデータセグメントに限定されず、各実施形態に適切なサイズを利用できる。  
40

#### 【0058】

オペランド410, 420は、レジスタ、メモリの記憶場所、レジスタファイル、またはこれらの組み合わせ（mix）のどれにあってもよい。データオペランド410、420は、テキストストリング比較命令とともに、プロセッサの実行ユニットのストリング比較ロジック430に送られる。一実施形態では、命令が実行ユニットに到着する時までに、その命令はプロセッサパイプラインで早めにデコードされる。このように、ストリング比  
50

較命令はマイクロ命令 ( μ op ) またはその他のデコードされたフォーマットの形式であり得る。一実施形態では、2つのデータオペランド 410 , 420 をストリング比較ロジック 430 が受け取る。一実施形態では、テキストストリング比較ロジックは、2つのデータオペランドの要素が等しいかどうかの表示を生成する。一実施形態では、各オペランドの有効要素のみを比較する。有効要素は、各オペランドの各要素について他のレジスタまたはメモリの記憶場所により示される。一実施形態では、オペランド 410 の各要素をオペランド 420 の各要素と比較する。この比較により、オペランド 410 の要素数にオペランド 420 の要素数をかけた数に等しい比較結果ができる。例えば、各オペランド 410 と 420 が 32 ビット値である場合、結果レジスタ 440 は、ストリング比較ロジック 430 で実行されたテキスト比較演算の  $32 \times 32$  までの結果インジケータを記憶する。

10  
一実施形態では、第1と第2のオペランドからのデータ要素は単精度（例えば、32ビット）であり、他の実施形態では、第1と第2のオペランドのデータ要素は倍精度（例えば、64ビット）である。他の実施形態では、第1と第2のオペランドは、8、16、32ビットを含む任意サイズの整数要素を含み得る。

#### 【0059】

一実施形態では、すべてのデータ位置のデータ要素は並行に処理される。他の実施形態では、データ要素位置の一部は同時に処理できる。一実施形態では、RESULTANT 440 は、オペランド 410 と 420 に格納された各データ要素間の比較の複数の結果により構成される。具体的には、一実施形態では、結果 (RESULTANT) はオペランド 410 または 420 の一方のデータ要素数の2乗だけの比較結果を記憶してもよい。

20

#### 【0060】

一実施形態では、RESULTANT は、オペランド 410 と 420 の有効なデータ要素の間の比較のみの比較結果を記憶する。一実施形態では、各オペランドのデータ要素は、明示的または默示的に有効であると示され得る。例えば、一実施形態では、各オペランドデータ要素は、有効レジスタなどの他の記憶領域内に記憶される、有効ビットなどの有効性インジケータに対応する。一実施形態では、両方のオペランドの各要素の有効性ビットは、同じ有効レジスタに記憶される。しかし、他の実施形態では、1つのオペランドの有効性ビットは、第1の有効レジスタに記憶され、他のオペランドの有効性ビットは第2の有効レジスタに記憶される。有効な要素間でのみ比較を行うように、オペランドデータ要素を比較する前に、またはそれと共に、（例えば、対応する有効ビットをチェックすることにより）両方のデータ要素が有効であるか判断してもよい。

30

#### 【0061】

一実施形態では、各オペランドの有効データ要素は、オペランドの一方または両方に記憶されたヌルまたは「ゼロ」フィールドの使用により默示的に示され得る。例えば、一実施形態では、ヌルバイト（または他のサイズ）を要素に記憶して、ヌルバイトより重要な (significant) データ要素はすべて無効であり、一方、ヌルバイトより重要でないデータ要素はすべて有効であるので、他のオペランドの対応する有効なデータ要素と比較すべきことを示してもよい。さらに、一実施形態では、（上記の通り）1つのオペランドの有効データ要素を明示的に示し、一方、他のオペランドの有効データ要素をヌルフィールドを用いて默示的に示しても良い。一実施形態では、有効データ要素は、1つ以上のソースオペランド内の有効なデータ要素またはサブエレメント (sub-elements) の数に対応するカウントにより示される。

40

#### 【0062】

各オペランドの有効データ要素を示す方法にかかわらず、少なくとも1つの実施形態では、有効であると示された各オペランドのデータ要素を比較する。有効データ要素のみの比較は、様々な実施形態で複数の方法で実行できる。詳細かつ理解可能な説明をする目的では、2つのテキストストリングオペランド間で有効なデータ要素のみを比較する方法は、以下によりもっともよく概念的に説明できる。しかし、以下の説明は、テキストストリングオペランドの有効データ要素のみの比較を以下に概念的に説明または実施するかの一例に過ぎない。他の実施形態では、他の概念的説明や方法を用いて、有効なデータ要素を

50

いかに比較するかを示す。

#### 【0063】

一実施形態では、オペランドの有効なデータ要素数が（例えば、有効性レジスタの有効ビットや、最下位から始めて有効なバイト・ワードの数をカウントすることにより）明示的に示されているか、（例えば、オペランド内のヌルキャラクタにより）默示的に示されているかにかかわらず、各オペランドの有効データ要素のみを互いに比較する。一実施形態では、有効性インジケータの集計と比較するデータ要素を、図5を参照して概念的に説明する。

#### 【0064】

図5を参照して、一実施形態では、アレイ501と505は、第1のオペランドと第2のオペランドの各要素がそれぞれ有効であるかどうかを示すエントリーを含む。例えば、上記の例では、アレイ501は、第1のオペランドが対応する有効データ要素を含む各アレイ要素には「1」を含む。同様に、アレイ505は、第2のオペランドが対応する有効データ要素を含む各アレイ要素に「1」を含む。一実施形態では、アレイ501と505は、2つのオペランドにある各有効要素に対して、アレイ要素0から始まり1を含む。例えば、一実施形態では、第1のオペランドが4つの有効要素を含む場合、アレイ501は最初の4つのアレイ要素にのみ1を含み、アレイ501の他のアレイ要素はすべてゼロである。

10

#### 【0065】

一実施形態では、アレイ501と505はサイズが16要素であり、2つの128ビットオペランドの16個のデータ要素を表し、各々はサイズが8ビット（1バイト）である。他の実施形態では、オペランドのデータ要素のサイズが16ビットであり、アレイ501と505は8要素のみを含む。他の実施形態では、アレイ501と505は、対応するオペランドのサイズに応じて大きくても小さくてもよい。

20

#### 【0066】

一実施形態では、第1のオペランドの各データ要素を第2のオペランドの各データ要素と比較し、その結果を $i \times j$ アレイ510で表す。例えば、テキストストリングを表す第1のオペランドの第1のデータ要素を、例えば、他のテキストストリングを表す他のオペランドの各データ要素と比較し、アレイ510の第1の行内の各アレイ要素に記憶された「1」は、第1のオペランドの第1のデータ要素と第2のオペランドの各データ要素の間の一一致に対応する。これは、アレイ510が完了するまで、第1のオペランドの各データ要素に対して繰り返される。

30

#### 【0067】

一実施形態では、 $i \times j$ エントリーの第2のアレイ515が生成され、有効なオペランドのデータ要素のみが等しいかどうかの表示を記憶する。例えば、一実施形態では、アレイ510の最初の行511の各エントリーを対応する有効なアレイ要素506及び有効なアレイ要素502と論理的にANDを取って、その結果をアレイ515の対応する要素516に配置する。AND演算は、アレイ510の各要素と、有効なアレイ501及び505の対応する要素との間で実行し、その結果をアレイ520の対応する要素に配置してもよい。

40

#### 【0068】

一実施形態では、結果アレイ520は、一オペランドのデータ要素のうち他のオペランドのデータ要素と関係するものがあるか示す。例えば、結果アレイ520は、アレイ515の要素のペアをAND演算し、ANDのすべての結果をOR演算することにより、他のオペランドのデータ要素により決まる範囲内にデータ要素があるか示すビットを記憶することができる。

#### 【0069】

図5は、少なくとも2つのパック化オペランドのデータ要素間の比較に関する様々なインジケータを記憶する結果アレイ520も示す。例えば、結果アレイ520は、アレイ515の対応する要素をOR演算することにより、2つのオペランド間に等しいデータ要素

50

はあるかどうかを示すビットを記憶する。アレイ 515 のアレイ要素のどれかが、例えば、オペランドの有効なデータ要素間に一致するものがあることを示す「1」を含む場合、これは結果アレイ 520 に反映される。結果アレイ 520 の要素を OR 演算して、オペランドの有効なデータ要素が等しいか判断することもできる。

#### 【0070】

一実施形態では、アレイ内の隣接する「1」を検出することにより、結果アレイ 520 内の、2つのオペランドのデータ要素間の有効な一致の連続を検出する。一実施形態では、これは、連続する結果アレイ要素を一度に AND 演算し、「0」を検出するまで AND 演算の結果と次の結果とを AND 演算することにより、実現できる。他の実施形態では、他の論理を用いて2つのパック化演算のデータ要素の有効な一致の範囲を検出してもよい。

10

#### 【0071】

一実施形態では、結果アレイ 520 は、対応する結果アレイエントリーに「1」を返すことにより、両方のオペランドの各データ要素が一致するか示すこともできる。すべてのエントリーが等しいか判断するため、結果アレイエントリーに XOR 演算を実行してもよい。他の実施形態では、他の論理を用いて2つのオペランドの有効データ要素が等しいか判断してもよい。

#### 【0072】

一実施形態では、データ要素のストリングがデータ要素の他のストリング内のどこにあることを、テストストリングを他のストリングの同じサイズの部分と比較して、テストストリングと他のストリングのその部分との一致を結果アレイに示すことにより、検出できる。例えば、一実施形態では、第1のオペランドの3つのデータ要素に対応する3つのキャラクタのテストストリングを、第2のストリングの3つのデータ要素の第1のセットと比較する。一致を検出したら、その一致を結果アレイに反映させる。これは、一致に対応する3つの結果エントリーのグループに「1」を格納することにより行う。テストストリングを他のオペランドの次の3つのデータ要素と比較する。または、比較されるにつれてテストストリングが他のオペランドに沿って「スライド」するように、前のオペランドのデータ要素の2つと新しい第3のデータ要素を、テストストリングと比較してもよい。

20

#### 【0073】

一実施形態では、アプリケーションに応じて、結果アレイのエントリーを反転、または否定してもよい。他の実施形態では、結果エントリーの一部のみを、例えば2つのオペランドのデータ要素間の有効な一致に対応するものだけを否定(negate)する。他の実施形態では、他の演算を結果アレイ 520 の結果エントリーに実行してもよい。例えば、実施形態によっては、結果アレイ 520 はマスク値として表される。他の実施形態では、結果アレイはインデックス値で表され、レジスタなどの記憶場所に記憶される。インデックスは、一実施形態では結果アレイの MSB のグループにより表され、他の実施形態ではアレイの LSB で表される。一実施形態では、インデックスは、設定されている LSB または MSB へのオフセット値により表される。マスクは、一実施形態ではゼロ拡張であり、他の実施形態ではバイト/ワードマスク、またはその他の粒度(granularity)である。

30

#### 【0074】

様々な実施形態では、SIMD オペランドの各要素の比較する際の上記の各相違は、個々の命令として実行される。他の実施形態では、上記の相違は、命令に付随するフィールド(immediate fields)などの単一の命令の属性を変えることにより実行され得る。図 6 は、1つまたは複数の命令により実行される、2つまたはそれ以上の SIMD オペランドの各データ要素を比較する様々な動作を示す図である。一実施形態では、図 6 の動作により比較されるオペランドはテキストストリングである。他の実施形態では、オペランドはその他のデータ情報やデータである。

40

#### 【0075】

図 6 を参照して、動作 610において、第1の SIMD オペランド 601 と第2の SIMD オペランド 605 の各要素を互いに比較する。一実施形態では、一方のオペランドは

50

XMMレジスタなどのレジスタに記憶され、他方のオペランドは他のXMMレジスタまたはメモリに記憶されている。一実施形態では、比較のタイプは、図6に示した動作を実行する命令に対応するイミーディエイトフィールド(immediate field)により制御される。例えば、一実施形態では、2ビットのイミーディエイトフィールド(例えば、IMM8[1:0])を用いて、比較するデータ要素が符号付きバイトか、符号付きワードか、符号無しバイトか、符号無しワードか示す。一実施形態では、比較結果により $i \times j$ アレイ(例えば、BoolRes[i, j])、または $i \times j$ アレイの一部ができる。

#### 【0076】

動作613において、並行して、オペランド601と605がそれぞれ表すストリングの終わりを見つけて、オペランド601と605の各要素の有効性を判断する。一実施形態では、レジスタまたはメモリの記憶場所内の対応する1つまたは複数のビットを設定することにより、オペランド601と605の各要素の有効性を明示的に示す。一実施形態では、その1つまたは複数のビットは、オペランド601と605のLSBの位置から始まる連続した有効データ要素(例えば、バイト)の数に対応する。例えば、オペランドのサイズにもよるが、EAXレジスタやRAXレジスタなどのレジスタを用いて、第1のオペランドの各データ要素の有効性を示すビットを記憶する。同様に、オペランドのサイズによっては、EDXレジスタやRDXレジスタなどのレジスタを用いて、第2のオペランドの各データ要素の有効性を示すビットを記憶する。他の実施形態では、オペランド601と605の各要素の有効性を、本開示すでに説明した手段により、默示的に示しても良い。

10

#### 【0077】

一実施形態では、動作615において、比較と有効性に関する情報を集約機能(aggregation function)により結合して、2つのオペランドの要素の比較結果を生成する。一実施形態では、集約機能を、2つのオペランドの要素の比較を実行する命令に付随するイミーディエイトフィールドにより決定する。例えば、一実施形態では、2つのオペランドのデータ要素が等しいか、2つのオペランドのデータ要素の範囲が等しいか、2つのオペランドの各データ要素が等しいか、オペランドの少なくともデータ要素の一部の並びが同じか、比較により示すかどうか、イミーディエイトフィールド(immediate field)が示す。

20

#### 【0078】

動作620において、一実施形態では、(例えば、IntRes1に記憶された)集約機能の結果をネゲートする。一実施形態では、イミーディエイトフィールドのビット(例えば、IMM8[6:5])により、集約機能の結果に実行するネゲート機能のタイプを制御する。例えば、イミーディエイトフィールドは、集約結果をまったくネゲート(negate)しない、集約機能の結果をすべてネゲートする、オペランドの有効要素に対応する集約結果のみをネゲートすることを示してもよい。一実施形態では、ネゲート演算の結果をアレイ(例えば、IntRes2アレイ)に記憶する。

30

#### 【0079】

一実施形態では、それぞれ動作625と630において、ネゲート演算により生成される結果のアレイをインデックス値またはマスク値に変換する。ネゲート演算結果をインデックスに変換する場合、イミーディエイトフィールドのビット(例えば、IMM8[6])により、比較結果のMSBまたはLSBをインデックスにエンコードするかどうか、その結果をレジスタ(例えば、ECXまたはRCX)に記憶するかどうか制御する。一実施形態では、ネゲート演算の結果をマスク値で表す場合、イミーディエイトフィールドのビット(例えば、IMM8[6])を用いて、マスクをゼロ延長(zero-extended)拡張するか、バイト(またはワード)に拡張するか制御する。

40

#### 【0080】

このように、ストリング比較演算の実行方法を開示する。実施形態の例を説明し、添付した図面に示したが、言うまでもなく、かかる実施形態は本発明の単なる例示であって制約するものではなく、本開示を研究すれば当業者には様々な修正に想到するので、本発明

50

は図示し説明した具体的な構成に限定はされない。本技術分野等では、成長が速く進歩が容易には予見できないので、本発明の原理や添付したクレームの範囲から逸脱することなく技術的な進歩を可能とすることにより容易になるので、開示の実施形態を構成と詳細において容易に修正できる。

【図 1 A】



【 図 1 B 】



【図1C】



【図2】



【図3A】



【図3B】



【図 3 C】

|           |           |           |         |           |           |           |   |
|-----------|-----------|-----------|---------|-----------|-----------|-----------|---|
| 127       | 120 119   | 112 111   | 104 103 | 24 23     | 16 15     | 8 7       | 0 |
| bbbb bbbb | bbbb bbbb | bbbb bbbb | • • •   | bbbb bbbb | bbbb bbbb | bbbb bbbb |   |

符号無しパック化バイト表現 344

|           |           |           |         |           |           |           |   |
|-----------|-----------|-----------|---------|-----------|-----------|-----------|---|
| 127       | 120 119   | 112 111   | 104 103 | 24 23     | 16 15     | 8 7       | 0 |
| sbbb bbbb | sbbb bbbb | sbbb bbbb | • • •   | sbbb bbbb | sbbb bbbb | sbbb bbbb |   |

符号付きパック化バイト表現 345

|                 |         |                 |   |
|-----------------|---------|-----------------|---|
| 127             | 112 111 | 16 15           | 0 |
| www www www www | • • •   | www www www www |   |

符号無しパック化ワード表現 346

|                  |         |                  |   |
|------------------|---------|------------------|---|
| 127              | 112 111 | 16 15            | 0 |
| swww www www www | • • •   | swww www www www |   |

符号付きパック化ワード表現 347

|                                    |       |                                    |   |
|------------------------------------|-------|------------------------------------|---|
| 127                                | 92 91 | 32 31                              | 0 |
| dddd dddd dddd dddd dddd dddd dddd | • • • | dddd dddd dddd dddd dddd dddd dddd |   |

符号無しパック化ダブルワード表現 348

|                                    |       |                                    |   |
|------------------------------------|-------|------------------------------------|---|
| 127                                | 92 91 | 32 31                              | 0 |
| sddd dddd dddd dddd dddd dddd dddd | • • • | sddd dddd dddd dddd dddd dddd dddd |   |

符号付きパック化ダブルワード表現 349

【図 3 D】



FIG. 3D

【図 3 E】



FIG. 3E

【図 3 F】



FIG. 3F

【図4】



【図5】



【図6】



---

フロントページの続き

(72)発明者 グレイ , ジェフリー , ディー .  
アメリカ合衆国 97212 オレゴン州 ポートランド ノースイースト ノット ストリート  
3711

(72)発明者 チェヌパティー , スリニヴァス  
アメリカ合衆国 97229 オレゴン州 ポートランド ノースウェスト ウィズマー ドライ  
ヴ 15727

(72)発明者 マーケス , ショーン , ピー .  
アメリカ合衆国 97007 オレゴン州 ビーヴァートン サウスウェスト コーモラント ド  
ライヴ 16055

(72)発明者 セコニ , マーク , ピー .  
アメリカ合衆国 97006 オレゴン州 ビーヴァートン サウスウェスト エスチュアリ ド  
ライヴ 16388 ナンバー106

審査官 三坂 敏夫

(56)参考文献 特表平10-512070(JP,A)  
特開昭58-106636(JP,A)  
国際公開第2005/006183(WO,A1)  
特表平11-511575(JP,A)  
特開昭62-233884(JP,A)  
特開平06-162067(JP,A)  
特開平01-271875(JP,A)  
特開昭61-007976(JP,A)  
国際公開第00/036527(WO,A1)  
特開2004-145493(JP,A)  
インテル株式会社,「インテル・アーキテクチャ・ソフトウェア・ディベロッパーズ・マニュアル 中巻:命令セットリファレンス」,日本, CQ出版株式会社, 1997年, 3-338~3-343  
Alex Peleg et al., "Intel MMX for Multimedia PCs", Communications of the ACM, 米国, ACM, 1997年 1月 1日, Volume 40 Issue 1, pages:25-38  
インテル株式会社,「インテル・アーキテクチャ・ソフトウェア・ディベロッパーズ・マニュアル 上巻:基本アーキテクチャ」,日本, CQ出版株式会社, 1997年, 2-5~2-12, 8-1~8-15  
Alex Peleg et al., "Intel MMX for Multimedia PCs", Communications of the ACM, 米国, ACM, 1997年 1月 1日, Volume 40 Issue 1, pages:25-38  
freescale semiconductor, "AltiVec Technology Programming Interface Manual", 米国, freescale semiconductor, 1996年 6月, Rev.0, pages:50,51,179,180,205,225, [ 平成25年1月17日検索 ] インターネットURL : [http://www.freescale.com/files/32bit/doc/ref\\_manual/ALTIIVECPIM.pdf](http://www.freescale.com/files/32bit/doc/ref_manual/ALTIIVECPIM.pdf)

(58)調査した分野(Int.Cl., DB名)

G 06 F 9 / 305  
G 06 F 15 / 80