[課題31] 簡易RSA暗号プログラム

課題

課題21「べき剰余」で実現したメソッドmodexpをもとにして， RSA暗号の原理に基づいてファイルを暗号化する処理と暗号化したファイルを平文化する処理(元に戻す処理)を実行できるプログラムを作成して，提出してください．

この課題で作成するプログラムはごく簡易的なものであって，実用的な暗号として利用するのには適していません(作成するプログラムで「暗号化」しても安全とはいえません)．

プログラムは次のように動作させることを想定しています(ファイル名をtiny_rsa.rbとする)．


 # 平文のplain.txtを暗号化して，暗号データをリダイレクションしてencrypt.txtに送り込む
 $ ruby tiny_rsa.rb -e plain.txt > encrypt.txt

 # 暗号化されたencrypt.txtを平文化して(元に戻して)データを画面に表示する
 $ ruby tiny_rsa.rb -d encrypt.txt

コマンドラインの最初に「-e」か「-d」を入れることで暗号化処理を行うか，平文化処理を行うかを指定するようにします．暗号化処理，平文化処理のどちらについても，プログラムでは変換した結果のデータは端末画面に出力(表示)することにします．

(以前に授業でも説明したように)端末の画面に表示するデータは上の暗号化の例のようにリダイレクション(> ファイル名)すればファイルに取り込むことができます．なおリダイレクションの処理はプログラムの外部(具体的には端末上で動いている「シェル(shell)」)で実行されます．作成するプログラムでは，(暗号化・平文化の)結果は常に画面に出力する(表示する)ようにします(表示にはputs，printを使います)．プログラムでは，出力するデータをファイルに保存する処理は行いません．なおリダイレクション先として既存のファイルを指定した場合，ファイルは上書きされます．存在しないファイルを指定した場合，ファイルが作成されます．

プログラムが完成したら，次のファイルを平文化して，そこに書かれている「キーワード」をプログラムの先頭の説明部分(=begin ... =end)に追加して提出してください．

e_message.txt (秘密のテキスト)

[参考] コマンドラインオプション

上のプログラムの実行例の「-e」「-d」のように，プログラムの動作を指定するコマンドライン引数のことを「コマンドラインオプション」といいます． (Linux;Unixの文化では)コマンドラインオプションは習慣的に「-e」あるいは「--encrypt」のように，「-」(ハイフン)から指定します．

プログラムテンプレート

次に示すプログラムのテンプレート(雛型)を使って下さい．このプログラムは名前を適宜変えた上で保存して利用してください．

tiny_rsa_template.rb

コンピュータでの情報のデータ表現とRSA暗号への適用

RSA暗号はデータの暗号化と平文化の処理に課題「べき剰余」で作成したmodexpを用います． modexpとは次のように整数を整数に変換するメソッドでした．


  # y == x^m % N  
  y = modexp(x,m,N)

つまりRSA暗号での処理は本質的には整数から整数への変換です．

さて暗号化の対象とするのはファイルで，コンピュータのファイルは文字などさまざまなデータで構成されています．それでは文字データ等にRSA暗号(modexp)がどのようにして適用できるのでしょうか．以下ではまずコンピュータの内部での文字と数値の表現と，その相互変換について説明します．

コンピュータ内部のデータ表現，ビット，バイト

コンピュータの内部ではあらゆる情報は0と1(と解釈可能な明確に区別できる2つの状態)を並べたデータで表現されています．つまりコンピュータの内部では，数値，文字，画像，音など全ての情報を2種類の記号(0,1)のみで表現しています．なお通常の言語で0,1は数字(数を表すための記号)ですが，コンピュータでは0,1があらゆる情報を表現する一般の文字(記号)として使われることに注意して下さい．このことには違和感があるかもしれません．しかしたとえば英語と日本語では使われる文字の集合(文字の種類)が異なっているように，コンピュータ内部では2種類の文字だけが使われているわけです．

実際，0,1という2種類の記号(文字)の並べ方にルールを決めておくことで，数値，文字などを表現することができます．具体的にはたとえば整数は2進法に基づいて表現されます．文字については，まず各文字に番号をつけます．番号がつけられれば，それらの番号に基づいて文字をデータとして表現できます．

1個の0,1を表すデータの単位をビット(bit)といいます．また(通常)8ビットをまとめて1バイト(byte)といいます(1バイトが8ビットでないこともあります．8ビットは正確には1オクテットといいます)．これらの用語を使えば，コンピュータの内部で情報はビット列，バイト列で表現されていると言えます．

1バイト(8ビット)のデータは2⁸=256通り存在します．それらを2進法で解釈すれば非負整数として0から255に対応させられます．

Rubyでは，数値や文字のデータがビット列で表されていることを簡単な処理で見てみることができます．


  # 整数aを2進表現したビット列(に対応する文字列)bに変換する
  a = 1234
  b = a.to_s(2) # b == "10011010010"

  # sの最初の文字('a')の番号を2進表現したビット列(に対応する文字列)に変換する
  s = "abc"
  x = (s.bytes)[0] # x == 97
  b = x.to_s(2)    # b == "1100001"

  # ビット列を表す文字列uを2進表現の整数として解釈する
  u = "10011101"
  y = u.to_i(2)  # y == 157

ビット列の解釈 --- 整数と文字列等の相互変換

さてビット列はそれ自体だけでは何の情報を表しているデータであるとは言えません．たとえば同一のビット列を数値として解釈することもできれば，文字(の番号)と解釈することもできます．このことはコンピュータでは数値データを文字データとして扱ったり，文字データを数値データとして扱ったりできることを意味しています．


  str = "Ruby"

  # ary == strの各文字の番号(バイト値)の配列
  ary = str.bytes 
  p ary # ==> [82, 117, 98, 121]

  # rby == sを""で初期化して，aryの要素(バイト値)xをそれぞれ文字番号として文字に変換(x.chr)してからsに順に連結した結果の文字列
  rby = ary.reduce("") { |s,x| s+x.chr }　
  p rby # ==> "Ruby"

  # "Ruby" <==> [82, 117, 98, 121]

  # 整数の列を一つの整数として解釈することもできる．
  # 82, 117, 98, 121 
  # → 01010010, 01110101, 01100010, 01111001  # 2進で表現(各8ビット)
  # → 01010010011101010110001001111001        # すべてを連結
  # → 1383424633                              # 32ビットで一つの整数として解釈
  
  # "Ruby" <==> [82, 117, 98, 121] <==> 1383424633

この例で見た通り，文字列(を表すビット列)を整数(を表すビット列)と解釈し直すことができます．また逆に整数(を表すビット列)を文字列(を表すビット列)に解釈し直すこともできます．

ビット列の暗号化処理の概観

上で見たように，コンピュータのデータとして文字列と整数は相互変換が可能です．さらに文字に限らずコンピュータのデータはすべてビット列ですので，コンピュータ内のどんなデータも整数として解釈することが可能です．そこでコンピュータのデータを整数として解釈することで，そのようなデータをRSA暗号の処理(modexp)の対象として扱えるであろうことが分かるでしょう．またmodexpで変換した後の整数を，再びビット列として扱うことも可能であることが分かるでしょう．


  平文のビット列b …→ 整数x ⇒(modexpで変換)⇒ 整数y …→ 暗号文のビット列s

RSAによるファイルの暗号化処理の基本的な考え方

どんなファイルでも暗号化する対象になりえます．さて暗号化処理とは暗号化するビット列を整数とみなしてmodexpによって変換する処理でした． modexpではN，整数x(0≦x＜Nを想定)，mを入力として，x^mを整数Nで割った余りを計算します．


  y = modexp(x,m,N) # y == x^m % N

つまり一回の処理で扱うのはN未満の整数です．任意のファイルについて，そのビット列全体を1つの整数と解釈することは数学的には可能です．しかし実際には一つのファイル全体に対応する整数が常にN未満であるようにしようとすれば， Nをとてつもなく巨大な数にしなければなりません．これは全く現実的ではありません．

そこでファイルを分割して，それぞれを変換することにします． Nを適宜定めて，ファイルを分割したバイト列をそれぞれ整数として解釈したときに，どれもN未満になるようにするわけです．また分割に都合のよいNを選ぶようにします．

RSAの暗号化/平文化に使う鍵と処理の単位

以上を踏まえて今回のプログラムではRSAで用いる鍵として次の値を用いることにします(テンプレートで定義済み)．


module Key
  P = 57037
  Q = 38011
  E = 1864990913
  D = 1649420777
  N = P*Q # N=2168033407
end

暗号化する処理では「Key::E」と「Key::N」を，平文化処理(元に戻す処理)では「Key::D」と「Key::N」をmodexpメソッドのパラメタとして用います．


  y = modexp(x, Key::E, Key::N) # 暗号化: x → y
  z = modexp(y, Key::D, Key::N) # 平文化: y → z(==x)

これらの鍵は一度に4バイトのデータを暗号化/平文化することを想定して設定しています．つまり今回は，modexpの第1引数(上の例ではx,y)には4バイトのデータを整数に変換して与えることにします．このときmodexpの結果として得られる値(上の例では左辺のy,z)は4バイトのデータに変換できるようになっています．

なお鍵{E,D,N(=PQ)}の決め方の詳細について「RSA公開鍵暗号の原理」に説明しています(課題のプログラムを実現するために参照する必要はありません)．

暗号化/平文化処理の流れ

すでに説明した通り，今回は一度に4バイトずつを基本単位として暗号化/平文化します．しかしファイルを簡単に処理するために，平文ファイルをそのまま4バイトずつ最初から最後まで処理するのではなく，次のような方針で処理することにします．

暗号化処理
- 平文ファイルをUNITバイトずつに分割して順に処理する
- 平文UNITバイトのデータを暗号化する→暗号化済のテキスト1行を生成する
- 暗号化済のテキストを画面(STDOUT)に逐次出力する

平文化処理

暗号化済のファイルを1行ずつ順に処理する
暗号化済のテキスト1行を平文化する→UNITバイトのデータが得られる
平文化されたUNITバイトのデータを画面(STDOUT)に逐次出力する

暗号化処理では，平文ファイルからUNITバイトずつを読み込んで，それを(4バイトずつに分割してそれぞれ順に)暗号化して暗号化済のテキストを1行生成して出力する処理を繰り返すことになります．平文化処理は暗号化の逆の処理になっています．

上の方針で処理したとき，平文ファイルと暗号化済みのファイルとの間に次のような対応関係があることになります．


  暗号化: 平文UNITバイト → 暗号化済みテキスト1行
  平文化: 暗号化済みテキスト1行 → 平文UNITバイト

暗号化処理では「平文UNITバイト」が「暗号化済みテキスト1行」に変換され，平文化処理では「暗号化済みテキスト1行」が「平文UNITバイト」に変換されます．これらの変換処理が今回の課題で実現する重要なポイントになります．詳細については以下で説明します．またUNITの値をどう設定するのかについても以下で説明します．

ところで平文ファイルのサイズはUNITバイトの倍長であるとは限りません(UNIT > 1のとき)．そこでUNITバイトずつ処理していくと，最後に(1以上)UNITバイト未満のデータをファイルから読み込むことになりえますが，そのことをとくに気にする必要はありません．その場合も他と区別することなく処理できます．つまりファイルの長さがUNITの倍長でなくても，ファイルの末尾のデータを例外として特別に処理する必要はありません(以下の「ファイルの読み書き」を参照のこと)．

暗号化/平文化処理の詳細

上で説明したように，今回の課題では，平文ファイルと暗号化済みのファイルとの間で，次のような対応関係が作られることになります．


  平文UNITバイト ⇔ 暗号化済みテキスト1行

以下では「平文UNITバイト」の暗号化処理と「暗号化テキスト1行」の平文化処理について説明します．

平文UNITバイトの暗号化処理

「平文のUNITバイト」から「暗号化済みテキストの1行」を生成する過程を具体的に書くと次の通りになります．


  [平文UNITバイト]→(EnArmor変換)→(バイト列化)→(暗号化)→(文字列化)→(EnArmor変換)→[暗号済テキスト1行]

入力: 平文ファイルからUNITバイトの文字列を読み込む．

EnArmor変換: 文字列を「EnArmor変換」する→4の倍数の長さの文字列が得られる(EnArmor変換については後述)．

バイト列化: EnArmor変換された文字列をバイト列(各文字の番号(0-255)の配列)に変換する(配列の要素数は4の倍数になっている)

暗号化: バイト列を(暗号化済の)バイト列に変換する
1. 4バイトのバイト列(0-255の配列)を整数1個に変換
2. 得られた整数をmodexpで暗号化(鍵=Key::E，Key::N)
3. 暗号化された整数を4バイトのバイト列(0-255の配列)に変換
このようにして4バイト→4バイトの変換を繰り返すことで，平文から作られたバイト列を暗号化されたバイト列に変換する．このとき暗号化の前後でバイト列の長さ(配列の要素数)は変わらない．

文字列化: 暗号化済みバイト列の各要素を文字に変換して文字列を生成する

EnArmor変換: 前のステップで得られた文字列を「EnArmor変換」する

出力: 前のステップで得られた文字列をputsメソッドで端末の画面に出力する

暗号化済みテキスト1行の平文化処理

さて暗号化されたテキストを平文化する処理は要するに暗号化処理の逆変換です．平文化処理においては次の処理を暗号ファイルの先頭から最後まで繰り返し適用します．平文化処理されたデータは端末画面に書き出すものとします．


  [暗号済テキスト1行(※)]→(DeArmor変換)→(バイト列化)→(平文化)→(文字列化)→(DeArmor変換)→[平文UNITバイト]

  (※) 末尾の改行文字は削除する

入力: 暗号ファイルから文字列を1行読む．行末の「改行文字」は削除する．

DeArmor変換: 文字列を「DeArmor変換」する→4の倍数の長さの文字列が得られる(DeArmor変換については後述)．

バイト列化: DeArmor変換された文字列をバイト列に変換する(配列の要素数は4の倍数になっている)

平文化: バイト列を(復号済の)バイト列に変換する
1. 4バイトのバイト列(0-255の配列)を整数1個に変換
2. 得られた整数をmodexpで平文化(鍵=Key::D，Key::N)
3. 平文化された整数1個を4バイトのバイト列(0-255の配列)に変換
このようにして4バイト→4バイトの変換を繰り返すことで，暗号データから作られたバイト列を復号されたバイト列に変換する．このとき平文化の前後でバイト列の長さ(配列の要素数)は変わらない．

文字列化: 復号済みバイト列の各要素を文字に変換して文字列を生成する

DeArmor変換: 前のステップで得られた文字列を「DeArmor変換」する

出力: 前のステップで得られた文字列をprintメソッドで端末の画面に出力する．

UNITの設定

UNITは定数として定義済です(テンプレートの「require 'trsa/utils'」で定義を取り込んでいます)．プログラムでUNITの定数を参照するには次のように記述して下さい．


  # 「UNIT」の値を使うときは次のように記述する
  TRSAUtils::UNIT

なおUNITの値には制限があります．課題の設定に合わせて処理を行うためにUNITは9の倍数にしてあります．平文UNITバイトに対して暗号化済テキストの長さは「16・UNIT/9」バイトとなります(末尾の改行を除く)．

[参考] 暗号化処理と平文化処理の類似性

上に示した暗号化処理と平文化処理が同じように構成されていることが分かるでしょう．実際に各ステップでの処理を抽象化すれば暗号化と平文化は同一の処理とみなせます．


  暗号化: [平文UNITバイト]──→(EnArmor変換)→(バイト列化)→(暗号化)→(文字列化)→(EnArmor変換)→[暗号済テキスト1行]
  平文化: [暗号済テキスト１行]→(DeArmor変換)→(バイト列化)→(平文化)→(文字列化)→(DeArmor変換)→[平文UNITバイト]

  (※) 平文化で「暗号化済テキスト1行」の末尾の改行文字は削除する

暗号化と平文化の差異を見てみます．

処理の対象
- 暗号化：平文UNITバイト
- 平文化：暗号化済のテキスト1行(ただし末尾の改行文字を除く)

文字列の変換処理
- 暗号化：EnArmor変換
- 平文化：DeArmor変換

べき剰余(modexp)に与える鍵
- 暗号化：Key::E，Key::N
- 平文化：Key::D，Key::N

データの出力方法
- 暗号化：putsメソッド
- 平文化：printメソッド
putsで出力すると最後に改行されます(それによって出力データが行単位で並ぶことになります)．平文化処理では「print」で文字列のみを出力します．改行は付加しません．平文化処理して得られるのは「暗号化処理の単位としたUNITバイト(以下)のデータ」です．平文化処理で改行を付加してしまうと， UNITバイトごとに余計な改行が入って元の平文データを変更することになってしまいます．

このような類似性は，暗号化処理と平文化処理に用いるメソッドをうまく抽象化すれば，それらを同一のメソッドとして記述できることを意味します．つまり暗号化処理と平文化処理は異なるパラメタによる同一のメソッドで表現できます．

【補足】暗号化・平文化処理を抽象化して同一の処理として記述することは課題としては必須ではありません．

RSA暗号プログラムのための技術情報

以下に今回のプログラムの作成に関係する技術情報を示します．全てを必ず使わなければならないわけではありません．

EnArmor変換とDeArmor変換
文字列のバイト列への変換
バイト列の文字列への変換
整数から0,1文字列への変換
0,1文字列から整数への変換
整数(0-255)→文字
配列の要素の集約(reduce)
ファイルの読み書き
文字列末尾の改行文字の削除
繰り返し処理
文字列の分割，連結など
配列の各要素を変換した配列の生成(map)
部分文字列
商と余り(divmod)
条件演算子，条件修飾子
16進記法，ビット演算子(&，>>，<<)
メソッドの実行(send)

EnArmor変換とDeArmor変換
```
  str = "Ruby\n"

  estr = TRSAUtils.enarmor(str)  # estr == "UnVieQo="

  dstr = TRSAUtils.dearmor(estr) # dstr == str == "Ruby\n"
```
EnArmor変換すると，任意の文字列が英数字などの表示可能な文字の列(具体的には英数字，「+」，「/」，「=」で構成される文字列)に変換される．たとえば上の例でstrの末尾の改行文字は表示される文字ではないが，変換後にはそのような文字は含まれていない． EnArmor変換後は必ず4の倍数のバイト数の文字列が得られる． DeArmor変換はEnArmor変換の逆変換である． DeArmor変換する文字列に EnArmor変換の結果に含まれるはずがない文字が入っているとエラーが発生する．