課題
適当な文章(和文,英文など)をいくつか選んで(数は指定しません), 各文章をそれぞれ5種類のフォーマット(形式)でファイルに保存して,それらを比較することにします(作成するファイルのフォーマットについては以下で説明します).
同一の文章から作成する5つのファイルは,そこから読み取られる文章が同一という意味で,同一の情報を表現していると考えられます. しかしファイル内で文字情報がどのようにデータとして表現されているか,また文字情報に加えてどのようなデータが格納されるかは,ファイルのフォーマットによって異なります. そのため,同一の文章から作成した5つのファイルのデータ量(ファイルサイズ)はおそらく異なっていることでしょう(条件次第で一致することもありえます). そこで今回は実際にファイルのフォーマットによってデータ量がどのように変化するのかを調べることにします.
ファイルのデータ量を評価する指標としては,文章中の1文字あたりのファイルのバイト(byte)数『バイト/文字』を用いることにします. バイト(byte)とはコンピュータでのデータの基本単位の一つです. コンピュータではしばしばバイトを単位としてデータ量が表現されます. この課題では,この『バイト/文字』のことをbpc(bytes per character)と呼ぶことにします. たとえば,文章が100文字でファイルサイズが300バイトであれば,bpc=300/100=3です(bpcは整数値になるとは限りません).
調査に利用する文章によって, 同一フォーマットのファイルであっても,その評価値「bpc」は異なりうるでしょう. このことも考慮して,課題としてはさまざまな文章を調査した上で,フォーマットによってどんな傾向が見られたのか,その知見を適宜まとめて提出してください.
注意
文章を保存して作成した各種ファイルは提出しないでください.
目次
調査に利用する文章
調査の対象とする文章については,その言語,内容を問いません. ただし課題の都合上,ネットで一般公開されている文章であって,表示したときにPCの画面に文章全体がおさまる程度の長さのものを選ぶことにします. 長い文章の一部を切り出して利用しても構いません.
課題の解答には,利用した文章ごとに出典(URL)を示してください(文章そのものは解答に含めないでください).文章の一部を切り出して利用した場合には,当該の部分が特定できるような説明を出典情報として記述してください.
なおすでに説明したように,この課題で文章を保存して作成するファイル自体は提出しないでください.
次に調査対象となる文章を入手できる情報源の例を示します.
- e-Gov法令検索(電子政府利用支援センター)
日本の法令(憲法,法律,政令等)を検索できるサイトです. - 青空文庫
著作権の切れた文学作品などを公開しているサイトです. 各作品のページに「ファイルをダウンロード」という項目があります. そちらのXHTML形式(.html)のファイルを画面で開いて閲覧するとよいでしょう. - RFC Index
RFC(インターネットの規約文書)の一覧ページです. RFCは英語で記述されています. 各RFC文書の番号のリンクの先にテキスト(plain text)があります.
これら以外から文章を入手しても構いません(一般公開されていて無償で利用可能なものに限ります).
文章サンプル --- 日本国憲法 前文
文章のサンプルとして「日本国憲法前文」を示します. これを調査の対象に含めても構いません.
日本国民は、正当に選挙された国会における代表者を通じて行動し、われらとわれらの子孫のために、諸国民との協和による成果と、わが国全土にわたつて自由のもたらす恵沢を確保し、政府の行為によつて再び戦争の惨禍が起ることのないやうにすることを決意し、ここに主権が国民に存することを宣言し、この憲法を確定する。そもそも国政は、国民の厳粛な信託によるものであつて、その権威は国民に由来し、その権力は国民の代表者がこれを行使し、その福利は国民がこれを享受する。これは人類普遍の原理であり、この憲法は、かかる原理に基くものである。われらは、これに反する一切の憲法、法令及び詔勅を排除する。
日本国民は、恒久の平和を念願し、人間相互の関係を支配する崇高な理想を深く自覚するのであつて、平和を愛する諸国民の公正と信義に信頼して、われらの安全と生存を保持しようと決意した。われらは、平和を維持し、専制と隷従、圧迫と偏狭を地上から永遠に除去しようと努めてゐる国際社会において、名誉ある地位を占めたいと思ふ。われらは、全世界の国民が、ひとしく恐怖と欠乏から免かれ、平和のうちに生存する権利を有することを確認する。
われらは、いづれの国家も、自国のことのみに専念して他国を無視してはならないのであつて、政治道徳の法則は、普遍的なものであり、この法則に従ふことは、自国の主権を維持し、他国と対等関係に立たうとする各国の責務であると信ずる。
日本国民は、国家の名誉にかけ、全力をあげてこの崇高な理想と目的を達成することを誓ふ。
作成するファイルのフォーマット
ここでは調査対象とする文章について,今回の課題でどのようなフォーマットのファイルを作成するのかを説明します. それぞれのファイルの具体的な作成方法については以下で詳しく示します.
1 | テキストファイル1 | 「文字コード」が「UTF-8」であるテキストファイルとして文章を保存して作成 |
---|---|---|
2 | テキストファイル2 | テキストファイル1の「文字コード」を「Shift JIS」に変更して,別名のファイルとして作成 |
3 | Wordファイル | 文章をWordで保存して作成 |
4 | PDFファイル | Wordファイルを変換して作成 |
5 | 画像ファイル | テキストファイルを開いた画面をキャプチャして(取り込んで)作成 |
各フォーマットのファイルの作成方法
ここでは,この課題で作成する5つのファイルの作成方法を具体的に説明します.
- テキストファイル1
- Windowsの場合
まず「メモ帳」を起動します.
Windowsアクセサリ > メモ帳
メモ帳を起動したら,対象としている文章全体をコピーして,メモ帳に貼り付けます. 貼り付けたら「名前を付けて保存」を実行します. 保存するときに文字コード(エンコード)が「UTF-8」になっていることを確認してください. ファイル名は自由に決めて構いません. - Macの場合
まず「テキストエディット」を起動します.
Finder > アプリケーション > テキストエディット
テキストエディットを起動したら,対象としている文章全体をコピーして,テキストエディットに貼り付けます.このとき文字だけを貼り付けるには次のように操作します.
[編集] > [ペーストしてスタイルを合わせる]
文章を貼り付けたら,次のようにしてファイルを保存します.
[フォーマット] > [標準テキストにする]
[ファイル] > [保存]
保存するときには「標準テキストのエンコーディング」が「Unicode (UTF-8)」になっていることを確認してください(そうでなければ変更してください).
- Windowsの場合
- テキストファイル2
- Windowsの場合
テキストファイル1を保存した後,メモ帳で再度「名前を付けて保存」を実行します. 「文字コード」を「ANSI」に変更してから,テキストファイル1とは別の名前で保存してください(メモ帳での「ANSI」が「Shift JIS」にあたります). - Macの場合
テキストファイル1を保存した後, 「ターミナル」(アプリケーション > ユーティリティ)を介して, 「iconv」というツールで「文字コード」を「Shifi JIS」に変換したファイルを作成できます. ターミナルを「アプリケーション」の「ユーティリティ」から起動して,まず次のように入力します. なお␣は空白文字を表しています. 末尾にも空白を入れていることに注意してください.iconv␣-f␣UTF8␣-t␣SJIS␣
画面には「プロンプト」(...$)が表示されているでしょう. それに続いて上のコマンドを入力します. 大文字小文字は区別されます.空白も指定している通りに入力してください.ここで「テキストファイル1」をターミナルの画面にドラッグ&ドロップすると, ファイルの「パス名」が貼り付けられます(次に示すのは例です.ファイル名とファイルの置き場所によって,実際には出てくる「パス名」は異なります). パス名(pathname)は「/」で区切られていて,システム全体のトップから当該のファイルに行き着くまでのパス(path)として,フォルダの並びを示しています.iconv␣-f␣UTF8␣-t␣SJIS␣/Users/foo/Documents/japan_constitution_preface.txt
次に作成する「テキストファイル2」の名前を決めます.ファイルは「書類」フォルダに保存することにします.すでに存在するファイルの名前を指定しないように気をつけてください(同じ名前のファイルがあると上書きされます). ファイル名を選んだら,次のように「パス名」のつづきに「>」を挟んで指定して,最後に⏎(Enterキー)を押してください.iconv␣-f␣UTF8␣-t␣SJIS␣/Users/foo/Documents/japan_constitution_preface.txt␣>␣Documents/japan_constitution_preface_sjis_20250421.txt ⏎
ここで「Documents」が「書類」フォルダを表しています. ターミナルが基準として参照するフォルダ(ホームと呼ばれます)の直下に「書類」フォルダがあって,そこにファイルを保存するわけです. そこで想定通りであれば,「書類」フォルダにテキストファイル2(上の例ではjapan_constitution_preface_sjis_20250421.txt)が保存されるはずです.
- Windowsの場合
- Wordファイル
メモ帳(Windows)/テキストエディット(Mac)を開いたまま,Wordを起動します.
メモ帳/テキストエディットから文章全体をコピーして,Wordの画面に貼り付けます. 貼り付けたら「名前を付けて保存」を実行します. テキストファイル1,2と同じフォルダに保存するようにしてください. ファイル名は自由に決めて構いません.
(※) Wordは大学で提供している「Microsoft 365」サービスでも利用可能です(Web版はブラウザによって動作が異なることがあります). - PDFファイル
次のいずれかでPDFに変換できるはずです.- (方法1) Wordの「ファイル」メニューの「エクスポート」を使ってPDFファイルを作成する
- (方法2) Wordで「ファイル」メニューの「名前を付けて保存」でPDF形式を選んで保存する
- (方法3) Wordで「ファイル」メニューの「印刷」で,プリンタとして「PDF」を選んで印刷する
- 画像ファイル
メモ帳(Windows)/テキストエディット(Mac)の画面をキャプチャして 画像に保存してください(画像の形式は問いません).- Windowsの場合
1行が長い文章をメモ帳で開くと,画面では折り返されずに画面からはみ出てしまって, そのままでは文章全体が保存できません.その場合は「書式」→「右端で折り返す」を 選んでください.
画面のキャプチャには「切り取り & スケッチ」が使えます. 「スタート」から「切り取り & スケッチ」を起動したら,「新規」を選んでから,画像に保存する範囲をドラッグで指定します. 文章全体をちょうどピッタリ囲うようにしてください. うまく画像がキャプチャできたら保存します. 保存にはメニューの右の方の「フロッピーディスク」のアイコンを選びます(マウスをアイコンに重ねておくと「名前を付けて保存」と表示されます).
「切り取り & スケッチ」が使えない場合は「Snipping Tool」を使ってください.
起動後は次のように画面を保存します.
1.[モード] →「四角形領域切り取り」を選択(あるいは「四角形モード」に設定)
2.新規作成
3.キャプチャできたら[ファイル]→[名前を付けて保存]
- Macの場合
[Command]+[Shift]+[4]を押してから,画像に保存する範囲をドラッグで指定します. 文章全体をちょうどピッタリ囲うようにしてください. 画像はデスクトップに保存されます.画像のファイル名は自動的に決められます.
- Windowsの場合
ファイルのデータ量の評価(bpc)について
すでに説明した通り,この調査ではファイルのデータ量を評価する指標として,文章の1文字あたりのファイルのバイト(byte)数『バイト/文字』をbpcとして,それを用いることにします. ファイルのbpc値を得るには,文章の文字数とファイルのサイズ(byte)の情報が必要です. これらの情報は次のように取得できます.
- ファイルサイズ
ファイルサイズはファイルのプロパティ(ファイルに関する各種情報)として取得できます.- Windowsの場合
エクスプローラ(フォルダのウインドウ)で対象とするファイルを右クリックして開かれるコンテクストメニューの「プロパティ」を選ぶと,プロパティが表示されます. その中に「サイズ(バイト)」の情報があるはずです. なお「ディスク上のサイズ」という情報もありますが,そちらではありません. - Macの場合
Finderから当該のファイルを選んでコンテクストメニューの「情報を見る」で「サイズ」を確認できます.コンテクストメニュー(右クリックメニュー)は[Ctrl]を押しながらクリックで開けるはずです.
- Windowsの場合
- 文字数
対象としている文章のWordファイルを開いたとき, 画面の左下のステータスバーに文字数か単語数が表示されるはずです. ステータスバーのその部分を押すと「文字カウント」ダイアログボックスが開きます. そのウインドウで,空白文字を含めた文字数を調べてください.
スペースを含む文字数
なおステータスバーに表示されている数値は,設定次第で空白文字を含む場合と含まない場合があります.また英語の文章の場合は,文字ではなく単語の数を表します.