« IEの挙動が……、 xml-stylesheetの罠(?) | メイン | ソースネクスト「ずばり大安売り」を試す »

2004年12月21日 (火)

[UNIX]: MS-Wordファイルのテキスト変換

私は Wordファイルが嫌いである。別に絵が入っているわけでもなく、複雑な 表が入っているわけでもない、すなわちプレイン・テキストで十分表現できる 文書を Word形式で保存されたものが特に嫌いである。そんなわけで、なるべ く Wordのファイルは避けているのだが、どうしても読まないといけないこと もある。そんなときは、これまではまず Wordで開いてから、テキストで保存 する、という作業をしていた。しかし、それもめんどくさいと感じて早数年。

Wordファイルをテキストに変換してくれる Unix上で使えるプログラムがいく つかあることは知っていた。しかし、これらを知ったときに試したときは、あ まり私が時間を割かなかったこともあり、日本語の文書の変換がうまくいかな かったので、さっさとあきらめていた。しかし、やはりいちいち Wordで開く のがめんどくさいので、久々にこれらのプログラムを試してみた。

試したのは、 catdoc, Antiword, Word2x で、それぞれ FreeBSD Ports Collection にあるものをコンパイルして試して みた。以下、きわめて短時間に、ろくすっぽドキュメントも読まずに試した結 果であることを理解した上で読んでいただきたい。

Catdoc

英語文書
問題なく変換
日本語文書
-d utf-8 をつけて実行すれば、 UTF-8に正しく変換。後は、 lvなり UTF-8対応の nkfなりで処理可能。

Antiword

英語文書
問題なく変換
日本語文書
-m UTF-8 をつけて実行すれば、 UTF-8に正しく変換。後は、 lvなり UTF-8対応の nkfなりで処理可能。

Word2x

英語文書
なぜかエラーが出る。めんどくさいので追っていない。
日本語文書
英語文書でエラーが出たので試してもいない。

結論

とりあえず antiword か catdoc の出力を nkf -We |jless などとして使うの がお手軽そうである。 (lvのオプションを思い出せなくてそうなってしまっ た…。) Googleで探して出てきた一部のページには、これらのプログラムは日 本語非対応と書いてあったので残念がっていたのだが、まずはやってみること が重要である、ということだ。これで私の Windows PCの Wordが起動される機 会は激減するに違いない。

トラックバック

この記事のトラックバックURL: http://www.trashpot.org/mt/mt-tb.cgi/9

コメント (1)

ぱない:

表なんかはどんなフウになるんざましょね?

ところでPDFがさらにのさばってきてやがる気がするんだけどこっちはどないなもんでしょう?

このページについて

2004年12月21日 15:54に投稿された記事のページです。

前の記事: 「IEの挙動が……、 xml-stylesheetの罠(?)
次の記事: 「ソースネクスト「ずばり大安売り」を試す

この記事は、以下のカテゴリーに投稿されました:
  Software Review , UNIX
各カテゴリー名をクリックすると、そのカテゴリーに投稿された他の記事を読むことができます。

Powered by
Movable Type