*mbyte.txt* For Vim バージョン 8.1. Last change: 2019 Jul 04 VIMリファレンスマニュアル by Bram Moolenaar et al.
マルチバイトサポート このファイルでは、中國語、日本語、韓國語などの、1 バイト (オクテット) では表現することができないほど多くの文字を持つ言語の、テキストの編輯について說明する。Unicode についても說明する。
ユーザーマニュアルの |usr_45.txt| で、共通する事柄を簡單に紹介してゐる。メッセージやメニューの言語を變更するには |mlang.txt| を參照。
1. はじめに | |mbyte-first| |
2. ロケール | |mbyte-locale| |
3. エンコーディング | |mbyte-encoding| |
4. 端末の使用 | |mbyte-terminal| |
5. X11 のフォント | |mbyte-fonts-X11| |
6. MS-Windows のフォント | |mbyte-fonts-MSwin| |
7. X11 での入力 | |mbyte-XIM| |
8. MS-Windows での入力 | |mbyte-IME| |
9. キーマップを使用した入力 | |mbyte-keymap| |
10. imactivatefunc() を使用した入力 | |mbyte-func| |
11. UTF-8 を使ふ | |mbyte-utf8| |
12. 主なオプション | |mbyte-options| |
Note:
このファイルには Unicode の文字が含まれてゐる。他のエンコーディングを使用してゐる場合は、變な文字、あるいは四角形として表示されるかもしれない。
Vim のマルチバイト機能を簡單に紹介する。運が良ければ、說明したことがそのまま機能して、なんのトラブルもなしに Vim を使ひ始めることができる。さうでない場合は、このファイルをさらに讀み進める必要がある。Vim のマルチバイト機能を使用できるやうにするために、多少の手閒や試行錯誤が必要であつても驚かないで欲しい。不幸なことに、すべてのシステムはそれぞれ獨自の方法でマルチバイト言語を扱つてゐて、それは實に複雜である。
まづは、ロケールが正く設定されてゐることを確認する。システムの言語が正しく設定されてゐれば、マルチバイト機能をすぐに使用することができる。設定されてなくても、環境變數 $LANG をシェルから設定すれば、大抵は使用できるやうになる:
setenv LANG ja_JP.EUC
不幸なことに、ロケールの名前はシステムごとに違ふ。日本語なら "ja_JP.EUCjp" や "ja" などがある。現在の設定を確認するには:
:language
Vim が內部で使用するロケールを變更するには:
:language ja_JP.EUC
その設定が機能しない場合はエラーメッセージが表示される。使用したい言語のロケール名を見附けるためにいくつか試してみると良い。しかし、Vim は起動時にシステムのロケールを適切に使用するので、シェルでロケールを設定するのが無難である。
詳細は |mbyte-locale| を參照。
ロケールが適切に設定されてゐれば、オプション ’encoding’ はそれに應じた値に設定される。それが機能しないときは、自分で設定しなほすこともできる:
:set encoding=utf-8
設定できる値の一覽は |encoding-values| を參照。
この設定は Vim 內部でテキストを保持するためのエンコーディングとして使用される。バッファのテキストだけでなく、レジスタや變數のエンコーディングとしても使用される。そのため、’encoding’ の設定を變更すると、すでに內部にあるテキストは不正なテキストになつてしまふ。テキストは新しいエンコーディングに變換されず、閒違つた狀態で表示される。
’encoding’ に設定されたのとは違ふエンコーディングのファイルも編輯することができる。Vim はファイルを開くときにエンコーディングを變換し、保存するときに元に戾す。’fileencoding’, ’fileencodings’, |++enc| を參照。
端末 (のエミュレータ) で作業してゐるなら、端末が、Vim と同じエンコーディングを使用することを確認する。違ふなら、オプション ’termencoding’ を設定して、テキストが自動的に變換されるやうにする。
GUI で作業してゐるなら、’encoding’ に設定されたエンコーディングに對應したフォントを選擇する必要がある。フォントの設定は難しい。使用してゐるシステムやロケールなどに依存してゐる。X-Window 環境なら |mbyte-fonts-X11|、MS-Windows なら |mbyte-fonts-MSwin| を參照。
GTK+ 2 を使つてゐるなら、今讀んでゐるこの項目はほとんど讀まなくて良い。オプション ’guifontset’ はもう存在しない。’guifont’ を設定するだけですべてうまく機能する。システムに Xft2 と fontconfig が用意されてゐるなら、選擇したフォントが何かのグリフを含んでゐないときは、自動的に他の利用可能なフォントが使用される。オプション ’guifontwide’ はまだサポートされてゐるが通常は必要ない。自動的に選擇されるフォントが適切でない場合のみ設定する必要がある。
X11 ではオプション ’guifontset’ に複數のフォントを設定して、さまざまな文字を扱へるやうにする。韓國語での設定例:
:set guifontset=k12,r12
代はりに ’guifont’ と ’guifontwide’ を設定することもできる。’guifont’ は半角文字、’guifontwide’ は全角文字のためのフォントである。’guifontwide’ のフォントは ’guifont’ のちやうど 2 倍の幅でなければならない。 UTF-8 使用時の設定例:
:set guifont=-misc-fixed-medium-r-normal-*-18-120-100-100-c-90-iso10646-1 :set guifontwide=-misc-fixed-medium-r-normal-*-18-120-100-100-c-180-iso10646-1
’guifont’ だけを設定した場合、Vim は ’guifontwide’ として使用できるフォントを見附けようとする。
マルチバイト文字を入力するにはいくつかの方法がある:
オプション ’iminsert’, ’imsearch’, ’imcmdline’ を使用して、別の入力方法に切り替へたり、インプットメソッドを一時的に無效にしたりできる。
最も簡單なのは、システム全體のロケールを設定することである。しかし、作業してゐるシェルのみロケールを變更したり、Vim だけが特定のロケールを使用するやうにも設定できる。
世界にはたくさんの言語があり、少なくとも、それと同じ數だけ文化や環境がある。地域に對應した言語環境のことをロケール (locale) といふ。ロケールは、言語、文字セット、文字の整列順、日附の書式、通貨の書式、などの情報を含んでゐる。Vim にとつては言語と文字セットの情報だけが重要である。
システムがサポートしてゐるロケールのみ使用することができる。(特にアメリカなどでは) ほんの少しのロケールしか持つてゐないシステムもある。そのため、望みの言語を使用することができないかもしれない。追加パッケージでロケールをインストールできることもあるので、システムのドキュメントを確認すること。
ロケールがインストールされてゐる場所はシステムによりさまざまである。例へば "/usr/share/locale" や "/usr/lib/locale" などにある場合がある。システムのマニュアルの setlocale() を參照。
ロケールがインストールされてゐるディレクトリを見ればロケールの正しい名前がわかる。ほとんどの場合、大文字と小文字は區別されるので、例へば "ja_JP.EUC" と "ja_jp.euc" は異なる。いくつかのシステムは locale.alias といふファイルを持つてゐて、"nl" のやうな短い名前を使つて "nl_NL.ISO_8859-1" といふ完全な名前を指定できる。
Note:
X-Window は獨自のロケール機構を持つてゐる。そして不幸なことに、他で使用されてゐるものとは違ふロケール名を使用する。これは混亂の元である。Vim にとつては函數 setlocale() が使用するものが重要であり、それは通常、X-Window のものではない。何が實際に機能するのか、實驗してみる必要があるかもしれない。
ロケール |locale| の名前の (簡單な) 書式は:
言語 (language) または 言語_地域 (language_territory) または 言語_地域.コードセット (language_territory.codeset)
地域は國を意味する (あるいはその地方)。コードセットは |charset| のこと。例へば、ロケール名 "ja_JP.eucJP" の意味は:
ja | 言語は日本語 (Japanese) |
JP | 國は日本 (Japan) |
eucJP | コードセットは EUC-JP |
同じ意味でも "ja", "ja_JP.EUC", "ja_JP.ujis" などの名前のこともある。不幸なことに、言語、地域、コードセット、を表す名前は統一されてをらず、システムによつて異なる。
ロケール名の例:
charset | language | ロケール名 |
---|---|---|
GB2312 | 中國語 (簡體字) | zh_CN.EUC, zh_CN.GB2312 |
Big5 | 中國語 (繁體字) | zh_TW.BIG5, zh_TW.Big5 |
CNS-11643 | 中國語 (繁體字) | zh_TW |
EUC-JP | 日本語 | ja, ja_JP.EUC, ja_JP.ujis, ja_JP.eucJP |
Shift_JIS | 日本語 | ja_JP.SJIS, ja_JP.Shift_JIS |
EUC-KR | 韓國語 | ko, ko_KR.EUC |
システム全體のロケールを設定するには、システムのドキュメントを參照。恐らく、"/etc" 內の設定ファイルを編輯する必要がある。
シェルのロケールを設定するには、環境變數 $LANG を設定する。例へば、韓國語を使用するとき、ロケール |locale| の名前が "ko" なら、このやうに設定する:
sh: export LANG=ko csh: setenv LANG ko
これを ~/.profile や ~/.cshrc に書いておけばいつでも設定された狀態にできる。
Vim が使用するロケールだけ設定するには |:language| コマンドを使ふ:
:language ko
これを ~/.vimrc に書いておけばいつでも設定された狀態にできる。
あるいは、特定の $LANG を設定した狀態で Vim を起動するには:
sh: LANG=ko vim {vim-arguments} csh: env LANG=ko vim {vim-arguments}
このために、小さなシェルスクリプトを作成することもできる。
Vim はオプション ’encoding’ を Vim 內部で使用するエンコーディングとして使用する。バッファ (メモリに讀み込まれたファイル) やレジスタ、變數など、すべてのテキストはこのエンコーディングでメモリに保存される。
文字セット (Charset) とコードセット (codeset) は「エンコーディング」の別名である。正確には違ふのだが、Vim を使用する上でそれは重要ではない。
文字は 1 バイト以上のバイトでエンコードされる。すべての文字が 1 バイトでエンコードされるものを私達はシングルバイトエンコーディングと呼ぶ。そのやうなエンコーディングとしては "latin1" がよく使用される。これは 256 文字を表現することができる。それには制禦文字も含むので、テキストとして使用できる文字はそれより少ない。
2 バイト以上を使つて文字を表現するものを、私達はマルチバイトエンコーディングと呼ぶ。これは 256 文字よりもつと多くの文字を表現することができ、ほとんどの東アジアの言語はこれを必要とする。
ほとんどのマルチバイトエンコーディングは 127 文字 (ASCII 文字の範圍) を 1 バイトで表現するため、使用する言語に關係なく、ASCII 文字だけのテキストをやり取りすることが簡單になつてゐる。したがつて、閒違つたエンコーディングが設定されてゐても、それを讀むことができるだらう。
多くのエンコーディングを使用することができる。大きく 3 つに分類すると:
1 | 8bit | シングルバイトエンコーディング。256 文字を表現できる。アメリカやヨーロッパで使用される。例: ISO-8859-1 (Latin1)。すべての文字は 1 つ分の表示幅で表示される。(いはゆる半角) |
2 | 2byte | ダブルバイトエンコーディング。10000 以上の文字を表現できる。アジアの國々で使用される。例: euc-kr (韓國語)。文字のバイト數と同じ數の表示幅で表示される。(2 バイトならひはゆる全角) (euc-jp の 1 バイト目が 0x8e の文字 (半角カナ) は例外) |
u | Unicode | ユニバーサルエンコーディング。他のエンコーディングを統合するもの。ISO 10646。100 萬以上の文字を表現できる。例: UTF-8。文字が使用するバイト數と表示幅の關係は複雜。 |
他のエンコーディングは Vim 內部のエンコーディングとして使用することはできないが、そのやうなエンコーディングのファイルを編輯することはできる。’fileencoding’ を參照。
Note:
すべてのエンコーディングは 0 から 128 までの文字が ASCII 文字と同じでなければならない (EBCDIC 用にコンパイルした場合は除く)。
’encoding’ に設定できる値:
1 | latin1 | 8 ビット文字 (ISO 8859-1 及び cp1252) |
1 | iso-8859-n | ISO_8859 シリーズ (n = 2 to 15) |
1 | koi8-r | ロシア語 |
1 | koi8-u | ウクライナ語 |
1 | macroman | MacRoman (Macintosh のエンコーディング) |
1 | 8bit-{name} | 8ビットエンコーディングのどれか (Vim 特有の名前) |
1 | cp437 | iso-8859-1 に類似 |
1 | cp737 | iso-8859-7 に類似 |
1 | cp775 | バルト語 |
1 | cp850 | iso-8859-4 に類似 |
1 | cp852 | iso-8859-1 に類似 |
1 | cp855 | iso-8859-2 に類似 |
1 | cp857 | iso-8859-5 に類似 |
1 | cp860 | iso-8859-9 に類似 |
1 | cp861 | iso-8859-1 に類似 |
1 | cp862 | iso-8859-1 に類似 |
1 | cp863 | iso-8859-8 に類似 |
1 | cp865 | iso-8859-1 に類似 |
1 | cp866 | iso-8859-5 に類似 |
1 | cp869 | iso-8859-7 に類似 |
1 | cp874 | タイ語 |
1 | cp1250 | チェコ語、ポーランド語など |
1 | cp1251 | キリル語 |
1 | cp1253 | ギリシャ語 |
1 | cp1254 | トルコ語 |
1 | cp1255 | ヘブライ語 |
1 | cp1256 | アラビア語 |
1 | cp1257 | バルト語 |
1 | cp1258 | ベトナム語 |
1 | cp{number} | MS-Windows: インストールされてゐるシングルバイトのコードページ |
2 | cp932 | 日本語 (Windows only) |
2 | euc-jp | 日本語 (Unix only) |
2 | sjis | 日本語 (Unix only) |
2 | cp949 | 韓國語 (Unix and Windows) |
2 | euc-kr | 韓國語 (Unix only) |
2 | cp936 | 簡體中國語 (Windows only) |
2 | euc-cn | 簡體中國語 (Unix only) |
2 | cp950 | 繁體中國語 (on Unix alias for big5) |
2 | big5 | 繁體中國語 (on Windows alias for cp950) |
2 | euc-tw | 繁體中國語 (Unix only) |
2 | 2byte-{name} | Unix: ダブルバイトエンコーディングのどれか (Vim特有の名前) |
2 | cp{number} | MS-Windows: インストールされてゐるダブルバイトのコードページ |
u | utf-8 | UTF-8 にエンコードされた 32 ビットの Unicode (ISO/IEC 10646-1) |
u | ucs-2 | UCS-2 にエンコードされた 16 ビットの Unicode (ISO/IEC 10646-1) |
u | ucs-2le | リトルエンディアンの ucs-2 |
u | utf-16 | ucs-2 を擴張してさらに多くの文字を表現できるやうにしたもの |
u | utf-16le | リトルエンディアンの utf-16 |
u | ucs-4 | UCS-4 にエンコードされた 32 ビットの Unicode (ISO/IEC 10646-1) |
u | ucs-4le | リトルエンディアンの ucs-4 |
{name} にはシステムがサポートしてゐるエンコーディングの名前を入れることができる。これらの名前はファイルのエンコーディングとロケールのエンコーディングを變換するときに iconv() に渡される。MS-Windows では "cp{number}" はコードページ番號である。
例:
:set encoding=8bit-cp1252 :set encoding=2byte-cp932
MS-Windows のコードページ 1252 は latin1 と良く似てゐる。實用的な理由から、2 つは同じエンコーディングとして扱はれ、latin1 と呼ばれる。0x80 - 0xA0 の文字を表示するかしないかは ’isprint’ で設定できる。
いくつかの別名を使用できる。別名は上記の名前のどれかとして解釋される。完全ではないが一覽を示す:
1 | ansi | latin1 と同じ (廢止。後方互換性のために殘されてゐる) |
2 | japan | 日本語: Unix では euc-jp、MS-Windows では cp932 |
2 | korea | 韓國語: Unix では euc-kr、MS-Windows では cp949 |
2 | prc | 簡體中國語: Unix では euc-cn、MS-Windows では cp936 |
2 | chinese | prc と同じ |
2 | taiwan | 繁體中國語: Unix では euc-tw、MS-Windows では cp950 |
u | utf8 | utf-8 と同じ |
u | unicode | ucs-2 と同じ |
u | ucs2be | ucs-2 と同じ (ビッグエンディアン) |
u | ucs-2be | ucs-2 と同じ (ビッグエンディアン) |
u | ucs-4be | ucs-4 と同じ (ビッグエンディアン) |
u | utf-32 | ucs-4 と同じ |
u | utf-32le | ucs-4le と同じ |
default | ’encoding’ のデフォルト値を意味する。環境に依存する。 |
UCS コードにはバイト順の問題がある。これは扱ひが難しいので、可能なときにはいつでも UTF-8 を使用した方が良い。指定がなければビッグエンディアンを使用する (最上位バイトが最初にくる):
名前 | バイト列 | 文字 |
---|---|---|
ucs-2 | 11 22 | 1122 |
ucs-2le | 22 11 | 1122 |
ucs-4 | 11 22 33 44 | 11223344 |
ucs-4le | 44 33 22 11 | 11223344 |
MS-Windows はリトルエンディアンの UCS-2 を使用するので、MS-Windows では主に "ucs-2le" を使ふ。
良く似てゐるが區別されてゐるエンコーディングがある。Vim はそれらを別のエンコーディングとして扱ふため、エンコーディングの變換が行はれる。エンコーディングの變換ができないときや、よけいな變換を防ぎたいときは、他の名前を使ふ必要があるかもしれない:
cp932, shift-jis, sjis cp936, euc-cn
通常、’encoding’ はロケールと同じ設定で、’termencoding’ は空になつてゐる。その場合、文字の入力と表示はそのロケールでエンコードされる。Vim 內部でも同じ文字表現を使ふ。
オプション ’encoding’ を設定して、Vim 內部で使用するエンコーディングを變更することができるが、入力と表示にはロケールが使用されるので、エンコーディングの變換が必要になる。そのときは ’termencoding’ がロケールのエンコーディングとして使用される。Vim は ’encoding’ と ’termencoding’ の閒でエンコーディングを變換する。例:
:let &termencoding = &encoding :set encoding=utf-8
すべてのエンコーディングの組み合はせが利用できるわけではない。下記の表にどのやうなものが機能するか示す。すべての變換が可能なわけではなく、iconv() が常に使用できるとは限らないので、利用できないものもある。これはシステムに依存することなので細部まで說明することはできない。
(’tenc’ は ’termencoding’ の省略、’enc’ は ’encoding’ の省略)
’tenc’ | ’enc’ | 說明 |
---|---|---|
8bit | 8bit | 機能する。’termencoding’ と ’encoding’ が違ふときは、變換することができないいくつかの文字は入力と表示が正しく行はれない。(そのやうな文字を得るには ’encoding’ を "utf-8" に設定する) |
8bit | 2byte | MS-Windows: インストールされてゐるすべてのコードページで機能する。8 ビットの文字だけ入力することができる。 他のシステム: 機能しない。 |
8bit | Unicode | 機能するが、8 ビット文字しか直接入力できない(他の文字は DIGRAPH、キーマップなどで入力できる)。端末には 8 ビット文字しか表示できない。GUI では ’guifont’ がサポートしてゐる文字であれば表示できる。 |
2byte | 8bit | 機能するが、非 ASCII 文字を入力するには問題がある。 |
2byte | 2byte | MS-Windows: インストールされてゐるすべてのコードページで機能する。’encoding’ をロケールと違ふ設定にすると入力に問題あり。 他のシステム: ’termencoding’ と ’encoding’ が同じ場合のみ機能する。’termencoding’ は空にしておいたはうが良い。 |
2byte | Unicode | 機能する。Vim は入力された文字を變換する。 |
Unicode | 8bit | 機能する。(普通はこうしない) |
Unicode | 2byte | 機能しない。 |
Unicode | Unicode | 問題なく機能する。(Vim 內部では Unicode はすべて UTF-8 で扱はれるため、’termencoding’ が空でも同じく機能する) |
Vim はいろいろな場面で自動的にエンコーディングを變換する:
ほとんどの變換は |+iconv| の機能が必要である。ファイルを讀み書きするときの變換の動作はオプション ’charconvert’ での指定もできる。
エンコーディングを變換するための便利なユーティリティ:
GNU iconv はほぼすべてのエンコーディングを變換できる。變換の中閒層に Unicode を使用することで、多くの變換を可能にしてゐる。
http://www.gnu.org/directory/libiconv.html を參照。
"Network Kanji code conversion Filter"。最も特徵的な nkf の機能は漢字コードの自動認識である。そのため、ファイルのエンコーディング |charset| を知る必要がない。ISO-2022-JP や Shift_JIS を EUC-JP に變換するには、Vim からこのやうなコマンドを單に實行すれば良い:
:%!nkf -e
Nkf はここから入手できる:
http://www.sfc.wide.ad.jp/~max/FreeBSD/ports/distfiles/nkf-1.62.tar.gz
{譯注: utf-8 對應などの機能が追加されてゐるもの https://ja.osdn.net/projects/nkf/ }
"Hanzi Converter"。Hc は GB から Big5 へ、Big5 から GB へ、の變換をする。Hc はここから入手できる:
ftp://ftp.cuhk.hk/pub/chinese/ifcss/software/unix/convert/hc-30.tar.gz
Hmconv は E-mail を扱ふことに特化した韓國語エンコーディング變換ユーティリティである。EUC-KR と ISO-2022-KR の閒の變換ができる。Hmconv はここから入手できる:
ftp://ftp.kaist.ac.kr/pub/hangul/code/hmconv/
Lv は高性能な多言語ファイルビューアである。そして、エンコーディングの變換もできる。サポートしてゐるエンコーディング |charset| は: ISO-2022-CN, ISO-2022-JP, ISO-2022-KR, EUC-CN, EUC-JP, EUC-KR, EUC-TW, UTF-7, UTF-8, ISO-8859 シリーズ、Shift_JIS, Big5, HZ。Lv はここから入手できる: http://www.ff.iij4u.or.jp/~nrt/lv/index.html
’encoding’ の設定と違ふエンコーディングのファイルを讀み書きするときは、エンコーディングを變換する必要がある。次の變換がサポートされてゐる:
古いバージョンの GNU iconv() では變換が失敗することがある (Vim が用意するバッファよりも、はるかに大きなバッファを要求するため)。その場合は他の iconv() 實裝を試すこと。
MS-Windows では |+iconv/dyn| 機能つきで Vim をコンパイルすることができる。さうすると Vim は "iconv.dll" と "libiconv.dll" を檢索するやうになる。どちらも見つからない場合でも Vim は動作するが、變換ができなくなる。
GUI ではマルチバイト文字を完全にサポートしてゐる。端末を使ふ場合でも、Vim が使用するエンコーディングをサポートしてゐればマルチバイト文字を扱へるが、少し不便なこともある。
マルチバイト (と |XIM|) をサポートしてゐる xterm で Vim を使用することができる。他にも kterm (Kanji term), hanterm (韓國語用), Eterm (Enlightened terminal), rxvt、などが使用できる。
端末が適切なエンコーディングをサポートしてゐない場合はオプション ’termencoding’ を設定する。Vim は入力された文字を ’termencoding’ から ’encoding’ へと變換する。そして表示するときに ’encoding’ から ’termencoding’ へと變換する。端末のエンコーディングに、Vim が取り扱ふ文字がすべて含まれてゐない場合、文字の情報が失なわれてしまふ。下記で說明してゐる xterm のやうに、Unicode をサポートしてゐる端末なら問題はない。ほぼすべての文字セットは情報を失なわずに Unicode に變換できるからである。
{譯注: 最近の環境なら標準で使へるやうになつてゐる。}
これは Thomas Dickey によつて提供される XFree86 xterm で、どのやうにして UTF-8 エンコードされた文字を利用するかについての簡單な說明である (文: Markus Kuhn)。
UTF-8 をサポートしてゐる最新の xterm を入手すること:
http://invisible-island.net/xterm/xterm.html
"./configure --enable-wide-chars ; make
" としてコンパイルすること。
また ISO 10646-1 バージョンのフォントを入手すること:
http://www.cl.cam.ac.uk/~mgk25/download/ucs-fonts.tar.gz
それから README ファイルの記述に從つてフォントをインストールすること。
そして xterm を起動する。
xterm -u8 -fn -misc-fixed-medium-r-semicondensed--13-120-75-75-c-60-iso10646-1
大きな文字を使ふときは:
xterm -u8 -fn -misc-fixed-medium-r-normal--15-140-75-75-c-90-iso10646-1
さうすると UTF-8 端末エミュレータが動作するだらう。ucs-fonts.tar.gz に含まれてゐる次の兩方のデモ・ファイルを試して:
cat utf-8-demo.txt vim utf-8-demo.txt
xterm で UTF-8 が問題なく動作してゐるかどうか確認すること。
Vim の ’encoding’ を "utf-8" に設定する必要がある。
X11 でのフォントの取り扱ひは難しい。シングルバイトフォントの名前は長い文字列である。マルチバイトフォントを使ふにはさらにいくつか考慮することがある。
Note:
この說明のほとんどは GTK+ 2 にとつては關係ない。XLFD を用いたフォントの指定はサポートされてゐない。フォントの設定例は ’guifont’ を參照。下記の項 |XLFD| と |xfontset| は讀んでも讀まなくても良い。
Vim は固定幅のフォントだけを扱ふことができる。プロポーショナルフォントを使用することはできない。そのため多くの(見た目の良い)フォントは使用できない。しかし、メニューやツールチップにはどのフォントでも使用することができる。
Note:
表示と入力は獨立してゐる。入力したい言語のインプットメソッドがなくても、表示することはできる。
メニューやツールチップは標準設定のフォントでも機能するが、おそらくそれは、あまり見た目が良くない。より良いフォントを選ぶには下記の說明を參照。
XLFD は X のフォント名であり、フォントサイズや文字セットなどの情報を含んでゐる。名前はこのやうな書式になつてゐる:
FOUNDRY-FAMILY-WEIGHT-SLANT-WIDTH-STYLE-PIXEL-POINT-X-Y-SPACE-AVE-CR-CE
各フィールドの意味:
r: | Roman (ローマン體。正字體。傾きなし) |
i: | Italic (イタリック體) |
o: | Oblique (斜體) |
ri: | Reverse Italic (逆傾きのイタリック體) |
ro: | Reverse Oblique (逆傾きの斜體) |
ot: | Other (その他) |
number: | Scaled font (傾きの角度) |
p: | Proportional (プロポーショナル、可變幅) |
m: | Monospaced (モノスペース、固定幅) |
c: | CharCell (文字セル) |
例へば、JIS X 0208 に對應する 16 ドットのフォントは次のやうに書く:
-misc-fixed-medium-r-normal--16-110-100-100-c-160-jisx0208.1990-0
シングルバイト文字セットは一般的に 1 つのフォントに關聯付けられてゐる。マルチバイト文字セットはほとんどの場合、複數のフォントの組合せを使用する。そして表示する文字に合つたフォントが選擇されて使用される。そのやうなフォントの集合をフォントセットと呼ぶ。
ロケールによつて必要なフォントは異なる。X-Window はロケールに必要な文字セットの表を管理してゐる。ロケールが必要とする全てのフォントをオプション ’guifontset’ に設定しなければならない。
’guifontset’ オプションを設定すると、すべてのフォント名がフォントセット名として扱はれる。|:highlight| コマンドの "font" 引數に使用されるものもある。
Note:
’guifont’ と ’guifontset’ の違ひに注意すること。’guifont’ では、コンマ區切りの名前は代替名で、そのうちの 1 つが使用される。’guifontset’ では、文字列全體が、コンマを含む1つのフォントセット名である。代替フォントセット名を指定することはできない。この例は多くの X11 システムで動作する:
:set guifontset=-*-*-medium-r-normal--16-*-*-*-c-*-*-*フォントは現在のロケールと一致しなければならない。現在のロケールで使用されてゐる文字セットのフォントが含まれてゐない場合、’guifontset’ の設定は失敗する。
Note:
’encoding’ が、ロケールとは違ふ文字セットに設定されてゐても、フォントセットは常にロケールを使用する。さういふ場合は ’guifontset’ ではなく ’guifont’ と ’guifontwide’ を使用する。
例:
|charset| | language | "groups of characters" |
---|---|---|
GB2312 | 簡體中國語 | ISO-8859-1 and GB 2312 |
Big5 | 繁體中國語 | ISO-8859-1 and Big5 |
CNS-11643 | 繁體中國語 | ISO-8859-1, CNS 11643-1 and CNS 11643-2 |
EUC-JP | 日本語 | JIS X 0201 and JIS X 0208 |
EUC-KR | 韓國語 | ISO-8859-1 and KS C 5601 (KS X 1001) |
xlsfonts コマンドを使つてフォントを檢索できる。例へば、KS C 5601 のフォントを探すには:
xlsfonts | grep ksc5601
これは複雜で混亂しやすいことなので、分からないことは X-Window のドキュメントで調べること。
使用したいフォントの名前を見附けたらオプション ’guifontset’ を設定する。設定はフォントの名前をコンマで區切つて指定する。
例へば、ja_JP.eucJP ロケールの場合、JIS X 0201 と JIS X 0208 が必要である。次のやうに文字セットを明示的に指定してフォントを設定する:
:set guifontset=-misc-fixed-medium-r-normal--14-130-75-75-c-140-jisx0208.1983-0, \-misc-fixed-medium-r-normal--14-130-75-75-c-70-jisx0201.1976-0
文字セットの名前を省略した場合、X-Window が、ロケールに必要なフォントを選擇する。例:
:set guifontset=-misc-fixed-medium-r-normal--14-130-75-75-c-140, \-misc-fixed-medium-r-normal--14-130-75-75-c-70
基本となるフォントの名前を 1 つだけ指定して、利用可能なすべてのフォントの中から選擇させることもできる。例:
:set guifontset=-misc-fixed-medium-r-normal--14-*
フォントの別名を指定することもできる。フォントディレクトリ (例へば /usr/X11R6/lib/X11/fonts/) のファイル fonts.alias を見ること。例:
:set guifontset=k14,r14
Note:
東アジアのフォントは、基本的には正四角形の範圍で表示される。ラテンフォントと東アジアのフォントを組み合はせた場合、東アジアのフォントはラテンフォントの 2 倍の幅で表示される。
’guifontset’ が空の場合、コマンド |:highlight| の "font" 引數はフォントセットとして解釋される。例へばこのやうに使用する:
:hi Comment font=english_font,your_font
閒違つた "font" 引數を使用するとエラーメッセージが表示される。事前に ’guifontset’ を設定して確認すること。
’guifontset’ を設定する代はりに X11 のリソースを設定すれば、Vim はそれを使用する。これは X のリソースファイルの働きを知つてゐる人向けである。
Motif と Athena ではファイル $HOME/.Xdefaults にこの 3 行を追加する:
Vim.font: |base_font_name_list| Vim*fontSet: |base_font_name_list| Vim*fontList: your_language_font
Note:
Vim.font はテキストエリアの設定
Vim*fontSet はメニューの設定
Vim*fontList はメニューの設定 (Motif GUI用)
例へば、14 ドットの日本語フォントを使ふには:
Vim.font: -misc-fixed-medium-r-normal--14-* Vim*fontSet: -misc-fixed-medium-r-normal--14-* Vim*fontList: -misc-fixed-medium-r-normal--14-*
もしくは:
Vim*font: k14,r14 Vim*fontSet: k14,r14 Vim*fontList: k14,r14
この設定をすぐに反映させるには
xrdb -merge ~/.Xdefaults
もしくは X サーバーを停止して再起動する。
GTK+ 版の Vim は .Xdefaults を使はず ~/.gtkrc の設定を使用する。初期設定は恐らくうまく機能するが、メニューのフォントは變更した方がいいかもしれない。例:
style "default" { fontset="-*-*-medium-r-normal--14-*-*-*-c-*-*-*" } widget_class "*" style "default"
最も簡單なのは、フォント選擇ダイアロクを使つてフォントを選擇して、試してみることである。メニューの "Edit/Select Font..." (編輯/フォント設定) を使用する。ちやうどいいフォントを見附けたら、このコマンドでフォントの名前を確認する:
:set guifont
そして、’guifont’ を設定するコマンドを |gvimrc| に追加する:
:set guifont=courier_new:h12
XIM は X の國際化入力機構である。Xlib ユニット型と |IM-server| (Input-Method server) 型の 2 種類がある。|IM-server| 型は CJK (日中韓) で使はれるやうな複雜な入力方式に適してゐる。
|IM-server| 型の入力方式では、FrontEnd システムか BackEnd システムのどちらかの方法で入力イベントを處理する。FrontEnd システムでは、まづ |IM-server| が入力イベントを取得し、そして入力の結果を |IM-server| からアプリケーションへ渡す。BackEnd システムではその逆の順番で處理される。
MS Windows は BackEnd システムを採用してゐる。X では、ほとんどの |IM-server| が FrontEnd システムを採用してゐる。BackEnd システムには通信のオーバーヘッドが大きく掛かるといふデメリットはあるが、アプリケーションに制限を加へず、安全に同期することができる。
たとへば xwnmo と kinput2 といふ日本語インプットメソッドサーバー |IM-server| があるが、兩方とも FrontEnd システムである。xwnmo は Wnn (下記參照) と一緖に提供されてゐる。kinput2 はここから入手できる: ftp://ftp.sra.co.jp/pub/x11/kinput2/
中國語用には、"xcin" といふよくできた XIM サーバーがあり、簡體中國語と繁體中國語の兩方を入力できる。適切な入力テーブルを作成すれば、他のロケールも受け付ける。Xcin はここから入手できる: http://cle.linux.org.tw/xcin/。他には scim: http://scim.freedesktop.org/ と fcitx: http://www.fcitx.org/ がある。
いくつかのシステムではさらに、變換サーバーが必要である。ほとんどの日本語インプットメソッドサーバー |IM-server| は假名漢字變換サーバーを必要とする。中國語の入力では、入力方式に依存する。いくつかの方式では、PinYin や ZhuYin から HanZi への變換サーバーが必要である。韓國語の入力では、Hanja を入力するには、Hangul-Hanja 變換サーバーが必要である。
例へば、日本語の入力は 2 段階に分けられる。最初に平假名を入力し、次に漢字へ變換する。多くの漢字 (JIS X 0208 には 6349 文字が定義されてゐる) と 76 文字の平假名があるため、まづ平假名を入力し、必要なら、それを漢字や片假名に變換する。假名漢字變換サーバーには jserver (Wnn と一緖に提供されてゐる。下記參照) や canna などがある。Canna はここから入手できる: http://canna.sourceforge.jp/
Wnn4.2 といふよくできた入力システムがある。Wnn4.2 は以下のものを含んでゐる。
Wnn4.2 は多くのシステムで動作し、インターネットのさまざまな場所で入手することができる。あなたのシステム用の RPM や port を使用すること。
CJK (日中韓語) を入力するとき、4 つの表示領域がある:
3 番目の表示領域は變換をするときに必要である。たとへば、日本語の入力では、同じ撥音の漢字が複數あるので、同じ平假名が複數の漢字に對應する。
1 番目と 2 番目の表示領域は X の國際化入力でそれぞれ "Preedit Area", "Status Area" と定義されてゐる。3 番目と 4 番目の表示領域は定義されてをらず、|IM-server| に任されてゐる。國際化入力では Preedit Area と Status Area の組み合せで 4 つの入力スタイルが定義されてゐる: |OnTheSpot| |OffTheSpot| |OverTheSpot| |Root|。
現在、GUI Vim は |OverTheSpot|, |OffTheSpot|, |Root| の 3 つのスタイルをサポートしてゐる。|+GUI_GTK| 機能付きでコンパイルされた場合は、GUI Vim は |OnTheSpot| と |OverTheSpot| の 2 つのスタイルをサーポートする。’imstyle’ オプションでスタイルを選擇することができる。
Preedit Area と Status Area はアプリケーション領域にクライアントアプリケーションによつて表示される。クライアントアプリケーションはテキストを插入する位置に未確定文字をすべて表示するやうに |IM-server| から指示される。クライアントは、コールバック函數を登錄して、未確定文字の入力中にインプットメソッドから呼び出してもらふ。
Status Area はアプリケーション領域の固定位置に作成される。Vim の場合は、ステータスライン付近である。Preedit Area はアプリケーションの入力してゐる位置に作成される。インプットメソッドは、テキストが插入される位置にあるウィンドウに未確定文字を表示する。
Preedit Area と Status Area はアプリケーション領域に表示される。Vim の場合は、ステータスライン付近である。クライアントアプリケーションは表示ウィンドウを提供し、インプットメソッドが直接そこに未確定文字を表示する。
Preedit Area と Status Area はアプリケーションの外側に表示される。インプットメソッドは別に用意した自分のウィンドウに未確定文字をすべて表示する。
Note:
表示と入力は獨立してゐる。インプットメソッドがなくてもあなたの言語を見ることができる。しかし、表示方法とインプットメソッドが合はないと、テキストは閒違つて表示される。
Note:
’guifontset’ を設定しないとインプットメソッドを使用できない。從つて、ラテン語のユーザーも、インプットメソッドを使用するなら、’guifontset’ を設定しなければならない。
あなたの言語を入力するには、その言語をサポートしてゐるインプットメソッドサーバー |IM-server| を實行する。必要なら變換サーバー |conversion-server| も實行する。
次の 3 行を ~/.Xdefaults ファイルに書き込む。これは |XIM| を使用するすべての X アプリケーションに共通する設定である。すでに |XIM| を使用してゐる場合は、これを讀み飛ばすこと。
*international: True *.inputMethod: your_input_server_name *.preeditType: your_input_style
input_server_name | インプットサーバー |IM-server| の名前。(|IM-server| のマニュアルを確認すること)。 |
your_input_style | |OverTheSpot|, |OffTheSpot|, |Root| のどれか。|xim-input-style| を參照。 |
X11R6 を使用してゐる場合、*international は必要ない。また、*.inputMethod と *.preeditType の指定は任意。
kinput2 を |IM-server| として使ふ場合の例:
*international: True *.inputMethod: kinput2 *.preeditType: OverTheSpot
|OverTheSpot| を使用する場合、GUI Vim はノーマルモードでも常にインプットメソッドサーバーに接續する。そのため "f" や "r" コマンドであなたの言語を入力することができる。しかし、他の入力スタイルの場合は、GUI Vim はノーマルモードのときにはインプットメソッドサーバーに接續しない。
インプットメソッドサーバーが |OverTheSpot| をサポートしてゐない場合、"f" や "r" などのノーマルモードコマンドであなたの言語を使用するには、ローカライズされた xterm か、|XIM| をサポートした xterm を使用する。
必要なら、環境變數 XMODIFIERS を設定する:
sh: export XMODIFIERS="@im=input_server_name" csh: setenv XMODIFIERS "@im=input_server_name"
インプットメソッドサーバー |IM-server| に kinput2 を使用する場合の sh での設定例:
export XMODIFIERS="@im=kinput2"
MS-Windows の IME (|multibyte-ime| 參照) のやうに、XIM を制禦することができる。この機能は現在 GTK GUI でのみ利用可能。
XIM を制禦するには、使用してゐるインプットメソッドのトグルキーを、オプション ’imactivatekey’ に設定する必要がある。たとへば、インプットメソッドサーバーに kinput2 + canna の組み合せを使用してゐる場合、トグルキーは恐らく Shift+Space なので、このやうに設定する:
:set imactivatekey=S-space
設定の書式は ’imactivatekey’ を參照。
{Windows の GUI 環境で |+multi_byte_ime| が有效な場合のみ利用可能}
Windows ではマルチバイト文字の入力に Input Method Editor (IME) を使ふことができる。IME を使つたテキストの入力では、IME の狀態をオンにしたりオフにしたり、何度も何度も切り替へなければならない。さうしないと、IME の狀態がオンのときには、キー入力はすべて IME に取られてしまふので、’j
’ や ’k
’ などほぼすべてのキーを、直接 Vim に入力することができない。
この |+multi_byte_ime| 機能はこれを手助けします。IME を手動で切り替へる回數を減少させます。マルチバイトテキストを編輯してゐるときでさへ、ノーマルモードでは IME を使用することはほとんどありません。そこで、插入モードを拔けるときに、Vim は IME の最後の狀態を記憶して IME をオフにします。插入モードに再び入つたときに、Vim は IME を自動的に記憶していた狀態に設定します。
これは插入モードとノーマルモードの閒だけでなく、コマンドラインや檢索コマンドの入力時や置換モードでも同じである。
オプション ’iminsert’, ’imsearch’, ’imcmdline’ を設定して、それぞれ別々に入力方法を選擇したり、無效にしたりできる。
IME は東アジア向けの Windows の一部で、マルチバイト文字を入力するためのものである。英語などの言語用の Windows には IME は搭載されてゐない (普通は必要ない)。しかし、Microsoft Global IME といふものがある。これは Internet Explorer4.0 以上に含まれてゐる。詳しいことは下記のURLを參照。
Global IME は Windows 95, Windows 98, Windows NT 4.0 のどの言語用のバージョンでも利用可能で、中國語、日本語、韓國語のテキストを Vim に入力することができる。
Windows 2000 や Xp でも問題なく使用できる (ダウンロードは必要ない)。Windows 2000 Professional には Global IME が組み込まれてをり、コントロールパネルの地域と言語のオプション/言語タブ/テキストサービスと入力言語の詳細ボタンから入力言語を追加できる。Global IME の詳細は下記のURLを參照。リンク先には Global IME の各國語用のバージョンもある。
Global IME のサポートは實驗的な機能である。
Note:
IME を使用するには入力したい言語をシステムに追加する必要がある。正確な設定方法は Windows のバージョンによつて違ふ。Windows XP の場合は:
- コントロールパネルを開く
- 地域と言語のオプションを開く
- 言語タブを選擇
- [テキストサービスと入力言語]エリアの詳細ボタンをクリック
- 追加ボタンをクリック
IME の狀態に應じてカーソルの色を變へることができる。通常、IME の狀態はデスクトップの隅 (やタスクバー) に表示されてゐるが、これはあまり確認しやすくないので、この機能が役に立つ。これは XIM でも同じやうに機能する。
强調グループの CursorIM を設定して、IME の狀態がオンのときの色を選べる。たとへば、次の行を |gvimrc| に追加する:
if has('multi_byte_ime') highlight Cursor guifg=NONE guibg=Green highlight CursorIM guifg=NONE guibg=Purple endif
これで、IME がオフならカーソルは綠、オンなら紫になる。
キーボードから入力できない文字がある場合にはオプション ’keymap’ を使ふ。1 つ以上の (英語の) 文字を入力することで、別の (非英語の) 文字を入力することができる。この機能はテキストを入力するときだけ作用する。Vim コマンドを入力するときには作用しない。そのため、キーボードの設定を切り替へる手閒がない。
{Vimが |+keymap| 機能付きでコンパイルされたときにのみ利用可能}
オプション ’keymap’ に、使用したいキーマップファイルを指定する。ファイルの名前は次の 2 つのうちのどちらか:
keymap/{keymap}_{encoding}.vim keymap/{keymap}.vim
{keymap} はオプション ’keymap’ に設定する値、{encoding} はオプション ’encoding’ の値。{encoding} 付きのファイル名が優先して使はれる。
キーマップファイルを探すために ’runtimepath’ が使はれる。利用可能なすべてのキーマップファイルを一覽するには、このやうにする:
:echo globpath(&rtp, "keymap/*.vim")
插入モードとコマンドラインモードでは、CTRL-^ を使つてキーマップを使用するかどうかを切り換へることができる。|i_CTRL-^| |c_CTRL-^|
插入モードでは、キーマップの狀態はオプション ’iminsert’ に記憶される。插入モードから拔けて、再び插入モードに入つたときに、以前の狀態が使はれる。|f| や |r| などの 1 つの文字を引數に取るコマンドでも同じ値が使はれる。
コマンドラインモードでは、キーマップの狀態は記憶されない。コマンドラインモードに入るとまづ、(ASCII 文字の) Ex コマンドを入力するはずだからである。
檢索パターンの入力では、オプション ’imsearch’ が使はれる。’iminsert’ と設定を共有するやうに設定することもできる。 キーマップ (言語マップ) を使用中に、GUI カーソルの色を變へることができる。もしも、非標準な背景色を使用してゐた場合にカーソルが見えなくなることがないやうに、初期狀態ではこの機能は無效になつてゐる。次の例では、カーソルの色が明るくなるやうにしてゐる:
:highlight Cursor guifg=NONE guibg=Green :highlight lCursor guifg=NONE guibg=Cyan
キーマップファイルはこのやうな構成になつてゐる:
" Maintainer: name <email@address> " Last Changed: 2001 Jan 1 let b:keymap_name = "short" loadkeymap a A b B comment
「"」で始まる行はコメントなので無視される。空白行も無視される。マップを定義する行には役に立つコメントを書くことができる。
"b:keymap_name" にはステータスラインに表示される短い名前を設定できる。’keymap’ の値は、言語の違ひやキーボードやエンコーディングの違ひを區別するために長くなりがちだが、ステータスラインに表示できる文字には限りがあるので、この變數を使ふ。
實際のマップは "loadkeymap" 以下に書く。上の例では、"a" は "A" に、"b" は "B" にマップされる。このやうに、一番目のものが二番目にマップされる。そして、ファイルの末尾まで同じやうに處理される。
このやうに設定したマップは、|:lnoremap| に "<buffer>" を指定したバッファローカルなマップとまつたく同じである。
それはこのコマンドで確認できる:
:lmap
2 つの項目は空白で區切る。マップに空白を含めるには、"<Tab>", "<Space>" といふ特別な表記を使ふ。2 つの項目の文字の長さは、合はせて 200 バイトを超えてはいけない。
一番目の項目に複數の文字を指定することができる。これはデッドキーのやうな作用をする。例:
'a á
クォートの入力があつたとき、次に "a" が入力されるかどうかわからないので、Vim は次の文字が入力されるまで待機する。シングルクォートを入力できるやうにするには、次の行も加へる:
'' '
マップは |:lnoremap| で定義されるので、結果のクォート文字は、他のマップの開始文字としては扱はれない。
{譯注: シングルクォートを入力できるやうにするには... ’timeout’ も參照。}
"accents" キーマップはこれを使用する。
最初の列は |<>| 表記で書くこともできる:
<C-c> Ctrl-C <A-c> Alt-c <A-C> Alt-C
Note:
Alt マッピングは機能しないことがある。それはキーボードや端末に依存する。
二番目の項目に複數の文字を指定することもできるが、一般的ではない。しかし、文字を指定するのにいろいろな方法を使用して構はない:
A a literal character A <char-97> decimal value A <char-0x61> hexadecimal value A <char-0141> octal value x <Space> special key name
文字は現在の ’encoding’ と同じエンコーディングであるものとして扱はれる。":scriptencoding" でリテラル文字のエンコーディングを指定することができるが、<char-> 表記の文字には影響しない。なぜなら、キーマップファイルのエンコーディングが變換されるのであつて、<char-> の結果の文字は變換されないからである。
"loadkeymap" 以下の行は ’cpoptions’ に "C" を設定した狀態で解釋される。つまり、行の繼續は使用されない。バックスラッシュは特殊文字として扱はれる。例:
" a comment line \" x " を x へマップ \\ y \ を y へマップ
他の人にも便利なキーマップファイルを作成したら、Vim の配布物に含めるために、Vim のメンテナーに提出することを檢討していただきたい:
<maintainer@vim.org>
このファイルは UTF-8 と CP1255 のエンコーディングで利用可能な文字と、その文字を入力するためのキーマップを說明してゐる:
グリフ エンコード キーマップ
Char | utf-8 | cp1255h | ebrew | hebrewp | name |
---|---|---|---|---|---|
א | 0x5d0 | 0xe0 | t | a | ’alef |
ב | 0x5d1 | 0xe1 | c | b | bet |
ג | 0x5d2 | 0xe2 | d | g | gimel |
ד | 0x5d3 | 0xe3 | s | d | dalet |
ה | 0x5d4 | 0xe4 | v | h | he |
ו | 0x5d5 | 0xe5 | u | v | vav |
ז | 0x5d6 | 0xe6 | z | z | zayin |
ח | 0x5d7 | 0xe7 | j | j | het |
ט | 0x5d8 | 0xe8 | y | T | tet |
י | 0x5d9 | 0xe9 | h | y | yod |
ך | 0x5da | 0xea | l | K | kaf sofit |
כ | 0x5db | 0xeb | f | k | kaf |
ל | 0x5dc | 0xec | k | l | lamed |
ם | 0x5dd | 0xed | o | M | mem sofit |
מ | 0x5de | 0xee | n | m | mem |
ן | 0x5df | 0xef | i | N | nun sofit |
נ | 0x5e0 | 0xf0 | b | n | nun |
ס | 0x5e1 | 0xf1 | x | s | samech |
ע | 0x5e2 | 0xf2 | g | u | ‘ayin |
ף | 0x5e3 | 0xf3 | ; | P | pe sofit |
פ | 0x5e4 | 0xf4 | p | p | pe |
ץ | 0x5e5 | 0xf5 | . | X | tsadi sofit |
צ | 0x5e6 | 0xf6 | m | x | tsadi |
ק | 0x5e7 | 0xf7 | e | q | qof |
ר | 0x5e8 | 0xf8 | r | r | resh |
ש | 0x5e9 | 0xf9 | a | w | shin |
ת | 0x5ea | 0xfa | , | t | tav |
母音マークと特別な句讀點:
Char | utf-8 | cp1255h | ebrew | hebrewp | name |
---|---|---|---|---|---|
הְ | 0x5b0 | 0xc0 | A: | A: | sheva |
הֱ | 0x5b1 | 0xc1 | HE | HE | hataf segol |
הֲ | 0x5b2 | 0xc2 | HA | HA | hataf patah |
הֳ | 0x5b3 | 0xc3 | HO | HO | hataf qamats |
הִ | 0x5b4 | 0xc4 | I | I | hiriq |
הֵ | 0x5b5 | 0xc5 | AY | AY | tsere |
הֶ | 0x5b6 | 0xc6 | E | E | segol |
הַ | 0x5b7 | 0xc7 | AA | AA | patah |
הָ | 0x5b8 | 0xc8 | AO | AO | qamats |
הֹ | 0x5b9 | 0xc9 | O | O | holam |
הֻ | 0x5bb | 0xcb | U | U | qubuts |
כּ | 0x5bc | 0xcc | D | D | dagesh |
הֽ | 0x5bd | 0xcd | ]T | ]T | meteg |
ה־ | 0x5be | 0xce | ]Q | ]Q | maqaf |
בֿ | 0x5bf | 0xcf | ]R | ]R | rafe |
ב׀ | 0x5c0 | 0xd0 | ]p | ]p | paseq |
שׁ | 0x5c1 | 0xd1 | SR | SR | shin-dot |
שׂ | 0x5c2 | 0xd2 | SL | SL | sin-dot |
׃ | 0x5c3 | 0xd3 | ]P | ]P | sof-pasuq |
װ | 0x5f0 | 0xd4 | VV | VV | double-vav |
ױ | 0x5f1 | 0xd5 | VY | VY | vav-yod |
ײ | 0x5f2 | 0xd6 | YY | YY | yod-yod |
以下は UTF-8 でのみ利用可能なもの
朗唱マーク:
グリフ
Char | utf-8 | hebrew | name |
---|---|---|---|
ב֑ | 0x591 | C: | etnahta |
ב֒ | 0x592 | Cs | segol |
ב֓ | 0x593 | CS | shalshelet |
ב֔ | 0x594 | Cz | zaqef qatan |
ב֕ | 0x595 | CZ | zaqef gadol |
ב֖ | 0x596 | Ct | tipeha |
ב֗ | 0x597 | Cr | revia |
ב֘ | 0x598 | Cq | zarqa |
ב֙ | 0x599 | Cp | pashta |
ב֚ | 0x59a | C! | yetiv |
ב֛ | 0x59b | Cv | tevir |
ב֜ | 0x59c | Cg | geresh |
ב֝ | 0x59d | C* | geresh qadim |
ב֞ | 0x59e | CG | gershayim |
ב֟ | 0x59f | CP | qarnei-parah |
ב֪ | 0x5aa | Cy | yerach-ben-yomo |
ב֫ | 0x5ab | Co | ole |
ב֬ | 0x5ac | Ci | iluy |
ב֭ | 0x5ad | Cd | dehi |
ב֮ | 0x5ae | Cn | zinor |
ב֯ | 0x5af | CC | masora circle |
連結形:
Char | utf-8 | hebrew | name |
---|---|---|---|
ﬠ | 0xfb20 | X‘ | Alternative ‘ayin |
ﬡ | 0xfb21 | X’ | Alternative ’alef |
ﬢ | 0xfb22 | X-d | Alternative dalet |
ﬣ | 0xfb23 | X-h | Alternative he |
ﬤ | 0xfb24 | X-k | Alternative kaf |
ﬥ | 0xfb25 | X-l | Alternative lamed |
ﬦ | 0xfb26 | X-m | Alternative mem-sofit |
ﬧ | 0xfb27 | X-r | Alternative resh |
ﬨ | 0xfb28 | X-t | Alternative tav |
﬩ | 0xfb29 | X-+ | Alternative plus |
שׁ | 0xfb2a | XW | shin+shin-dot |
שׂ | 0xfb2b | Xw | shin+sin-dot |
שּׁ | 0xfb2c | X..W | shin+shin-dot+dagesh |
שּׂ | 0xfb2d | X..w | shin+sin-dot+dagesh |
אַ | 0xfb2e | XA | alef+patah |
אָ | 0xfb2f | XO | alef+qamats |
אּ | 0xfb30 | XI | alef+hiriq (mapiq) |
בּ | 0xfb31 | X.b | bet+dagesh |
גּ | 0xfb32 | X.g | gimel+dagesh |
דּ | 0xfb33 | X.d | dalet+dagesh |
הּ | 0xfb34 | X.h | he+dagesh |
וּ | 0xfb35 | Xu | vav+dagesh |
זּ | 0xfb36 | X.z | zayin+dagesh |
טּ | 0xfb38 | X.T | tet+dagesh |
יּ | 0xfb39 | X.y | yud+dagesh |
ךּ | 0xfb3a | X.K | kaf sofit+dagesh |
כּ | 0xfb3b | X.k | kaf+dagesh |
לּ | 0xfb3c | X.l | lamed+dagesh |
מּ | 0xfb3e | X.m | mem+dagesh |
נּ | 0xfb40 | X.n | nun+dagesh |
סּ | 0xfb41 | X.s | samech+dagesh |
ףּ | 0xfb43 | X.P | pe sofit+dagesh |
פּ | 0xfb44 | X.p | pe+dagesh |
צּ | 0xfb46 | X.x | tsadi+dagesh |
קּ | 0xfb47 | X.q | qof+dagesh |
רּ | 0xfb48 | X.r | resh+dagesh |
שּ | 0xfb49 | X.w | shin+dagesh |
תּ | 0xfb4a | X.t | tav+dagesh |
וֹ | 0xfb4b | Xo | vav+holam |
בֿ | 0xfb4c | XRb | bet+rafe |
כֿ | 0xfb4d | XRk | kaf+rafe |
פֿ | 0xfb4e | XRp | pe+rafe |
ﭏ | 0xfb4f | Xal | alef-lamed |
Vim には ’imactivatefunc’ および ’imstatusfunc’ オプションがある。これらは外部コマンドやその他の方法によつて Vim からインプットメソッドを有效/無效するのに便利である。例として、fcitx は fcitx-remote コマンドを提供する:
set iminsert=2 set imsearch=2 set imcmdline set imactivatefunc=ImActivate function! ImActivate(active) if a:active call system('fcitx-remote -o') else call system('fcitx-remote -c') endif endfunction set imstatusfunc=ImStatus function! ImStatus() return system('fcitx-remote')[0] is# '2' endfunction
このスクリプトを使ふことによつて、Vim が |+xim| 付きでコンパイルされてゐない場合でも XIM を有效/無效にすることができる。
Unicode は、他の文字セットをすべて含むやうに設計された。そのため、どんな言語のテキストでも Unicode を使つて書くことができる (稀少な言語を除く)。そして、他のエンコーディングでは混在させることが不可能な言語でも、1 つのファイルに混在させることが可能である。
Unicode にはいくつかのエンコード法がある。もつとも一般的なのは、1 文字を 1 または複數バイトで表はす UTF-8 であり、ASCII と後方互換性がある。MS-Windows では UTF-16 も使はれる (以前は UCS-2 と呼ばれてゐた)。こちらは 16 ビットを基本單位とする。Vim はこれらのエンコーディングすべてをサポートしてゐるが、Vim で Unicode を使ふ場合、內部では常に UTF-8 が使はれてゐる。
Vim は幅廣く UTF-8 をサポートしてをり、それは以下の環境で機能する:
全角文字は ’guifontwide’ や ’guifontset’ を使ふと最もうまく表示することができる。’guifont’ だけを設定してゐる場合は、全角文字は通常の幅で描畫され、足りない幅が空白で埋められる。
Note:
オプション ’guifontset’ は GTK+ 2 GUI では使用しない。
ファイルを讀み込むとき、BOM (Byte Order Mark) があれば、その Unicode エンコーディングを判別するのに使はれる:
EF BB BF utf-8 FE FF utf-16 big endian FF FE utf-16 little endian 00 00 FE FF utf-32 big endian FF FE 00 00 utf-32 little endian
UTF-8 が推奬されてゐるエンコーディングである。UTF-16 と UTF-32 を區別するのは難しい。Windows では UTF-16 がしばしば使はれる。UTF-32 はファイルフォーマットとしては廣く使はれてゐない。
合成文字や結合文字を使ふと、先行文字の意味を變へることができる。結合文字は先行文字に重ねて描畫される。
デフォルトで2文字までの結合文字を扱ふことができる。この値はオプション ’maxcombine’ で變更できる。
テキストの編輯中は、合成文字は先行文字の一部として扱はれる。例へば、初期設定で は、"x" は文字を削除するときに、連なる合成文字をいっぺんに削除する。 オプション ’delcombine’ がオンのときには、’x’ は 1 回に 1 文字の結合文字を削除して、最後に基底文字を削除する。入力するときには、まづ 1 文字目を入力して、そして合成文字を入力する。すると、文字が合成される。"r" コマンドを使つて結合文字を入力することはできない。結合文字がさらに入力されるかどうか知ることができないからである。代はりに "R" を使ふ。
{譯注:
combining character | 結合文字 |
composing character | 合成文字 |
base character | 基底文字 |
preceding character | 先行文字? |
}
UTF-8 として不正なバイト列はそれぞれ 1 バイトの文字として扱はれ、<xx> と表示される。この "xx" はそのバイトの 16 進數である。
Overlong sequence に對して特別な處理はされない。通常の文字と同じやうに表示される。Overlong sequence はどんな檢索パターンにもマッチしないかもしれない。
(Overlong sequence とは、文字を表すために必要なバイトよりも多くのバイトでその文字を表現してゐるバイト列のこと。) "<00>" と表示されてゐる NUL(zero) は例外。
{譯注: たぶん、"<00>" と表示されてる Overlong sequence だけはたとへ |/\_.| でもマッチしないといふこと。}
ファイルやバッファには、Unicode で表現できる範圍 (31ビット) の文字をすべて書くことができる。ただし、それを表示できるのは使用フォントがその文字を提供してゐる場合のみ。
便利なコマンド:
:set encoding=utf-8 fileencodings=
" とすると、すべてのファイルで UTF-8 を使ふやうに强制できる。’encoding’ を現在のロケールに合はせて設定し、’fileencodings’ によつて自動的にファイルのエンコーディングを判定するやうに設定するのがデフォルトである。
ロケールが UTF-8 の場合、Vim は自動的に UTF-8 モードで起動する。
UTF-8 以外のロケールを使つてゐる場合はこのやうにする:
set encoding=utf-8
メニューに使はれるフォントを變へる必要があるかもしれない。殘念ながら、これはいつもうまくいくとは限らない。システムに依存する說明は下記、または ’langmenu’ を參照。
Note:
この項は GTK+ 2 GUI には當てはまらない。
使用するフォントを選擇する必要がある。全角文字を表示するにはさらに別のフォントが必要。設定するには次の 3 つの方法がある:
詳細は各オプションの說明を參照。例:
:set guifont=-misc-fixed-medium-r-normal--15-140-75-75-c-90-iso10646-1
メニューで使用されるフォントも變更することができる。これは Motif でのみ機能する。":hi Menu font={fontname}
" コマンドを使つて設定する。|:highlight|
X-Window を使つてゐるなら、UTF-8 をサポートしてゐるインプットメソッド使用する。
システムが UTF-8 の入力をサポートしてゐない場合でも、’keymap’ を使つて入力することができる。ASCII 文字を複數入力することで UTF-8 の文字を入力するやうなキーマップファイルを作ることができる。|mbyte-keymap| を參照。
他にも、XIM を利用することができる言語に、ロケールを設定する方法がある。その場合は、’termencoding’ をその言語に設定する。Vim は入力された文字を ’termencoding’ から ’encoding’ へ變換する。
すべての方法が使へなくても、4 文字の 16 進數で文字コードを直接入力することができる:
CTRL-V u 1234
"1234" は 16 進數として解釋される。正しく 4 文字を入力しなくてはいけない。必要であればゼロを前置する。
|f|, |F|, |t|, |r| のやうなコマンドは 1 つの文字を引數に取る。UTF-8 では 1 文字か 2 文字の合成文字の場合がある。Vim は合成文字の入力かどうかを調べるために次の入力を待つたりはしないため、合成文字は基底文字と同時に入力する必要がある。そのやうな文字は ’keymap’ や |:lmap| を使ふと簡單に入力することができる。
行內檢索をするコマンド {譯注: |f| など} は合成文字を次のやうに處理する。非合成文字を檢索するときは、合成されてゐる文字とされてゐない文字の兩方がマッチする。合成文字を檢索するときは、合成文字だけがマッチする。すべての人が合成文字を入力できるわけではないので、このやうになつてゐる。
{譯注: 例へば、か(U+304B) + 濁點(U+3099) といふ合成文字は "fか" でマッチする}
これらのオプションはマルチバイトテキストのファイルの編輯に關係する。詳細は options.txt の說明を參照。
’encoding’ | キーボード入力や表示に使はれるエンコーディング。これは新規ファイルのエンコーディングの初期設定でもある。 |
’fileencoding’ | ファイルのエンコーディング。’encoding’ と違ふ場合、ファイルの讀み書き時にエンコーディングが變換される。 |
’fileencodings’ | ファイルに使ふことができるエンコーディングのリスト。ファイルを開くとき、リストの先頭から順番に變換を試して、エラーが起きなかつた最初のものが ’fileencoding’ として使はれる。 |
’charconvert’ | あるエンコーディングから別のエンコーディングへファイルを變換する式。 |
’formatoptions’ | このオプションにフラグ ’m’ を含めると、フォーマット時に、(文字のコードが 256 以上の) マルチバイト文字のところで改行することができる。これは、どこでも改行することができる言語を編輯するときに便利である。 |
’guifontset’ | マルチバイトエンコーディングの文字に使ふフォントのリスト。このオプションが設定されてゐれば ’guifont’ の代はりに使用される。 |
’keymap’ | キーボードマッピングの名前を指定する。 |
マルチバイト機能は、特に以下の方々の貢獻による:
Chi-Deok Hwang <hwang@mizi.co.kr> | |
SungHyun Nam <goweol@gmail.com> | |
K.Nagano <nagano@atese.advantest.co.jp> | |
Taro Muraoka <koron@tka.att.ne.jp> | |
Yasuhiro Matsumoto <mattn@mail.goo.ne.jp> |