このブログを検索

ハングル入力用辞書

説明するのは、こぶり ハングル 辞書 Ver. 1.0

[ハングル文字辞書ファイル]を公開する。(最後の行に辞書のVersion)

使い方

ダウンロードしたハングル文字辞書ファイルを Google日本語入力 の 辞書ツール→管理→新規辞書にインポート としてユーザー辞書に追加する。

Google日本語入力のプロパティで、入力補助 → シフトキーでの入力切替 → 英数字 とする。
これで、最初の文字が英大文字なら かな から 英数 へ自動的に切り替わる。
かな入力の状態で最初のコードのみをシフトを押して英大文字、残りを英小文字にして入力すると、ハングル文字辞書ファイルのリストにあるハングルが変換候補として表示されるのでそれを一文字づつ確定していけばハングルの入力が可能になる。


子音字母母音字母パッチム字母
GXaXg
KkXaeXkk | Xgg
NXyaXgs
DXyaeXn
TtXeoXnj
RXeXnh
MXyeoXd
BXyeXl
PpXoXlg
SXwaXlm
SsXwaeXlb
XXoeXls
JXyoXlt
Jj | CcXuXlp
Ch | CXwoXlh
KXweXm
TXwiXb
PXyuXbs
HXeuXs
XuiXss
XiXng
Xj
Xch | Xc
Xk
Xt

ハングル字母のコードは上記の通り。ハングル文字のコードは、以下の様になる。
  • 母音字 母音字母のコードの最初の X を省き、次の英小文字を英大文字に変えて入力する。例: Xa → A (아)
  • パッチム無しの字 子音は子音字母のコードと同じ、母音は続けて、母音字母のコードの最初の X を省いて入力する。例:G + Xa → Ga (가)
  • パッチム有りの字 子音と母音はパッチム無しの字と同様。パッチムは続けて、パッチム字母のコードの最初の X を省いて入力する。例:G + Xa + Xg → Gag (각)

ハングル入力用辞書とは

日本語の入力には日本語入力メソッドがあるように、韓国語の入力には韓国語入力メソッドがある。これには Windows に元々備わっているものも使えるし、Google Korean Input というものもあるらしい。

しかし、韓国語では もはや漢字は殆ど用いられないから、事実上 ハングルさえ入力出来れば良い。日本語入力のままでハングルが入力出来れば 日本語との混在も楽なのだ。そうすると、日本語の辞書にハングルとその読みを追加する、という方法がある。

Google日本語入力のプロパティで、入力補助 → シフトキーでの入力切替 → 英数字 とすれば、最初の文字を英大文字とするようなリストで辞書を作ればアルファベットの入力に自動的に切り替わる。

そこで、読みは最初の文字が半角アルファベットの大文字残りが半角アルファベットの小文字、という形のアルファベットの綴りのリストを作り、ハングル入力用のGoogle日本語入力の辞書を作る。アルファベットとハングルの対応は「文化観光部2000年式」に基づく

「文化観光部2000年式」は、ハングルの読みをアルファベットで表す韓国政府の公式の方法で、韓国中の案内板に書かれているので 覚えておいて損は無い。但し、これは読みを表す方法なので、入力に使うとなると全く同じには出来ない。

それは、ハングルには母音の後にパッチムと呼ばれる子音が付随する場合があるが、そのパッチムの読みには「異なる子音の字母でも同じ読み」となる場合があり、「文化観光部2000年式」でも異なるパッチムに同じアルファベットが割り当ててある場合があるからだ。例: パッチムの ᆮ ᇀ ᆽ ᆾ ᆺᆻᆻ には全て t が割り当ててある。

そこで、この辞書に於いては、パッチムの入力コードも(母音の前の)子音と同じ入力コードを使うように「文化観光部2000年式」の綴りから変更する。(但し、パッチムの「리을」 リウル ᆯ だけは子音のアルファベット r と異なり l とする。これは「文化観光部2000年式」のパッチムの綴り方と同じ。)

ハングルには、最初の子音が18種類、母音が21種類、パッチムが27種類存在する。そして、その組み合わせでハングルの文字の形が定まるので、理屈では(子音とパッチムは無しの場合も含め)全部で (18+1)*21*(27+1)=11,172種類 のハングル文字が存在する事になる。その中で実際には使われていない文字もあるけど、ユニコードではその全てが定義されている。

Google日本語入力の辞書形式

実は、11,172文字揃った Google日本語入力の辞書用のハングル入力辞書データがネット上に存在していて、有難くダウンロードさせて貰った。

Google日本語入力の辞書形式は、「よみ」 「単語」 「品詞」 「コメント」 の列のある表をTabで区切ったもの(tsv)形式である。品詞は選択肢から選ぶようになっていて、ダウンロードした辞書は全て「名詞」になっていた。又、コメントは含まれていたが、それは無くても構わないようである。

このような定まったデータには著作権は存在しないので、私が自由に改変し、公表するのは問題ない。そこで、「品詞」は「独立語」、[コメント」は無し、最後の行に辞書のVersion を入れたデータとした。

辞書を改変する

まず、ᄎ という子音のコード ch について、c も使えるようにデータを追加する。この ᄎ 以外に c は使われていないから h を入力するのは余計な事だとの判断である。今使っているGoogle日本語入力のローマ字変換でも c が ch と同様に使えるようにしているのと合わせたいという気もある。

これにより、Ch 或いは ch を入力する代わりに C 又は c が使えるが、子音とパッチムで混用することは出来ない。(子音の入力で Ch を使ったなら、パッチムの入力も c を使う必要がある。)

そうすると、濃音 ᄍ の子音のコードが Jj となっている事も気になる。これは、「文化観光部2000年式」の書式ではあるが、他の濃音 ᄁ ᄄ ᄈ が何れも清音のアルファベット Kk Tt Pp を使っているのに ᄍ は濁音のアルファベットなので違和感を感じるのだ。これを Chch と書くのも増長なので Jj にも理解は出来るが、ch を c と表現するのに合わせて Cc も使えるようにデータを追加する。

それから、パッチムには濃音という概念は無いから、ᆩ というパッチムを濃音(kk)と考えるか、単に ᄀ が2つ並んでいるだけ(gg)だ考えるか、どちらも有り得る。従って、このコードはどちらも可能にする。
  • ch を c にしたのが399箇所
  • Ch を C にしたのが588箇所
  • Jj を Cc にしたのが631箇所
  • kk を gg にしたのが463箇所
これらの見出しも加えた。

字母も追加

ハングル文字だけならこれでOKだが、その子音だけ、母音だけ、パッチムだけ、の文字ユニコードで定義されているので、これも欲しい。さっき書いた ᄎ も子音だけの文字なのである。ハングル文字だと 츠 のように必ず母音を含むから、説明上都合の悪い事もあるのだ。

それで、子音、母音、パッチム の字母用のデータも追加した。

子音字母のコードはハングル文字のコード(から母音を除いたもの)と同様だが、子音無しを示す ᄋ (「이응」 イウング という名があるけど) をどうするか悩んだ結果、X にした。

母音字母のコードはハングル文字と同じに出来ない( ᄋ 抜きとするから)ので、頭にXを加えた。

パッチム字母のコードも子音字母のコードと区別する必要があり、頭にXを加えた。