このブログを検索

2016年8月24日水曜日

グロービッシュの元ネタ

グロービッシュの単語集で発音記号からカナ書きへ変換する試みのテストが終わったけど、この単語の集まりの偏り方は気になる。

数字、曜日名、暦月名、等の最重要単語が無いのに、弾丸とかハイジェャクとかの物騒な単語は載っている。何故なのだろう。

そして、今日、その理由が分かった。Globish1500語の元ネタはVOAのSpecial Englishにある単語らしいのだ。VOAとはアメリカのラジオ放送で、英語を母国語としない人々にもニュースを届けるべく、使う単語を1500語に制限した番組も提供している。

その単語集 Word Book をネット上に見つけて、Globishと見比べたら、数字、曜日名、暦月名、等は巻末に Special Words and Information という項目があって そこに纏めて書かれていた。

そして、本体の単語集には 弾丸もハイジェャクも 載っているのだ。

興味があるから、Word Book と Globish を統合した単語帳を作ろうと思う。公開している Globish のファイルに新しいシートを付け加えて入力するので、作業中の様子も分かるだろう。

2016年8月22日月曜日

半角カタカナを利用する

英語発音のカナ書きで解決していないのが「アクセントの有無の表示」をどうするか、という問題だ。細かな音の違いよりも、正しいアクセントで話した方がよっぽど通じる、という話を良く耳にする。

アクセントのある音節をボールド体にするとか、アクセントの無い音節をイタリック体にするとか、考えて見たけど、そのような文字飾りはテキストファイルからは抜け落ちるし、カナにはイタリック体は無さそうだし、短い単語だとほぼ全部がアクセントのある音節だから、ボールド体ばかりになってしまうし、良い解決策とは言えない。

それで、アクセントの無い音節は半角カタカナで表すのはどうだろうか、と考えて見た。それなら文字コードで区別出来るし、日本語入力の機能には半角カタカナへの変換が備わっている。

しかし、「半角カタカナは使うな」との言い伝えが頭にこびり付いているものだから、それで大丈夫なのか考えて見た。

元々は、半角カタカナは 1 byte (=8bit) のデータでカナを表す仕掛けだった。英数字と記号、それに制御コードを入れても 7 bit あれば足りて、 8bit の空間がまだ半分 (=128文字) 空いているのだから、漢字は無理でも (8 bit目を 0 にすれば制御コードと重なるエリアは避けて利用するから 実際には使えるのは 128 文字よりも少なくて) カナだけなら 何とかそこに押し込められる。

銀行の通帳に印字される文字が未だにカナなのもその当時の名残りである。しかし、欧米の通信システムなど、日本の事情などにはお構いなしに、7bit のデータを扱えれば十分ジャネ…とか言って、残り 1 bit をパリティビットに勝手に使ったりして電子メールシステムで 8 bit のデータは送ると文字化けする可能性があった。

そこで、日本語の電子メールシステムでは 7bit にデータが収まるように漢字コードを変換させてやり取りする規格を作ったのだが、そこに半角カタカナは入れて貰えなかった。それで、「電子メールで半角カタカナは使うな」 という格言が生まれたのだ。

しかし、時代は移り変わり、今や「半角カタカナ」は 1 byte のデータではなく、ユニコードに定義された文字群の一つとなった。だから、こうしてブログの投稿で発音記号の[æ]を問題なく扱えるのと同じく[ハンカクカタカナ]も問題なく扱える訳だ。(電子メールだと問題あるが)

だから、これからは「半角カタカナ」も積極的に使うことにする。全角カタカナへの変換キーには Shift + CapsLock(F14) を割り当てていたので、半角カタカナへの変換キーには Shift + Tab を割り当てて見た。抜群に使いやすい。

2016年8月19日金曜日

ローマ字テーブルのテスト

Globish1500語を使って、カスタマイズした Google日本語入力のローマ字テーブル をテストした。カタカナ語の入力が楽になるように、かつ、日常の日本語の入力も問題なく出来るように考えて作ったので、こうやってブログの記事を書くのにもカスタマイズ版を使っている。

このカスタマイズ版を使い始めて、通常の日本語の入力でもこれは便利と思ったのが n を一度押しただけで「ん」が入力され、r を一度押しただけで「ー」が入力されること。「ん」を入力するのに nn と押す癖はもうなくなった。(nn が「んん」になってしまうから)

テストは、Globish1500語のリストに発音記号と対応するカナを加える事で行う。アクセントの無い音節は半角カナで表現した。元のリストは1500語丁度だったけど、同じ綴りでアクセントと発音が異なる単語は別の単語扱いをしたので11語増えて1511語になった。

スプレッドシート形式にした[Globish&VOAwordbook]を公表する。単語のリストにも著作権は認められるのだが、これはGlobishの創始者が無料で公開しているものを利用しているので問題はないと思う。
後日談: Globishに加えて、VOA Special English Word Book という単語集にある単語を追加した。
このリスト中の単語の文字総数は8062字、そのカナを入力するのに要したアルファベットの総数は245文字減った。

これは、普通のローマ字変換では子音字を入力するのに有りもしない u とか o とかを打つ必要がある(例: supureddosi-to 「すぷれっどしーと」…カスタマイズ版でも変換可能)のに対して、カスタマイズしたローマ字変換ではそれが不要(spreddsirt 「すぷれっどしーと」)である事が大きい。

そして、英語の綴りと入力文字が完全に一致するものが141語もある。又、c x も使うと一致する率が更に向上するのだが、発音記号との対比が分かり難くなる事と 音節のアクセントの有無をカタカナの全角と半角で書き分けるようにしたから、x が使えない場合( k と s を分ける必要が出て来る)もあったので、このリストでは止めておいた。

テスト中に幾つかの問題点を見つけて修正したので、このカスタマイズでかなり完成に近づいたと思う。

2016年8月16日火曜日

私の履歴書 大村博士の巻

今月の日経新聞の私の履歴書は、何億人もの人達を眼病による失明の危機から救うことになった薬の開発に貢献してノーベル賞をもらった 大村智博士 が書いている。

夜間高校の先生から如何にして研究者の道に進まれたのか、についても興味があったので普段よりも一層丹念に読ませて貰っている。

今日の話題は、米国留学中の博士が3年の予定を繰り上げて2年で帰国して北里研究所の教授に就任する事になり、帰国する前に米国の企業を回って、共同研究の契約を纏めた話である。
契約は弁護士やコンサルタントに任せるのではなく、私がメルクのボイド・ウッドラフさんらと一生懸命に内容を詰めた。…辞書と首っ引きでまとめあげたこの契約方式を、米国人は「オオムラ・メソッド」と名付けた。
恐らく、(ノーベル賞を貰えなかった)数多くのエリート大学出身の研究者との大きな差はここにあったのでは無かろうか。 大事な事は人任せにしない、目先の事だけでなく、将来的、そして世界的な視野に立って物事を進めていく事が大切だと思った。

企業経営者の書いた私の履歴書は仕事一辺倒で(6月は松岡修造氏の父が書いていたけど、その息子の話は最終回に少し登場しただけ)面白味に欠けるけど、大村博士の話には家族や趣味の話もちょくちょく登場して面白い。一昨日には、
古美術商に立ち寄ると「日本人か」と聞かれ、そうだと答えると日本画に書いてある文字を読んでくれと頼まれた。3、4回通って全部ローマ字に直すと、「好きな物を持っていっていい」という。本物とわかる喜多川歌麿の作品があったので、偉いこっちゃと思いながらも頂いた。
 とある。これからの話も楽しみだ。

2016年8月9日火曜日

いちじくコンポート

連日暑い日が続く。遠い昔は、冷房は贅沢だと思っていたけど、今や適切な冷房で身を守り、他人に面倒をかけないのは善良なる市民の努めだろう。

外出は気温の高い日中を避けて、日暮れ前にようやく川沿いの遊歩道を散策する。川にはミズスマシが沢山いて、水の流れに逆らって水を蹴り蹴り 何とか同じ位置を保っている。

川には段差のある所に飛び石があって向こう岸に渡れるような場所が幾つかある。そこの飛び石の間は川の流れが速くなっていて、ミズスマシもウカウカしていると下流に流されそうになるけど、その瞬間大きく水を蹴って頑張るので、ミズスマシが流される光景はめったに見られない。大雨の後に流れが早くなった時に一度だけ見かけたきりだ。

しかし、私の頭の中では、急流に向かって流されているミズスマシ=日本国の財政 と思えてならない。流されないように、今は必死で上流に向かって蹴り蹴りしないといけないのに、急流に向かって近づいていく奴。

さて、最近の散歩以外の日中の過ごし方は、カタカナ語の研究とGoogle日本語入力のローマ字変換テーブルをカスタマイズすること。ブログもそればっかりでは飽きるので、先日作ったいちじくコンポートをちょっと紹介。


八百屋で安くなっていたから買った。いちじくは少量だったので2つに割って、白ワイン、砂糖、シナモン、レモン汁、水を加えて煮てみた。豆乳&アカディで作ったヨーグルトに添えて、今晩のデザート。美味なり。

2016年8月7日日曜日

Google日本語入力の動作

ローマ字変換テーブルをカスタマイズしていて、変わった動作を体験したのでメモしておく。

問題の発端は、テスト中のローマ字変換テーブルで Globish1500語 をカナにしたリストを製作中に、dispute [ dɪsˈpjuːt ]という単語の読みを ディスピュート と入力しようとした時の事である。

s → す … OK
sp → すぷ … OK
spy → すぴぃ … OK
spyu → ぴしゅ … あれっ、「すぴゅ」 のはずなのに何で?

pyu → ぴゅ なのに。

変換テーブルを問題箇所に絞って小さくして説明する。

問題の変換テーブルは、促音の定義を使い回しする仕掛けになっていた。つまり、パ行の ぴゃ、ぴゅ、ぴょ は 本体の 「ぴ」 は変化せず、小書きの文字のみが入力 a、u、o に応じて ゃ、ゅ、ょ に変化しているという性質を利用している。

尚、変換テーブルの左の行は入力、真ん中の行は確定した出力、右の行は表示こそされるが、未だ確定せずに次の入力に回される要素になる。

ぃu
s
すyすぃ
すぃuしゅ
p
ぷy

変換テーブルの最初の行では入力 u に対する小書きの ゅ を定義、変換テーブルの最後の行では入力 y により、その後の母音字の入力で促音の小書きとなるようにしている。

しかし、サ行は促音の定義をそれとは別に行っていた。もし定義の使い回しなら、入力が sy まで終わった段階では 「しぃ」 となってしまうが、この時に 「すぃ」 となる必要があったから。
後日談: sy の変換は「すぃ」から「せぃ」に変更した。こちらの方が[si]の音に近いと思われる。それに、「すぃ」だと[swi]の音と解釈される可能性も否定できない。
それで、spy と入力した段階では、表示こそ 「すぴぃ」 となっているが、真ん中の「ぴ」だけが出力されていて、「す」 と 「ぃ」 はまだ入力に残っているのだから、次に u が入力された時に 4行目の定義が適用されて、「しゅ」 が出力され、結果として 「ぴしゅ」 になったらしいのだ。

しかし、私は、s の後に py を入力した段階で 「ぴ」 が確定するから、その時に未確定だった 「す」 も同時に確定するものだと思っていた。そうで無いとすると、何で今迄うまく動いていたのだろう。

とにかく、「ぴ」 が確定した段階でも、「す」 は確定していないのは結果から明らか。そうすると、u を入力した時に、1行目と4行目の定義のどちらも対象になるが、4行目の定義の方になったという事実から考えると、Google日本語入力は「複数の定義が該当する場合には、一番長い定義を選ぶ」という仮説が成り立つ。

因みに、サ行の促音も使い回す形に定義してみると、spyu は 「すぴゅ」 に変換された。

ぃu
s
すy
p
ぷy

しかし、これでは sy は 「しぃ」 になってしまう。それで、促音の定義の使い回しを止めて見ると…。

s
すyすぃ
すぃuしゅ
p
ぷyぴぃ
ぴぃuぴゅ

こんな感じに定義すれば望み通りの動作をした。この調子で他の音の定義もやり直すと変換テーブルの行数が大幅に増えてしまうけど、ローマ字変換するのはコンピュータだから文句は言わないだろう。