こぶり主義: 2016

2016年12月17日土曜日

メディア・リテラシー

今日の日経新聞の土曜日版プラス1 にまとめサイトなぜ公開中止? という記事があった。

その中でメディア・リテラシーについての説明があり、

たくさんある情報の中から自分にとって必要なものを選び出し、それが正しいかどうかを見極める能力のこと。

という説明があった。そして、その為には、「日ごろから情報をうのみにしないように、色々な角度から物事を見るクセをつけることが大事」なのだと。

鵜呑みという言葉でなるほど、と思った。情報というものは食べ物に例えられるではないか。咀嚼し、よく分解して吸収する必要があるし、それに偏食も宜しくない。

ネット上の情報よりも放送や新聞などのメディアの方が情報の信頼性は高いけど、それだって何時も正しいとは限らない。それに書いてある事が正しくても、書き手にとって都合の悪い事実は隠蔽されている。先の米国大統領選だってトランプ氏有利の情報は抜け落ちていた。

私は英国の国民投票でEU脱退になった件からトランプ大統領の可能性はマスコミが言う程低くはないと思っていた。少なくとも、トランプ氏が共和党の大統領候補になったという事実があるのに、それでもなお泡沫候補扱いしているのは可怪しいのである。

この情報という食べ物の質を良くして、良い食べ方をして、消化吸収能力を高める事と言うのが「教養」というものの本質の半分だろう。残りの半分は情報の発信能力に関する。

そして、この両者の能力はお互いに高め合う事が出来るはずだ。情報には書き手の意思が込められている。自身が書き手でもあれば、情報に込められた意思を汲み取る事(或いは排除する事)もより易くなるものと思う。

2016年11月24日木曜日

ThinkPad 14インチケース

先日、ThinkPad 14インチケースを購入した。

家の近くにコワーキングスペースを発見したので時々利用しようと思った。一度お試しでパソコン持参で行ってみて良かったので続ける積もりになったけど、パソコンの持ち歩きには少々不安がある。そこで、ケースを買おうと思い、Lenovoに注文したのだった。

我が家には2台のThinkPad 14インチパソコンがある。1台は、もう5年以上前に買った T410i で光学ドライブが付いているとは言え、もう1台の T460s に比べてかなり厚い。

購入したケースは、この古い方の14インチパソコンにはピッタリだった。

しかし、持ち歩く予定の新しいパソコンには大き過ぎる。幅は5mm程度、奥行きは1cm程度の違いであるが、厚みの差が大きかったようだ。検索すると、同じように思った人もいたようで、その人は新たに13インチケースも購入してギリギリ入る事を確かめていた。

しかし、折角購入したケースだから私はこれを使う。ブカブカなのを我慢して使うというのでは無い。大きい事を活かし緩衝材を追加してオリジナルなケースにして使おうと思う。購入したケースはウェットスーツのような生地で作られていて、落とした時の衝撃を吸収するには厚みと硬さが足りないからだ。

取り敢えずお試しでプチプチを巻いて見たら丁度よい大きさになった。その内にちゃんとしたものを作ろう。

2016年11月20日日曜日

絨毯を買う

先日、絨毯が我が家にやって来た。リビングにはい草ラグを敷いていたが、寒くなって来たので寝転がって気持ちの良い絨毯を探して買ったのだ。

絨毯は、ウール100%の製品がいいなと思って探していたけど、通常のものは毛が抜けないように裏側にラテックスを塗る事になっている。それは嫌だと思っていたが、手織りの製品にはラテックスを使わないものがある。

良いものを少なめに、という方針の「こぶり主義」の私が見つけたのは、ハグみじゅうたんというブランドで、売っている会社の名前はコブリン株式会社という名前だった。読みだけでなく、そのアルファベットも私が使っている COBLI に N が加わっているだけの違い。私が言うのも可笑しいけど、普通なら KOBURIN と書くはず。

この偶然の一致には運命を感じた。会社の理念にも賛同出来るし、アジアの何処かの国の生産者の手間賃に繋がるのも嬉しい。きっと私はこの絨毯を買う。

ネットの情報からは良い物である事がヒシヒシと感じられたのだが、高価な物だし実際に確かめて見たい。幸いにも近くに取扱いの店があり、夫婦で早速行って見た。

買うからには最上の物を、と思って事前には「ておりシリーズ」という製品を買う気になっていた。しかし、現物を見てみると「てざわりシリーズ」の製品がいいなと思った。こちらの方は厚みがあり、寝転がった時のクッション性が優る。値段も約半分だし。それに「ておりシリーズ」の縁は縦糸を出して装飾的に処理されているからホコリが絡みつきそうだ、との妻の意見も。

そうすると、後は柄の選択になる。決めかねているとお店の人が来週ハグみじゅうたん展というものを開催して全種類展示します、その時買うと滑り止めマットがオマケで貰えます、と教えてくれた。

それで翌週再び店にやって来た。ネットやカタログでは黄色っぽいのだが実際は抹茶ケーキそっくりの色が気に入った。やはり実際に見てみるのは大切である。妻が折れて私のお気に入りを買うことに決定。

そして、これが我が家にやって来た絨毯。サイズも丁度良かった。

2016年11月11日金曜日

トランプ氏選んだのは案外正解かも

米国大統領選は実に興味深かった。当選が決まった後の最初のドナルド・トランプ氏の演説が至極真っ当だったので、恐らく多くの人が「あれっ」と思ったに違いない。

要するに、選挙期間中の過激な発言は彼の作戦だったのだ。言っていることの全てが本心では無いはず。大統領になるために取った巧妙な作戦であり、選挙結果が彼の構想力や人心掌握力や行動力がヒラリー・クリントンよりも優れていた事を証明している。

マスコミはトランプを支持しない。でも、それは彼の暴言が理由だけとは言えない気がする。トランプは支配階級から政治献金を貰ってないから、支配階級のコントロールが効かない大統領になる。それでは支配階級もマスコミも困るのである。

オバマの理想は高かったけど議会のねじれで結局は力を発揮出来なかった。しかし、トランプは支配階級の影響も無いし、議会も共和党が多数だから思い切った政策を実行出来る状態にある。後世、名大統領だったと呼ばれる可能性も無くはない。

少なくともブッシュ2世よりはマシだと思う。無謀な戦争を開始したのも石油の利権がらみだったと聞くが、トランプは経済の為と言いながら軍縮を推進するかも知れない。ロシアや中国と無闇と対立しないのもそういう思惑があっての事かも知れない。

クリントンを選べば今と何も変わらないだろう、との予想は誰でも付く。一方、トランプなら必ず変わるはずだと皆思っている。良い方か悪い方かは分からないけれど。

2016年10月26日水曜日

日経の悪文から文法を考える

日経新聞の今朝の「朴大統領、友人に内部文書」という記事の文章について。

記事を読んでいると次の文章に違和感を覚えた。

疑惑は韓国のテレビ局JTBCが伝えた。海外にいる崔氏がパソコンの処分を依頼した関係者からパソコンを入手し、データを分析した結果、2014年3月にドイツで北朝鮮政策のロードマップを示した演説の草稿など文書44件を発表前に受けとっていたと報じた。

この後ろの文だけを素直に読めば、「パソコンを入手」と「データを分析」と「報じた」主格は「崔氏」である。但し、「パソコンの処分を依頼」したのが誰かについては疑問が残る。「崔氏」とも考えられるが、内容から考えて自分が処分を依頼したものをわざわざ入手するはずもないから、この文では明示されてないが別の人物であろう、と推測出来る。

しかし、2つの文の内容から考えて、後ろの文は、主格は明示していないが「テレビ局JTBC」であるべき文といえる。つまり、次のように括弧書きして「崔氏が」という節を文全体に掛からないようにすると記者の意図どおりに解釈出来る。

改善例その1: (海外にいる崔氏がパソコンの処分を依頼した)関係者からパソコンを入手し、データを分析した結果、2014年3月にドイツで北朝鮮政策のロードマップを示した演説の草稿など文書44件を発表前に受けとっていたと報じた。

又、主格を明示する事でも解決する。

改善例その2: JTBCは、海外にいる崔氏がパソコンの処分を依頼した関係者からパソコンを入手し、データを分析した結果、2014年3月にドイツで北朝鮮政策のロードマップを示した演説の草稿など文書44件を発表前に受けとっていたと報じた。

文から主格に読める部分を無くしてもOK。

改善例その3: 海外にいる崔氏にパソコンの処分を依頼された関係者からパソコンを入手し、データを分析した結果、2014年3月にドイツで北朝鮮政策のロードマップを示した演説の草稿など文書44件を発表前に受けとっていたと報じた。

以上の改善例から考えて、日本語の文法には、

日本語では、文脈で分かれば主格はなくても文として成立する。しかし、主格の無い文を書いた積りでも、主格が置かれる位置に「～が」を置くと主格と判断される。

という性質があるものと考える。括弧書きを使えば正しく解釈出来るのは、括弧書きの中身はもはや文の構成要素ではなく、関係者という言葉を修飾するだけの存在であると示せたからである。即ち、括弧内に～がという分節があっても決して文全体の主格とは判断されない。

話し言葉では括弧を視覚的には表示出来ないが、口調を変える事で同様の効果が見込める。複雑な文章は、括弧書きをもっと活用して分かり易く書くべきだろう。

2016年10月23日日曜日

CDラジオを外付けスピーカーに改造

これは2回目の改造になる。最初の改造では、現在は[テレビに繋いである外付けスピーカー]を繋いでいた。

テレビで音楽も聞くようにしてからCDラジオの方は使わないままになっていたが、家の中どこにでも持ち運び好きな所で聞きたくなって復活させようと思った。

オーディオ雑誌付録のスピーカーを買って持っていたけどスピーカーボックスを作るのが面倒でそのままになっていた。取り敢えず聞けるようにして、ちゃんとしたスピーカーボックスを作る気を起こさせようとの思惑もある。

改造の目玉はスピーカーを分離出来るようにすること。CDラジオとスピーカーが繫がったままだと持ち運びに不便だから。

CDラジオは確か4千円以下でスピーカーも雑誌の値段は3千円程度、だからスピーカーを分離させるのにも高いスピーカー用の端子を使わない方法を考えて見た。RCA延長ケーブルを1本購入(515円)、それを切ってCDラジオ側とスピーカー側のケーブルとして使う事にする。

CDラジオのスピーカーへの配線を外してRCA延長ケーブルのメス側端子へと繋ぐ。

ハンダ付けはいつものようにキッチンで。赤い(Red)のが右側(Right)用。RがRと記憶。

全体はこんな感じ。スピーカーボックスはスピーカーの入っていたダンボール箱の改造だけど、これでも結構良い音がする。ボーズの何万円もするCDラジオよりは良い音だと自己満足。その内にちゃんとしたボックスを作ろうとは思っている。

スピーカーの理論

RCAケーブルは信号用のケーブルで、スピーカーケーブルとして使うようなことは通常しない。それは線が細くて電気抵抗が大きいから。だから今回の改造で問題が無かったのか検証してみたい。

そもそもスピーカーとは電気信号を音に変える器具。音とは空気の振動で、電流で振動板を前後に動かして空気を振動させる。それを機械的に分析すると、錘とバネの振動系である。振動板の重さが錘で、無入力時に振動板を中立の位置に保つのがバネの役目。

しかし、そういう振動系があることで不要な振動が発生し、それが音質を悪化させる。車に例えれば、車の重さが錘でサスペンションがバネとなり、不要な振動で乗り心地が悪化する。車にはその不要な振動を抑える為にショックアブソーバーという機構がある。

スピーカーには不要な振動を抑える特別な機構は無いが、スピーカーの構造自体にその機能を有している。それを活かすか殺すかはスピーカーケーブルの電気抵抗とアンプの内部抵抗が決める。

モーターが発電機にもなるように、スピーカーの振動板も振動をすれば発電することになる。発電機に負荷をかけると回すのに要する力が増えるように、スピーカーも負荷をかければ不要な振動を妨害する力が掛かる。

最も大きな負荷はスピーカー端子の両端をショートすること。そうすると、余計な振動で生じる起電力でコイルに流れる電流が最も大きくなる。その時、コイル自体の持つ抵抗値で電流の大きさが決まる。つまり、それを不要な振動の抑制力の最大値として、コイルの抵抗以外の抵抗が増えるほど抑制力が低下する。

例えば、コイルの抵抗値と同じ大きさの外部抵抗があれば抑制力は半分になるが、1/10なら1割低下する程度と言える。それぐらいなら聞いても違いは殆ど分からないのでは無かろうか。

ダンピングファクターの話

アンプの内部抵抗を表す数値にダンピングファクターという値がある。これは基準の抵抗値(8Ωか4Ω)をアンプの内部抵抗値で割った値で、この値が大きい程内部抵抗が小さい事を示す。現代のアンプでは100以上あって当たり前。

アンプというのは、入力電圧の増幅率倍の値が出力電圧になるように調整する装置と言える。出力端子に外部から電流(I)が流れ込んで来た時に生じる電圧(E)から、内部抵抗(R)は R=E/I と計算される。アンプが理想的に動作し、如何に外部から電流が流れ込んで来ても忠実に入力電圧の増幅率倍の値を保っているならば R=0 である。

現代のアンプはこれをフィードバック制御によって実現する。出力端子の増幅率分の一の電圧が入力電圧と一致するように出力端子に流れ込んでくる電流を吸い込んでやるのだ。

ケーブルの抵抗値見積もり

スピーカーの仕様書では、コイルの直流抵抗は5.7Ωである。音質に与えるアンプの内部抵抗はコイルの直流抵抗値からみて無視できる程小さいはずで、スピーカーケーブルの抵抗値もこのコイルの直流抵抗の1/10以下なら問題無いと考えている。

それで購入したRCAケーブルの抵抗値を調べようとしたが、ネット上にはデータが無かった。実際に測定出来れば良いのだが、低い抵抗値を正確に測定するには4端子法で測定出来る測定器が無いと無理。

そこで、ケーブルの断面積から抵抗値を見積もる事にする。RCAケーブルの構造は、細い芯線があって、その周囲をGND側の線で完全に覆っている。従って、外側の線の断面積は芯線よりも圧倒的に太いので、芯線の抵抗値のみ見積もれば十分である。

さて、その芯線は細い銅線の束で、それを4つ重ねて太さを測ると約1mmだった。そこから面積を計算すればπ*0.5*0.5/4平方mm。細い銅線の集まりで間に隙間があるから実質的にはその半分とすれば約0.1平方mmと計算出来る。ワイヤーの規格で調べると、これは約0.18Ω/m位になる。RCAケーブルは1.5mあるから、0.27Ω位と計算出来る。

外側の線とアンプの内部抵抗は無視出来る程小さいのでトータル0.27Ωとすると、コイルの直流抵抗の約1/20なので問題は無いと結論出来る。

ケーブルの長さを短くすれば更に抵抗値を下げられるけど、短いとスピーカーの配置に制約が増える。今の長さでも抵抗値が十分小さいと結論出来たから、長さはこのままにする。

2016年10月21日金曜日

給与振り込み額を間違えた

昨日は給料日だった。

厚生年金の標準報酬月額の下限が改定され、新区分が出来て、私は旧第1級(98,000円)から新1級(88,000円)になる。その分保険料は下がり、手取り額は増える。

改定後の新第1級に該当する厚生年金保険被保険者には10月中に管轄の年金事務所より事業主に改定通知書を送る予定、となっている。

10月中って遅いなあ、まだ通知書が来てないのに今日は給料日だぜ、と思いながら新しい給与振り込み額を計算して振り込んだ。そして、通知書が遅いのをネタにブログを投稿しようと思って書類を見直したら、10月1日より改定されることになっていた。ん、10月分の引き落としは11月のはず?

つまり、私は間違えていた。例年9月分から保険料率が改定されるので、10月の給与振り込み額が変わる。それと同時ではなく、1ヶ月遅れで新区分が出来る。だから、9月までの振込額と10月の振込額、11月以降の振込額は全て異なるのが正しい。つまり、正しくは 9月:42,086円、10月:41,912円、11月:42,821円となる。

しかし、今月の給与振り込み額を11月からの金額にしたから 909円多く振り込んだ事になる。だが、心配は要らないのだ。多く振り込んだ金額は会社への貸付金を返して貰ったことに会計処理すれば良い。

つまり、振り込んだ金額(42,821円)は変えられないけど、それは給与(41,912円)+借入金の返済(909円)ということにして、給与の振込額は本来の正しい値だった事にする。それには、以下の様な仕訳をすればよい。

年月日	借方金額	貸方金額	適用
2016-10-20	54,200		役員報酬
2016-10-20		42,821	普通預金
2016-10-20		12,288	社保預り金
2016-10-20	909		役員からの借入金

処で、給与の支払日と社会保険料の控除の関係はどうなっているのか? 遡って、自家用法人を設立した当初の法人口座の貯金通帳を見てみると、

給与は会社設立した当月から支払っている。
初回給与では社会保険料を控除していない。
二回目の給与から社会保険料を控除している。

という様になっていた。これは法律に基いている。

厚生年金保険法第八十四条第一項及び健康保険法第百六十七条 第一項(但し、又は船舶の部分は無し)

事業主は、被保険者に対して通貨をもつて報酬を支払う場合においては、被保険者の負担すべき前月の標準報酬月額に係る保険料（被保険者がその事業所又は船舶に使用されなくなつた場合においては、前月及びその月の標準報酬月額に係る保険料）を報酬から控除することができる。

我が自家用法人では給与を月末締めの当月20日支払い、としている。つまり給料日から月末までの分は先払いという事である。中小企業では翌月支払いの方が多いかも知れないが、前に勤めていた会社では当月支払いだったし、大手企業ではそれが常識だろう。それに当月支払いの方が会計が楽だ。翌月支払いだと、未払い給与を負債として計上する必要があるからだ。

結局、給与を当月支払いにしているから、法律に基づき、10月の社会保険料は11月に支払われる11月分の給与から控除しなければならない、のである。(給与が翌月支払いの会社であれば、10月の社会保険料は11月に支払われる10月分の給与から控除しなければならない。)

2016年10月15日土曜日

29戸のマンションを売る見識

週末には新聞にも沢山の新築マンションのチラシが入る。

区分所有という形態には重大な問題があると信じているから、マンションを所有する気はなく、賃貸で我慢というか満足というか、そんな気分でいる。しかし、どんなマンションが売られているのか興味もあるので、その新聞折込のチラシを見てみる。

そうすると、この界隈の新築マンションは総戸数が29戸のものがとても多い事に気付く。ここの学区では、「30戸以上の住宅開発を教室不足などが解消するまで抑制します。」という状態なのだった。

しかし、29戸なら建てられるからと言って、沢山作れば規制も無意味となってしまう。そのマンションを買った人達の子供が皆私立学校に行くと言うなら問題無いのかも知れないが。

そんなマンションを作っても、儲かりさえすれば、後はマンションを作ったが為に地区の教育環境が悪化しようが、買った人達とその子供が教室不足の悪い教育環境に晒されようが、知らんぷり。しかも、それらを一流企業と呼ばれているマンション業者が建てている。

社会的にあまり良くない行為だろうとは思うけど、しかし、業界の競争が激しくてそうでもしないと会社が存続出来ないのだから仕方がない、と経営者は弁明するかも知れない。だが、そんな主張を許すのが今の社会ではなかろうか。

社会的に見て宜しくない商品とサービスでも、合法で経済効果があれば歓迎、という態度が今の政権と私は思っている。しかし、そんなものでGDPを嵩上げしなくても、(宜しくない商品とサービスを全て無くして)マイナス成長でも国民は生活出来るはずだ。

無意味な仕事を無くして、その労働力を意義のある仕事に振り分ければ、所得は下がろうとも国民は今より豊かな時間を過ごせるはずなのだが。

2016年9月28日水曜日

焼きリンゴを作る

お買い得のりんごを買ったが、少しボケたりんごだった。それで、煮りんごにしてヨーグルトのトッピングにして味わっていたけど、まだまだ沢山あったので、今度は焼きリンゴにした。

ネットでレシピを調べ、電子レンジ+オーブントースターで作ることに決定。りんごは二つ割りにして高さを抑えるようにアレンジして見た。

芯はギザギザスプーンでくり抜いて、砂糖とバターを少々載せて電子レンジで適当に温める。おっと、りんごの皮に穴を開けるのを忘れていた。爆発したら嫌だから、バターが溶けた処で裏返してフォークでしつこく穴を開けて再度加熱。穴からりんごジュースが汗のように吹き出てくる。

適当な処でオーブントースターに移して10分程焼く。途中でサーモスタットが働いたから焼いた時間は3～4分は短いかも。

そして、シナモンを少々。完成。

冷ましてから試食。初めてのやり方だけどうまく出来た。りんごの甘さが凝縮して美味い。今度は砂糖無しで作ってみようと思う。

2016年9月21日水曜日

ハングル用の辞書を作る

最近、妻と一緒に韓国ドラマを毎日のように見ている。

以前、韓国語の勉強をした事があって語学の勉強の積りで付き合って見るか、という態度だったけど、韓国と日本の文化の違いや同じ点を発見したり言葉だけでなく、色々と興味が湧く。

確かに、取り箸を使わずに銘々が自分の箸を鍋に突っ込んだり、女性が立て膝だったりしてあれっと思う事もあるが、家の中でも靴を脱がないような欧米のドラマとは違って、殆どの場面で文化面でも心情面でも日本人には全く違和感なく受け入れられる。単に喋っている言葉が異なるだけである。

それで、また韓国語の勉強をやってみたくなった。字幕に頼らずに聞いて分かる部分がちょっとでも増えれば楽しいから。

ハングル入力

私は地道に単語を覚えたりする事は苦手だが、色々と仕掛けを考えるのは大好きだ。韓国語を勉強するとなると、ハングルをパソコンで書けるようにして置きたい、と思って色々と調べた。

日本語の入力には日本語入力メソッドがあるように、韓国語の入力には韓国語入力メソッドがある。これには Windows に元々備わっているものも使えるし、Google Korean Input というものもあるらしい。

しかし、韓国語ではもはや漢字は殆ど用いられないから、事実上ハングルさえ入力出来れば良い。日本語入力のままでハングルが入力出来れば日本語との混在も楽なのだ。そうすると、日本語の辞書にハングルとその読みを追加する、という方法がある。

読みは最初の文字が半角アルファベットの大文字、残りが半角アルファベットの小文字、という形をとり、アルファベットとハングルの対応は「文化観光部2000年式」に基づく。

「文化観光部2000年式」は、ハングルの読みをアルファベットで表す韓国政府の公式の方法で、韓国中の案内板に書かれているので覚えておいて損は無い。但し、これは読みを表す方法なので、入力に使うとなると全く同じには出来ない。

それは、ハングルには母音の後にパッチムと呼ばれる子音が付随する場合があるが、そのパッチムの読みには「異なる子音の字母でも同じ読み」となる場合があるからだ。そこで、パッチムの入力コードも母音の前の子音と同じ入力コードを使うように変更する。

ハングルには、最初の子音が18種類、母音が21種類、パッチムが27種類存在する。そして、その組み合わせでハングルの文字の形が定まるので、理屈では(子音とパッチムは無しの場合も含め)全部で (18+1)*21*(27+1)=11,172種類のハングル文字が存在する事になる。その中で実際には使われていない文字もあるけど、ユニコードではその全てが定義されている。

実は、11,172文字揃った Google日本語入力の辞書用のハングル入力辞書データがネット上に存在していて、有難くダウンロードさせて貰った。しかし、これには著作権は存在しないので、私が自由に改変して公表することも出来る。

辞書を改変する

まず、ᄎ という子音のコード ch について、c も使えるようにデータを追加する。この ᄎ 以外に c は使われていないから h を入力するのは余計な事だとの判断である。今使っているGoogle日本語入力のローマ字変換でも c が ch と同様に使えるようにしているのと合わせたいという気もある。

この改変で検索と置換機能で ch を c に変えるだけなら簡単だが、そうすると ch は使えなくなるのでちょっと困る。だから、c 又は C を含んだ行を抜き出してコピーした上でコピーした行の ch を c に、Ch を C に置換しなければならない。

ダウンロードした辞書はGoogleスプレッドシートに入力して加工。コードの先頭にある Ch はソーティングで集まるからコピーは簡単に出来るが、パッチムの ch はコードの先頭には無いから検索で見つけ、その行をコピーし、コピーした行の ch を c に置換する、という作業は手作業になる。それで、幾つかやってみてこれでは駄目だと悟った。

それで、簡単に出来るように考えた。要は、c と C を含む行に何か印を付けてそれでソーティングすれば全部が集まるから、コピーして置換するのは一回の操作で済む。

それで、列を一つ増やして、=regexmatch(A1,"[cC]") という関数を一行目に書いた。これを列の最後までコピーすれば、2行目は =regexmatch(A2,"[cC]") というように自動的に数字が置き換えられている。

これで、A列にあるハングル文字コードに c 又は C が含まれている場合は TRUE、含まれてなければ FALSE、という値となり、これでソーティングして、行をコピーし、966行が増えた。因みに、ch を c にしたのが399箇所、Ch を C にしたのが588箇所になる。作業後に関数の列は削除した。

字母も追加

ハングル文字だけならこれでOKだけど、その子音だけ、母音だけ、パッチムだけ、の文字ユニコードで定義されていて、これも欲しい。さっき書いた ᄎ も子音だけの文字なのである。ハングル文字だと 츠 のように必ず母音を含むから、説明上都合の悪い事もあるのだ。

それで、子音、母音、パッチムの字母用のデータを作った。

G	ᄀ	独立語	1100
Kk	ᄁ	独立語	1101
N	ᄂ	独立語	1102
D	ᄃ	独立語	1103
Tt	ᄄ	独立語	1104
R	ᄅ	独立語	1105
M	ᄆ	独立語	1106
B	ᄇ	独立語	1107
Pp	ᄈ	独立語	1108
S	ᄉ	独立語	1109
Ss	ᄊ	独立語	110A
X	ᄋ	独立語	110B
J	ᄌ	独立語	110C
Jj	ᄍ	独立語	110D
Ch \| C	ᄎ	独立語	110E
K	ᄏ	独立語	110F
T	ᄐ	独立語	1110
P	ᄑ	独立語	1111
H	ᄒ	独立語	1112

Xa	ᅡ	独立語	1161
Xae	ᅢ	独立語	1162
Xya	ᅣ	独立語	1163
Xyae	ᅤ	独立語	1164
Xeo	ᅥ	独立語	1165
Xe	ᅦ	独立語	1166
Xyeo	ᅧ	独立語	1167
Xye	ᅨ	独立語	1168
Xo	ᅩ	独立語	1169
Xwa	ᅪ	独立語	116A
Xwae	ᅫ	独立語	116B
Xoe	ᅬ	独立語	116C
Xyo	ᅭ	独立語	116D
Xu	ᅮ	独立語	116E
Xwo	ᅯ	独立語	116F
Xwe	ᅰ	独立語	1170
Xwi	ᅱ	独立語	1171
Xyu	ᅲ	独立語	1172
Xeu	ᅳ	独立語	1173
Xui	ᅴ	独立語	1174
Xi	ᅵ	独立語	1175

Xg	ᆨ	独立語	11A8
Xgg	ᆩ	独立語	11A9
Xgs	ᆪ	独立語	11AA
Xn	ᆫ	独立語	11AB
Xnj	ᆬ	独立語	11AC
Xnh	ᆭ	独立語	11AD
Xd	ᆮ	独立語	11AE
Xl	ᆯ	独立語	11AF
Xlg	ᆰ	独立語	11B0
Xlm	ᆱ	独立語	11B1
Xlb	ᆲ	独立語	11B2
Xls	ᆳ	独立語	11B3
Xlt	ᆴ	独立語	11B4
Xlp	ᆵ	独立語	11B5
Xlh	ᆶ	独立語	11B6
Xm	ᆷ	独立語	11B7
Xb	ᆸ	独立語	11B8
Xbs	ᆹ	独立語	11B9
Xs	ᆺ	独立語	11BA
Xss	ᆻ	独立語	11BB
Xng	ᆼ	独立語	11BC
Xj	ᆽ	独立語	11BD
Xch \| Xc	ᆾ	独立語	11BE
Xk	ᆿ	独立語	11BF
Xt	ᇀ	独立語	11C0
Xp	ᇁ	独立語	11C1
Xh	ᇂ	独立語	11C2

表はGoogle日本語入力の辞書に合わせて、一列目は文字コード、二列目は文字、三列目は品詞、四列目はコメント、になっている。品詞は全部「独立語」とし、コメントにはユニコードの番号を16進数で書いた。

子音のコードはハングル文字のコード(から母音を除いたもの)と同様だが、子音無しを示す ᄋ (「이응」イウﾝｸﾞという名があるけど) をどうするか悩んだ結果、X にした。

母音のコードはハングル文字と同じに出来ない( ᄋ 抜き)ので、頭にXを加えた。

パッチムのコードも子音のコードと区別する必要があり、頭にXを加えた。

これでOKと思いきや、実際にGoogle日本語入力の辞書にインポートしてみると、何故か最後の行が入力されていない。バグなのか仕様なのか不明だが、辞書の最後にダミーの行を追加する事で回避する。因みに、ダミー行として「こぶりハングル辞書」として置いた。

この改変したGoogle日本語入力用の[ハングル文字辞書ファイル]を公開する。(但し、コメント欄は空白にしてある。)

2016年9月9日金曜日

ローマ字変換テーブル、早くも Ver.2

先日、ほぼ完成と言いながら大幅に変更して、早くも Version 2 となった。

変更したのは、妻からの nn が「ん」にならない代物など使えない、との一言から。自分の理想で変更すると一般の人には使い難いらしい。だから、普通に使う限りGoogle日本語入力のデフォルトの設定と同じ変換結果になるように変更することにした。

それは、自分一人だけで満足しているよりも大勢の人に使って貰えれば、カナ書きについても良い方向に変化していくかも知れないと思ったから。

例えば、/ti/ の表現に「てぃ」が普及しているけど、/si/ の表現は未だに「し」のままで、このままでは sit と shit の区別が付かない。それは rice と lice の取り違え以上に危険なのだ。

未だ普及しないのは、内閣告示の「外来語の表記」というガイドラインに「てぃ」はあるけど、「し」に代わる表現の記載が無いのが原因だと私は思っている。

一部の人は、その表現に「すぃ」を使っているけど、私は「せぃ」を推したい。例えば、「すぃーと」と書いて、sweet なのか seat なのか、「すぃ」なら分からないけど、「せぃ」ならば、「すぃーと」と「せぃーと」に書けるから区別は付く。

/ti/ が「てぃ」という表現になったのは、単に「つ」が /t/ とは異なる音価なので使えないという理由よりも「え」の段と「ぃ」の親和性によるものだと思っている。

そして「すぃ」が一般化する前に、このローマ字変換テーブルが普及していれば「せぃ」の表現を定着させる事が出来るかも知れないと期待する。

カナ書きに適する

さて、Google日本語入力のデフォルトの設定では、「てぃ」の入力方法は thi と t'i の2通りが提供されているが、「すぃ」や「せぃ」の入力方法は提供されず、「す」や「せ」の後に小書きの「ぃ」を自分で加えるしか無い。

その点、私のローマ字変換では、「てぃ」は ty 「すぃ」は swi 「せぃ」は sy と綴るようにしている。英語に於いては、y や w が i や u の代わりを務める場合があるからこの綴りは覚えやすいし、必要なキーの数も少ない。

その他、カナ書きに適する様々な仕掛けを加えたのだが、それでも普通の日本語を入力する使い勝手が同じなら一般の人には魅力が無いだろう。だから、Ver.2 では普通の日本語でも使いやすい点を増やした。

普通の日本語でも使い易い点

まずは、「ん」の入力方法を改善する。今迄は n を一回押すだけで「ん」が入力出来るようにして満足していたけど、その後に母音や「や」行のカナが来る場合に、余分に ' を入れる必要があって面倒だ。やはり、「ん」専用のキーが欲しいので l を割り当てる。 l は押しやすい位置にあり、頻度の高い「ん」の入力には最適だ。l を /r/ と /l/ の書き分けに利用出来なくなるのは残念だが、rx を /l/ の入力キーとして使うことにする。

また、c を「ちゃ」行の入力に割り当てる。「じゃ」行の入力が j なのに、「ちゃ」行の入力には ch とキーの数が増えるのが嫌だという理由だ。ci や ce はイタリア語の読みと同じなので不自然では無いだろう。

2016年9月5日月曜日

音楽ソフトの改竄と著作権

「ピアノの音が出ないよ。」と妻が言ってきた。勿論、音が出るように何とかせよ、との命令である。我が家にはピアノは無いが、MIDIキーボードをパソコンに繋いでピアノの音が出るようにしてある。カルチャースクールで妻がアカペラを習っていて、譜面の音をピアノで確認するのに時々使っているのだ。

MIDI信号の入出力には Domino というMIDIシーケンサーソフトを使い、音源にはVirturalMIDISynth というソフトを使っている。いずれもフリーソフトである。

今迄動いていたのに急に音が出なくなるのには何らかの原因があるはず。心当たりは、Windows10 の無駄なサービスを無効にした事位か。あれこれ調べたり弄ったりしても分からず。そう言えば、最近はブラウザDTMというものもあった。これはソフトを入れずとも、とあるサイトにアクセスするだけで使える代物。MIDIキーボードだって弾ける。

幾つかのサイトでやってみるとちゃんと音が出る。MIDIキーボードとそのドライバーはOK。しかし、Domino からは VirturalMIDISynth が開けないとのエラーメッセージが。

そして、また調べる内に、VirturalMIDISynth の音が出なくなった時には再インストールする、との情報が見つかった。もう一度、インストールプログラムを動かすと Domino のエラーメッセージは消えた。これには思い当たる節がある。

システム管理のツールを集めておく

つまり、ソフトのインストールプログラムで書き換えたレジストリの値を Windows が勝手にシステム更新した時に元の値に戻したらしい。

以前、Windows のアップデートの後で、英語キーボード用のレジストリの設定が勝手に元の値に戻っていた事がある。これからも同じ様な事があるだろう。それに備えて、システム管理というフォルダを作って、そこに設定ファイルやインストールプログラムを集めておいて、すぐに復旧出来るようにした。

PCキーボードの発見

これで、解決かと思ったら、やはり音が出ない。しかし、Domino を弄っていてPCキーボードというものを発見した。これはパソコンのキーを鍵盤に見立ててMIDIデータを入力する為のもの。リアルタイム録音というボタンを押すと出現した。これを使えばパソコンだけでピアノ演奏も可能。ちゃんと音が出て、VirturalMIDISynth の方は解決した。

わざわざMIDIキーボードを繋がなくても良いのだから手軽でいい。複数のキーを同時に押して和音も弾けるし、キーの割当もカスタマイズ出来る。

ハ長調のド、つまり C の音がパソコンのキーの C に割当てられていて、その上のキーの並びは黒鍵になる。これだけでは音域が狭いけど、その上のQWERTYのキーの並びを白鍵、数字のキーの並びを黒鍵に見立てて上下2段の鍵盤とすれば弾きにくいけど音域はかなり広がり、練習すればかなり本格的なピアノ演奏も可能になりそうだ。

それで、割り当てて見たら、惜しい事に R のキーの音が出ない。R は録音開始に割当てられていて変更は出来ないようだった。

こうして遊んでいる内にMIDIキーボードのデータが何故 Domino に入力されないのか、原因が判明した。Domino はMIDIの1chのデータのみを受ける仕様になっているとの記述をネットで発見したのだ。そういえば、音を出すべく色々弄っていてMIDIキーボードのチャンネルセレクタのダイヤルを回したのだった。

これで、無事にMIDIキーボードを演奏してピアノの音が出るようになった。

簡易ピアノソフトを使う

処で、Domino の PCキーボードには問題があったけど、MIDIキーボードを引っ張り出さなくても手軽にピアノを楽しめるのは素晴らしい。そのようなソフトはきっと他にもあるに違いないと思ってネットで検索すると、案の定、色々出てきた。

その中でも一番気に入ったのが TinyPiano というフリーソフト。左右のShiftキーも鍵盤のキーに割り当てて音を出せるのが素晴らしい。その他、Tab と Backspace キーも鍵盤のキーに利用。音域は3オクターブ半もある。

C の音を C のキーに割り当てるのはこの手のソフトのお約束みたいである。画面がシンプルなのは良いが、シンプル過ぎてどう使って良いのか分かり難い。そこで、作者さんには悪いがオリジナルの表示を弄らせて貰う事にした。それで、ヘルプ画面をどうやって出せば良いのかを示す。

そして、これが弄ったプログラム。タイトル行の TinyPiano 以下を書き換えて見た。プログラムはバイナリファイルだが、xedit というフリーのバイナリエディタを使って文字の部分だけを書き換える。一文字は16進数の2桁の数字で表されるから、書き換えたい文字のある部分を捜して、新しい文字をアスキーコードを16進数にして数字を入れ替えて行く。

アスキーコード表はネットでも簡単に見つかる。例えば、Space は0x20、F は0x46、: は0x3a といった具合である。因みに、0x は16進数であることを示すプリフィックスになる。

文字の入れ替えなら何も問題無いけど、この文字を減らしたり増やしたりしたら何が起きるか分からない。例えば、文字数きっちりしかメモリを確保してなければプログラムが暴走するかもしれない。だから、要らない文字があったらスペースに変えておくだけにする。

プログラムと著作権

処で、プログラムは著作権法で保護されている。ソースコードだけでなく、バイナリデータも保護されているので、それを改竄するのは私的使用の場合を除いて違法行為になる。だから、私がこの改竄したプログラムを使うだけなら問題ないが、誰でもダウンロード出来るようにすることは出来ない。

では、このプログラムの画面をブログに載せて大丈夫なのか? という問題が考えられる。慎重に調べた結果、プログラムの画面自体は原則著作権の保護対象外と分かったので載せた。

原則、と書いたのは例外的にプログラム画面自体が「一枚の絵」のような著作物である場合は保護対象になるからである。通常はプログラム画面も単なる製品に過ぎないのだから、保護は無用である。製品に手を加えて(例えばシールでも貼って)著作物の改竄になってしまう、と言うなら大変な事になってしまうから。

やはり限界がある

この TinyPiano は優れたソフトだが、キーを同時に3つ以上押した時に感知されない場合がある。キーの組み合わせによってはそれよりずっと多くのキーを認識してくれるのだが。しかし、これはソフトの問題では無いのだった。この種の他のソフトでも全く同じ問題を持っている。

原因はパソコンキーボードの方にあるのだった。文字を打つ場合、ある瞬間に一つのキーしか押されていない、という前提がある。だから、キーが押されたかどうかを感知するセンサーはキー毎には配置されずに、縦と横のセンサーが受け取る信号の組み合わせでどのキーが押されたかを検出するように設計されている。多数のキーが同時に押されれば検出することが出来なくなる。

やはり本格的な演奏ならMIDIキーボードで、ちょっと音を出したい時にはパソコンキーボードでという使い分けが大事なのだ。

2016年9月4日日曜日

パソコンのメモリを増やす

ThinkPad X250 を使っていて、メモリの事を何も気にせずブラウザのタブを沢山開くと 4GBの残り1割しか空きが無いのに気がついた。

Windows10も製品の名前こそ変えて無いけど、時々システム変更されて、その都度メモリの使用率が高まって来ている気がする。

そろそろメモリを増やすべきか。調べて見ると、8GBのメモリは3500円程で買えるらしい。そんなに安くなって来たのなら悩む程の事はない。それで昨日Amazonで購入したら、お急ぎ便でもないのに今朝届いたので、早速取り付けた。

メモリスロットは一つだけなので、今迄使っていた4GBのメモリが余る…おお、そうだ妻のパソコンThinkPad T410i のメモリをこれで増やせるかもしれない。

T410i のメモリは DDR3 PC3-8500 というタイプ。 X250 に挿してあったのは DDR3L PC3-12800 というタイプ。PC3以下の数字はメモリの速度を示していて、基準よりも速いメモリを使うのは問題が無い。DDR3L の L は低電圧対応も出来る事を示していて、これも問題無い。

それなら使えそうだと思って、T410i の底面にあるメモリスロットのカバーを外して2GBのメモリと交換する。これで全部で6GBになるはずである。しかし、電源を入れてもエラーが起きて動かない。元のメモリに戻すと、Windowsのシステムが一部壊れていたようだったが、自動的に復旧してくれた。

何故動かないのか。ネットで調べると、有り難い事に丁寧な説明があった。5年以上前の初期のCoreiチップだと、メモリチップ8個使った4GBメモリは使えるけど、メモリチップ4個使った4GBメモリは動かない、と書いてある。更に、メモリチップを何個使っているかの情報はメモリの型番からは不明とのこと。

妻のパソコンはその初期のCoreiチップらしく、また、X250から取り外したメモリはメモリチップ4個だったから、動かない原因はまさしくこれだ。

そういう訳で、妻のパソコンのメモリを増やすことは諦めた。しかし、メモリの使用量は X250 や新しく買った T460s に較べると明らかに小さい。Windows の設定は全部同じ様にしているのに違うのは不思議(画面の画素数の違いかも)だが、当面4GBあれば十分使えるだろう。

後日談: 余っていた4GBのメモリは、娘のパソコンに移植された。娘のパソコンは、元は4GBでメモリスロットの空きが一つあったので合計8GBになった。

2016年9月1日木曜日

陽母音と陰母音

韓国語を習うと、まず母音に陽母音と陰母音の区别が在ると教わる。この違いが動詞や形容詞の活用の違いなどに繋がるのだから、当然である。

それに、この区别は語感の違いも生んでいる。陽母音が「明るく、小さく、軽い」印象を与えるのに対して、陰母音は「暗く、大きく、重い」印象を与えるのだ。そして、複合母音では陽母音と陰母音の組み合わせは存在しない。

しかし、英語や日本語の事を考えていると、これらの言語でも、文法上の違いこそ無いけれど、やはり陽母音と陰母音の区别が在りそうな気がする。

日本語では、「あ」「え」「い」は陽母音、「お」「う」は陰母音だと思っている。先に挙げた「明るく、小さく、軽い」と「暗く、大きく、重い」の母音がまさにそうだし、その他思い付くだけでも、

陽母音「きれい」「かあさん」「かわいい」等
陰母音「ぶす」「とうさん」「くさい」等

そして、日本語でも母音の組み合わせは決して5種*5種=25通り全部が現実的とは言えない。「あい」、「えい(えー)」、「おう(おー)」、辺りは複合母音と言っても良さそうな程に繋がりが良い。その半面、「あう」のような組み合わせは「おう」に変換されたりする。(関西弁では、「買って」が「こうて」となり、「会って」が「おうて」に変化する。)

これは、陽母音と陰母音の組み合わせは日本語でも成立し難い事を示しているのではないだろうか。

そして、これは、個人的な体験だが、中国語を勉強していて duo(多) という言葉を dou(都) と覚えてしまったり、xie(謝) が「シェイ」になったりする。私だけでなく、日本人が謝謝を間違えて「シェイシェイ」って言うのを数多く知っているから、「うお」や「いえ」という母音の組み合わせは日本語には無いに違いない。

「うお」や「いえ」は、陽母音と陰母音の組み合わせでは無いが、口を閉じる方向へ母音が組み合わされる法則が在りそうだ。(あ→え→い及びお→うの方向のみが成立し、逆は組み合わされない)

そうすると、[si] の音を書き表すのに「スィ」と書くよりも「セィ」と書いた方が良いのではないか、と考えて見た。英語の [ɪ] は「い」と「え」の中間的な音だから尚更である。city をカナにして、「スティ」と「セティ」ならどっちが原音に近いか考えれば「セィ」に軍配が上がるはず。

しかし、日本語の「さ」行に於ける [s] の音は英語のそれに較べて異質で(「い」の段が異なっているのは周知だけど)、「す」と「せ」を較べれば、母音の音だけでなく子音の質もやはり異なっていると感じる。そして「す」の子音の方が「せ」の子音よりはまだ英語の [s] に近いと思われる。では、「スィ」に決定か、というと、これでは [swi] との区别が付かなくなる(例:「スィート」)、という問題が新たに生じる。

書き分ける、という目的からはやはり「セィ」の方が「スィ」よりも優れているのだった。

このような語感の違いは子音にもある。清音と濁音のペアがそうだ。擬態語だと思い付くだけでも、

清音「ころころ」「さくさく」「からから」「しつしと」等
濁音「ごろごろ」「ざくざく」「がらがら」「じとじと」等

英語の発音で日本語話者には区别出来ない R と L のペアも同じく L が陽で R が陰の語感を持っている。

L light little gold blank 等
R dark gravity grave grand break 等

black は L でしょ、なんて例もあって必ずしも当たらないけど、L が「ら」行で R が「ら゛」行と言った書き分ける決まりがあれば苦労しないのに、と思ったりする。

R が「ら」行という慣行を変えられないなら、いっその事 L を「ら゜」行と表現するのはどうだろう。Wikipediaによると、明治初期にはそうした試みがあったそうで、又、現在でも国語学などでは異音を示すのに使われるとの事。(例: 鼻濁音の「が」を「か゜」で表現)

2016年8月24日水曜日

グロービッシュの元ネタ

グロービッシュの単語集で発音記号からカナ書きへ変換する試みのテストが終わったけど、この単語の集まりの偏り方は気になる。

数字、曜日名、暦月名、等の最重要単語が無いのに、弾丸とかハイジェャクとかの物騒な単語は載っている。何故なのだろう。

そして、今日、その理由が分かった。Globish1500語の元ネタはVOAのSpecial Englishにある単語らしいのだ。VOAとはアメリカのラジオ放送で、英語を母国語としない人々にもニュースを届けるべく、使う単語を1500語に制限した番組も提供している。

その単語集 Word Book をネット上に見つけて、Globishと見比べたら、数字、曜日名、暦月名、等は巻末に Special Words and Information という項目があってそこに纏めて書かれていた。

そして、本体の単語集には弾丸もハイジェャクも載っているのだ。

興味があるから、Word Book と Globish を統合した単語帳を作ろうと思う。公開している Globish のファイルに新しいシートを付け加えて入力するので、作業中の様子も分かるだろう。

2016年8月22日月曜日

半角カタカナを利用する

英語発音のカナ書きで解決していないのが「アクセントの有無の表示」をどうするか、という問題だ。細かな音の違いよりも、正しいアクセントで話した方がよっぽど通じる、という話を良く耳にする。

アクセントのある音節をボールド体にするとか、アクセントの無い音節をイタリック体にするとか、考えて見たけど、そのような文字飾りはテキストファイルからは抜け落ちるし、カナにはイタリック体は無さそうだし、短い単語だとほぼ全部がアクセントのある音節だから、ボールド体ばかりになってしまうし、良い解決策とは言えない。

それで、アクセントの無い音節は半角カタカナで表すのはどうだろうか、と考えて見た。それなら文字コードで区別出来るし、日本語入力の機能には半角カタカナへの変換が備わっている。

しかし、「半角カタカナは使うな」との言い伝えが頭にこびり付いているものだから、それで大丈夫なのか考えて見た。

元々は、半角カタカナは 1 byte (=8bit) のデータでカナを表す仕掛けだった。英数字と記号、それに制御コードを入れても 7 bit あれば足りて、 8bit の空間がまだ半分 (=128文字) 空いているのだから、漢字は無理でも (8 bit目を 0 にすれば制御コードと重なるエリアは避けて利用するから実際には使えるのは 128 文字よりも少なくて) カナだけなら何とかそこに押し込められる。

銀行の通帳に印字される文字が未だにカナなのもその当時の名残りである。しかし、欧米の通信システムなど、日本の事情などにはお構いなしに、7bit のデータを扱えれば十分ジャネ…とか言って、残り 1 bit をパリティビットに勝手に使ったりして電子メールシステムで 8 bit のデータは送ると文字化けする可能性があった。

そこで、日本語の電子メールシステムでは 7bit にデータが収まるように漢字コードを変換させてやり取りする規格を作ったのだが、そこに半角カタカナは入れて貰えなかった。それで、「電子メールで半角カタカナは使うな」という格言が生まれたのだ。

しかし、時代は移り変わり、今や「半角カタカナ」は 1 byte のデータではなく、ユニコードに定義された文字群の一つとなった。だから、こうしてブログの投稿で発音記号の[æ]を問題なく扱えるのと同じく[ﾊﾝｶｸｶﾀｶﾅ]も問題なく扱える訳だ。(電子メールだと問題あるが)

だから、これからは「半角カタカナ」も積極的に使うことにする。全角カタカナへの変換キーには Shift + CapsLock(F14) を割り当てていたので、半角カタカナへの変換キーには Shift + Tab を割り当てて見た。抜群に使いやすい。

2016年8月19日金曜日

ローマ字テーブルのテスト

Globish1500語を使って、カスタマイズした Google日本語入力のローマ字テーブルをテストした。カタカナ語の入力が楽になるように、かつ、日常の日本語の入力も問題なく出来るように考えて作ったので、こうやってブログの記事を書くのにもカスタマイズ版を使っている。

このカスタマイズ版を使い始めて、通常の日本語の入力でもこれは便利と思ったのが n を一度押しただけで「ん」が入力され、r を一度押しただけで「ー」が入力されること。「ん」を入力するのに nn と押す癖はもうなくなった。(nn が「んん」になってしまうから)

テストは、Globish1500語のリストに発音記号と対応するカナを加える事で行う。アクセントの無い音節は半角カナで表現した。元のリストは1500語丁度だったけど、同じ綴りでアクセントと発音が異なる単語は別の単語扱いをしたので11語増えて1511語になった。

スプレッドシート形式にした[Globish&VOAwordbook]を公表する。単語のリストにも著作権は認められるのだが、これはGlobishの創始者が無料で公開しているものを利用しているので問題はないと思う。

後日談: Globishに加えて、VOA Special English Word Book という単語集にある単語を追加した。

このリスト中の単語の文字総数は8062字、そのカナを入力するのに要したアルファベットの総数は245文字減った。

これは、普通のローマ字変換では子音字を入力するのに有りもしない u とか o とかを打つ必要がある(例: supureddosi-to 「すぷれっどしーと」…カスタマイズ版でも変換可能)のに対して、カスタマイズしたローマ字変換ではそれが不要(spreddsirt 「すぷれっどしーと」)である事が大きい。

そして、英語の綴りと入力文字が完全に一致するものが141語もある。又、c x も使うと一致する率が更に向上するのだが、発音記号との対比が分かり難くなる事と音節のアクセントの有無をカタカナの全角と半角で書き分けるようにしたから、x が使えない場合( k と s を分ける必要が出て来る)もあったので、このリストでは止めておいた。

テスト中に幾つかの問題点を見つけて修正したので、このカスタマイズでかなり完成に近づいたと思う。

2016年8月16日火曜日

私の履歴書大村博士の巻

今月の日経新聞の私の履歴書は、何億人もの人達を眼病による失明の危機から救うことになった薬の開発に貢献してノーベル賞をもらった大村智博士が書いている。

夜間高校の先生から如何にして研究者の道に進まれたのか、についても興味があったので普段よりも一層丹念に読ませて貰っている。

今日の話題は、米国留学中の博士が3年の予定を繰り上げて2年で帰国して北里研究所の教授に就任する事になり、帰国する前に米国の企業を回って、共同研究の契約を纏めた話である。

契約は弁護士やコンサルタントに任せるのではなく、私がメルクのボイド・ウッドラフさんらと一生懸命に内容を詰めた。…辞書と首っ引きでまとめあげたこの契約方式を、米国人は「オオムラ・メソッド」と名付けた。

恐らく、(ノーベル賞を貰えなかった)数多くのエリート大学出身の研究者との大きな差はここにあったのでは無かろうか。大事な事は人任せにしない、目先の事だけでなく、将来的、そして世界的な視野に立って物事を進めていく事が大切だと思った。

企業経営者の書いた私の履歴書は仕事一辺倒で(6月は松岡修造氏の父が書いていたけど、その息子の話は最終回に少し登場しただけ)面白味に欠けるけど、大村博士の話には家族や趣味の話もちょくちょく登場して面白い。一昨日には、

古美術商に立ち寄ると「日本人か」と聞かれ、そうだと答えると日本画に書いてある文字を読んでくれと頼まれた。3、4回通って全部ローマ字に直すと、「好きな物を持っていっていい」という。本物とわかる喜多川歌麿の作品があったので、偉いこっちゃと思いながらも頂いた。

とある。これからの話も楽しみだ。

2016年8月9日火曜日

いちじくコンポート

連日暑い日が続く。遠い昔は、冷房は贅沢だと思っていたけど、今や適切な冷房で身を守り、他人に面倒をかけないのは善良なる市民の努めだろう。

外出は気温の高い日中を避けて、日暮れ前にようやく川沿いの遊歩道を散策する。川にはミズスマシが沢山いて、水の流れに逆らって水を蹴り蹴り何とか同じ位置を保っている。

川には段差のある所に飛び石があって向こう岸に渡れるような場所が幾つかある。そこの飛び石の間は川の流れが速くなっていて、ミズスマシもウカウカしていると下流に流されそうになるけど、その瞬間大きく水を蹴って頑張るので、ミズスマシが流される光景はめったに見られない。大雨の後に流れが早くなった時に一度だけ見かけたきりだ。

しかし、私の頭の中では、急流に向かって流されているミズスマシ=日本国の財政と思えてならない。流されないように、今は必死で上流に向かって蹴り蹴りしないといけないのに、急流に向かって近づいていく奴。

さて、最近の散歩以外の日中の過ごし方は、カタカナ語の研究とGoogle日本語入力のローマ字変換テーブルをカスタマイズすること。ブログもそればっかりでは飽きるので、先日作ったいちじくコンポートをちょっと紹介。

八百屋で安くなっていたから買った。いちじくは少量だったので2つに割って、白ワイン、砂糖、シナモン、レモン汁、水を加えて煮てみた。豆乳&アカディで作ったヨーグルトに添えて、今晩のデザート。美味なり。

2016年8月7日日曜日

Google日本語入力の動作

ローマ字変換テーブルをカスタマイズしていて、変わった動作を体験したのでメモしておく。

問題の発端は、テスト中のローマ字変換テーブルで Globish1500語をカナにしたリストを製作中に、dispute [ dɪsˈpjuːt ]という単語の読みをディスピュートと入力しようとした時の事である。

s → す … OK
sp → すぷ … OK
spy → すぴぃ … OK
spyu → ぴしゅ … あれっ、「すぴゅ」のはずなのに何で?

pyu → ぴゅなのに。

変換テーブルを問題箇所に絞って小さくして説明する。

問題の変換テーブルは、促音の定義を使い回しする仕掛けになっていた。つまり、パ行のぴゃ、ぴゅ、ぴょは本体の「ぴ」は変化せず、小書きの文字のみが入力 a、u、o に応じてゃ、ゅ、ょに変化しているという性質を利用している。

尚、変換テーブルの左の行は入力、真ん中の行は確定した出力、右の行は表示こそされるが、未だ確定せずに次の入力に回される要素になる。

ぃu	ゅ
s		す
すy		すぃ
すぃu	しゅ
p		ぷ
ぷy	ぴ	ぃ

変換テーブルの最初の行では入力 u に対する小書きのゅを定義、変換テーブルの最後の行では入力 y により、その後の母音字の入力で促音の小書きとなるようにしている。

しかし、サ行は促音の定義をそれとは別に行っていた。もし定義の使い回しなら、入力が sy まで終わった段階では「しぃ」となってしまうが、この時に「すぃ」となる必要があったから。

後日談: sy の変換は「すぃ」から「せぃ」に変更した。こちらの方が[si]の音に近いと思われる。それに、「すぃ」だと[swi]の音と解釈される可能性も否定できない。

それで、spy と入力した段階では、表示こそ「すぴぃ」となっているが、真ん中の「ぴ」だけが出力されていて、「す」と「ぃ」はまだ入力に残っているのだから、次に u が入力された時に 4行目の定義が適用されて、「しゅ」が出力され、結果として「ぴしゅ」になったらしいのだ。

しかし、私は、s の後に py を入力した段階で「ぴ」が確定するから、その時に未確定だった「す」も同時に確定するものだと思っていた。そうで無いとすると、何で今迄うまく動いていたのだろう。

とにかく、「ぴ」が確定した段階でも、「す」は確定していないのは結果から明らか。そうすると、u を入力した時に、1行目と4行目の定義のどちらも対象になるが、4行目の定義の方になったという事実から考えると、Google日本語入力は「複数の定義が該当する場合には、一番長い定義を選ぶ」という仮説が成り立つ。

因みに、サ行の促音も使い回す形に定義してみると、spyu は「すぴゅ」に変換された。

ぃu	ゅ
s		す
すy	し	ぃ
p		ぷ
ぷy	ぴ	ぃ

しかし、これでは sy は「しぃ」になってしまう。それで、促音の定義の使い回しを止めて見ると…。

s		す
すy		すぃ
すぃu	しゅ
p		ぷ
ぷy		ぴぃ
ぴぃu	ぴゅ

こんな感じに定義すれば望み通りの動作をした。この調子で他の音の定義もやり直すと変換テーブルの行数が大幅に増えてしまうけど、ローマ字変換するのはコンピュータだから文句は言わないだろう。

登録: 投稿 (Atom)

このブログを検索