cocolog:73440722
ブログの電子辞書化作業。MeCab を使って用語を切り出そうとしたら、誤字がボロボロ見つかったので、弥縫策をえっちらおっちら手作業で打ち込んで、やっと MeCab による誤字検出はなくなった。次は、約70000語となった用語の分類・チェックをせねばならない…。orz (JRF 1073)
JRF 2012年7月20日 (金)
まぁ、一日 1000 語弱として、1ヶ月コツコツやればいいというぐらいの気持ちでいくか。…はぁ、それしかないかな…。
まぁ、やってみないことにはわからないな。案外早く終るかもしれないし。
…でも、暑さで気力が…。いやいや、ゲームはやってるんだから…。
…ということで、作業は「順調」に遅れておりますっ。orz
JRF 2012年7月20日 7643
「ひとこと」の更新も、…難しい話題が多くて…というか、難しく考えてるというか、考えてるのはたいしたことないんだけど、それを鬱っぽくとらえちゃって、どうも書けないというか…。
で、滞っております。
JRF 2012年7月20日 7829
……。
Emacs が Frame を二つ使ったエディットとかで、エラーを出してやる気なくす。
IME 周りのマーカー保存がうまくいってないらしく、入力したはずの文字列がどっかに飛ぶ。(笑)
まぁ、対策としては、同じファイルの別の場所を見たければ、フレーム等は使わず、メモ帳なり別のエディタで別の場所のデータを見れば良いということなんだろうね。
ドンマイ。よくあることよくあること。orz
JRF 2012年7月21日 1234
……。
オクラ入りになりかけてた話をこそっとしておこう。
JRF 2012年7月24日 5190
まぁ、上のようなのは、[cocolog:72943095] で書いたソサイエティがインテリジェントになったための差別の例…。「環境管理型権力」に近い話になるかな。
似た話で、HTML でスペースと改行の処理が日本語だとうまくいかない…とかもある。
JRF 2012年7月24日 6824
英語とかスペースで区切る言語だと、改行があれば、そこにスペースを入れてだいたい問題ない。
HTML (XML) では、タグとタグの間のスペースは、読みやすさのためには、スペースは無視したほうがよく、普通の文要素の間のスペースは単語の区切りだから、文頭と文末以外では、そこはスペースとして扱えば都合がよい。…とスペースを区切る言語だと言える。
JRF 2012年7月24日 0107
でも、日本語のスペースで区切らない言語だとそれらは問題があって、日本語という指定があれば、改行以降のスペースはすべて省くとか、タグの前後のスペースも省くとか、という特別ルールにしたいという話になる。
そこを通すと、禁則処理とかもやりたくなってくる。でも、そうやっていくと、日本語話者しか実質テストできないコードになってしまって、むしろ、インターナショナルには、そういう各国語対応みたいな API まで、しっかりやれよという話になってしまいかねず、当然そこまで手がまわらないから、「自分達しか使えないコードを固定化していってる。文化を開いていく気がない。」みたいな目で見られる。
JRF 2012年7月24日 7637
一方で、自動改行もできないようなダセぇエディタを使うなという文化があって、上みたいな方向は、やなんで、改行使わずに書いてると、マナー知らずという烙印を押される。そればかりか、教師にとってメリットのある「コードを見やすく」というのは最初に習うようなことだろうから、プログラミングの「いろは」すら知らないと見なされかねない。
JRF 2012年7月24日 7541
そりゃあ、「文化人」として生きるなら、ちゃんとした技術ができるのを待ってやるのがお上品なのだろうが、技術に生きるとすると、その状況で技術を磨かないといけない。
だから、よほどの「エリート」でなければ、「普通の技術者」として選択できるのは「野蛮人」であることを表明し、そのランクでできることを地道にやりながら、自国語対応をそれなりにがんばるぐらいしかない。
JRF 2012年7月24日 3835
同語話者から見れば非文化的で、技術サークルからは低ランク。
…これはもう決まったことになる。「彼ら」が善意であったとしても、程度の差こそあれ、そうなる。
科学技術はインターナショナルで技量という単一の基準がある…ということの実質は、どうしてもそういうことになる。
JRF 2012年7月24日 2647
これが言葉以外の分野でも起きるわけだから、「工」は差別を受けているに近くなるというは、今の時代少しマシにしても、そう変わるわけもあるまい。実験で人に迷惑かけて、それでも権力者が欲しいと思うようなものは、少し違うというぐらいだろう。
インターネットで、その状況が変わるか…というと、基礎技術たる HTML がこのありさまというわけ。
JRF 2012年7月24日 7200
でも、そこで諦めるのも「イノベーター」として間違ってるんだろう。「野蛮人」としての生き方にもいろいろあって、インターナショナルを目指した結果、自国においてもあまり使えるものになりませんでしたと終ることもできる。金もらってそういうことはできないものだから、ある程度食い扶持が別にあるのが条件になる「贅沢」だが、そういう人物を生みだせる社会というのには、(相続を行える)権力側にもメリットがあるだろう、といったところ。
JRF 2012年7月24日 7904
複雑な社会だから、本当の「改心」というのは、実現されない。最後の最後にそうなるという偽装がなされうるのみだ。それは「改心」ではなかったね。負担に耐えられない弱い私([cocolog:70022632])には少なくとも確認できるはずがない。
私は偽装はやがて方向性を失い、最後を亡くすよと警告できるぐらいだ。それは不死ではない「消失」だ、と。どこかで消えるのではない。どこではじまったかも消えるということだ。ヨブが誕生を嘆いたように。聖母をプロテスタントが失ったように。
…と、これでは呪詛に近いな。もう少し表現をやわらげないと、さらに「野蛮人」と思われてしまうな…。
JRF 2012年7月24日 3528
……。
いや、違うな。感謝が足りないよ、私は。
発狂して退院してブログサイトを作れたのは、二度目の生をもらったようなもの。
スペースがうまく使えないというのは、私が選んだことだ。別に HTML エディタとかを使ったり、そういうのに対応したソフトもあるはずだから。私が見たい範囲でそういうのがないというより、ない範囲を選んで、過去そこにコミットしたかった自分を保っているだけだ。
JRF 2012年7月24日 1928
私が「改心」の利を得ながら、「改心」を拒絶するところに自分を見出しているだけなのだ。
人に迷惑をかけるようなものは少し違うと書いたが、直近の [cocolog:73081879] の「別人の証明」のように、迷惑の可能性だけで十分な地位向上効果をもたらすこともある。そういうった小径[パス]を諦めずに探すことが大事なのだ。
JRF 2012年7月24日 1422
……。
どこではじまったかも消える…始源を失くす…資源を失くす…。まぁ、そのあたりは一蓮託生かな。そちらが消失するなら、それよりずっと前にこちらがなくなっているだろうし。
JRF 2012年7月24日 0723
……。
はい、ここまで。オクラ入りになりかけてた話。これが一例。どう?鬱っぽいでしょ?(^^;
JRF 2012年7月24日 4209
もちろん MeCab のようなソフトが完全に適切な切り出しを行うというのはありえないので、チェックはするわけだが、70000 とかいう数字は、一人の手作業でやるべき数値なのか?
70000 といっても用語切り出しは、長い単語、例えば「消費税定率還付」とかは、それぞれの構成要素…「消費」「消費税」「消費税定率」「消費税定率還付」「税」「定率」「還付」といったものも同時に登録して、あとで削ればいいや…という方針のために大きくなってる数字だから、実作業は 1/3 以下で、20000 語ぐらいが対象になる気もするが、それでも多いよ。
JRF 2012年7月20日 4557