Romanization

出典: Fukudat

転写 (transcription)あるいは翻字 (transliteration) の一種で, 変換先の文字種がローマ字の場合のことをローマ字化 (Romanization)という.

日本語の入力には通常,ローマ字->かな->漢字変換を行うが,その逆変換である.

目次

日本語

日本語は通常,漢字,ひらがな,カタカナで表記され,スペースなどの区切り文字で単語・分節を区切らずに表記される.

ひらがな,カタカナは表音文字であるため,基本的には1文字ずつローマ字に変換することが可能である.ただし,ヘボン式,訓令式,その他,複数の流儀が存在するため,拗音,長音などを中心に多様性が存在する.

また,英語やドイツ語などの発音規則を意識して発生したと思われる,上記のどの規則にも則らない慣習的なローマ字表記も存在する.

これに対して,漢字は基本的には表意文字であって,文脈によって発音が変化する.このため,形態素解析を行って用法を確定しなければ,その発音を決定することができない.

以上のことから,日本語のローマ字変換には,次の2ステップを要する.

  • 形態素解析を行い,漢字の読み(カナ表記≒発音)を決定する.
  • 読みをローマ字に変換する.

形態素解析には様々な方法があるが,最近はHidden Markov Model (HMM)などの確率モデルを用いた統計的手法が主流となっている.

形態素解析を行うフリーウェアには以下のものが知られている.

中国語

中国語には多数の方言が存在し,発音・語彙ともに大きく異なるだけでなく,文法にも違いが散見されるが,共通の書面語(書き言葉)が発達している.

中国語は主に漢字を用いて表記される.漢字には中国とシンガポールで用いられている簡体字と,台湾,香港,マカオで用いられる繁体字が存在する. 簡体字はGB 2312として符号化され,繁体字はBig5という文字コードが用いられてきたが,それらは一部統合されてCJK統合漢字としてUnicodeに含まれることとなった.

Unicodeの漢字表には,Mandarin (北京語), Cantonese (広東語)によるアルファベットによる読みが添付されている.この読みを利用すればローマ字化することが可能である. 北京語のローマ字化はいわゆるピンイン(漢語拼音)に基づく.固有名詞を中心に,古くはウェード式(Wade-Giles)が用いられてきたほか,台湾などでは通用拼音という方式も使用されている. 一方,広東語のローマ字化は香港語言学学会粤語ピン音方案Jyutping Romanization)に基づいている.これに対して,古くはイェール式が使用されていた.

やはり,英語などの発音規則を意識して発生したと思われる,上記のどの規則にも則らない慣習的なローマ字表記も存在する.

このように,中国語のローマ字化には,方言に起因する多様性と,ローマ字化方式に起因する多様性が存在する.


Chinese surnames におもな中国人名の姓がリストアップされている.

朝鮮語

朝鮮語では漢字1文字は1音節で発音され,1音節を表現するハングル文字1文字で表記される. Unicodeの漢字表には,朝鮮語で用いられる漢字にたいしてハングル文字による発音が記載されている.

ハングル文字のローマ字への転写には,北朝鮮ではマッキューン=ライシャワー式が主に用いられている.韓国では同方式が2000年まで用いられてきたが,現在は文化観光部2000年式が使用されている.このほかに,イェール式(Yale Romanization)が存在するが,言語学など学術分野でのみ使用されている.

やはり,英語などの発音規則を意識して発生したと思われる,上記のどの規則にも則らない慣習的なローマ字表記も存在する.

このように,朝鮮語のローマ字化においては,ローマ字転写方式に起因する多様性が存在する.

Korean Nameによると,朝鮮人名の姓はわずか250種類しかなく,上位3種類(金,李,朴)が人口の半数近くを占める. Korean surnames におもな姓のリストが挙げられている.

リンク集