FAIR and interactive data graphics from a scientific knowledge graph

リンクを編集
異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。 異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。
異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。

異体字セレクタ[注 1] [注 2] (いたいじセレクタ、: Variation Selectors) は、Unicode および ISO/IEC 10646 (UCS) における、文字字体をより詳細に指定するためのセレクタ (選択子) である。

解説

Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である[1][注 3]

この原則は、たとえばラテン文字の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないためほとんど問題ない。しかし例えば、CJK統合漢字において、Han unification (en:Han unification) や各国内標準の都合を理由として、運用上しばしば「別の字」とされる字形を、様々な経緯の結果「詳細/デザイン差」として同じ符号位置としてしまっているのは、問題がしばしば発生する (初期のUnicodeが提案された当初から危惧されていた通りに)。そのため、状況によっては、フォントの指定などを含めることができないプレーンテキスト上で字形の区別を保存したいという需要も存在する。

葛飾区の葛
葛城市の葛
  • ほとんどのオペレーティングシステムにおいてファイル名はプレーンテキストであり、プレーンテキストで区別できないものは区別できない。
  • IMEに単語登録可能な文字列は通常プレーンテキストのみである[2]。このためフォントの指定やDTPアプリケーションによる字形の選択が可能であっても、通常の文字入力とは異なる操作を要求される上に正しい組み合わせを覚えていなければならず、ほとんどの一般利用者にとって現実的な手間で入力できない。たとえばWindows Vistaでは葛飾区[3]葛城市[4]を区別して表示できるが[5][6]、「かつしかく」が葛飾区、「かつらぎし」が葛城市のように区別して変換されるような単語登録はできない。ただしegbridgeなど、Mac OS Xのインプットメソッドのうちグリフアクセスプロトコルに対応したものはプレーンテキストの制約に縛られない[7]
  • 電子メールの送信に使われるSMTPなどの情報交換用プロトコルは、情報交換をプレーンテキストで行うよう設計されている。このため、Mac OS Xのグリフアクセスプロトコルのように内部に閉じたテキスト処理ではプレーンテキストの制約を取り払ったシステムも、メールなどによる外部との情報交換では字形の区別を保存できない[8]

このような字形の区別にかかわる需要は、Unicodeの漢字統合の規則が国内での運用の実情に沿っていない日本では特に顕著であり、JISの各文字集合 (JIS X 0208JIS X 0212JIS X 0213) やUnicodeで満たせない需要に対応するため、官庁では戸籍統一文字住民基本台帳ネットワーク統一文字など、民間では今昔文字鏡GTプロジェクトなどといった独自の大規模文字セットが繰り返し作成され、一部で運用されてきた。しかしそれらは独自であるがゆえに、Unicodeを使用している既存の大多数のPC環境と相互運用性がない。

異体字セレクタは以上のような問題をUnicode上で解決するために考案された特殊な「文字」(符号位置が与えられているもの、という意味では「文字」) である。異体字セレクタが利用できる文字は規格で定められており、先行する1文字 (基底文字) の後に規格で定義された異体字セレクタを付けることで異なる字形が選択できる。なお基底文字と異体字セレクタで構成された文字を異体字シーケンス(Variation sequence)とよぶ。異体字セレクタを用いれば、異体字は文字コードとして表現できるため、プレーンテキスト上でも字形の区別をつけることができる。HTMLCSSなどのWeb標準を管理しているWorld Wide Web Consortiumは、HTMLなどのマークアップ言語においても字形を指定するために異体字セレクタを使うことを想定している[9]。なお異体字セレクタは、付加された文字の字形をより詳細に指定する機能を持つが、異体字セレクタそのものが表示されることはない。

種類

異体字シーケンスには2種類あり、Standardized Variation Sequence (標準化された異体字シーケンス、略称 SVS[注 4]) と、Ideographic Variation Sequence (漢字異体字シーケンス、略称 IVS) がある。

SVSは非漢字やCJK互換漢字などで利用され、その字形コレクションはUnicodeのStandardized Variants[10]にて定義されている。Standardized Variantsへの字形の追加は、ユニコードコンソーシアムが行なっている。

一方、IVSは漢字専用で、字形コレクションは Ideographic Variation Database (漢字異体字データベース、略称 IVD) にて定義されている。IVDへ字形コレクションを登録するには、定められた手続きに則ってユニコードコンソーシアムへ申請を行う必要がある[11]

2017年12月現在、異体字セレクタにより利用できる異体字は、以下のとおりである。

Standardized Variantsに登録されている字形コレクションとその数

IVD (2017-12-12版) に登録されている字形コレクションとその数

  • Adobe-Japan1コレクション:14,683通り[注 5]
  • 汎用電子情報交換環境整備プログラムのHanyo-Denshiコレクション:13,045通り
  • 文字情報基盤整備事業のMoji_Johoコレクション:11,384通り
  • マカオ特別行政区のMSARGコレクション:21通り
  • 韓国のKRNameコレクション:36通り

ただしHanyo-Denshiには、Adobe-Japan1と多数の重複がある (後述の#問題点も参照)[13]。Hanyo-DenshiとMoji_Johoでは同一の字形は異体字セレクタを共有している。Adobe-Japan1では、文字セットのAdobe-Japan1-6に含まれる漢字であれば「一」(U+4E00) のように単一の字形しか存在しないものでもその単一の字形が登録されている。Hanyo-Denshiでは、Adobe-Japan1とは異なり同一符号位置で複数の字形を持つもののみ登録されており、単一の字形しか存在しないものは登録されていない。

符号位置

異体字セレクタとして以下のものが定義されている。

  • モンゴル文字専用のモンゴル自由字形選択子 (: Mongolian Free Variation Selectors、略称 FVS) :U+180B〜U+180D (3個)。※<https://en.wikibooks.org/wiki/Unicode/Character_reference/1000-1FFF>の一覧表「Mongolian」によるとUnicode 14.0時点で個数は5つとされている(FV S1、FV S2、FV S3、MV S、FV S4)。正確には、その5つの内の1つであるMV S(U+180E)は前述FVSでなくMongolian Vowel Separator(MVS)である。
  • SVSで利用される異体字セレクタ:U+FE00〜U+FE0F (VS1~VS16) (16個) (基本多言語面 (BMP) に定義)
  • IVSで利用される異体字セレクタ:U+E0100〜U+E01EF (VS17~VS256) (240個) (追加特殊用途面 (SSP) に定義)

異体字セレクタとそれが付加される文字との組み合わせ、および指定される字形は規格で定められており、それ以外の組み合わせは無視される。利用者が独自に考えた未登録の字形を利用したい場合には私用領域を用いる。私用の異体字セレクタ (Private Use Variation Selectors) を追加する提案もあった[14]が、取り入れられていない。

IVSでは拡張領域である追加特殊用途面 (SSP) に定義された異体字セレクタ (U+E0100〜U+E01EF, VS17~VS256) を使用する[11]。このためIVSに対応し、UTF-16を使用するアプリケーションは、サロゲートペアを正常に扱えなければならない。逆にSVSではUnicode 10の時点では全て基本多言語面 (BMP) の異体字セレクタ (U+FE00〜U+FE0F, VS1~VS16) を使用している。なおCJK互換漢字は、漢字でありながらIVSではなく非漢字と同じSVSとして登録されたため、基本多言語面 (BMP) の異体字セレクタを使用する。

2012年1月には絵文字としても使われる107文字がStandardized Variantsに追加され、テキストスタイル (普通の文字のように白黒で表示) と絵文字スタイル (カラーで表示したり、アニメーションする) の切替をSVSで行えるようになった。使用する異体字セレクタは基本多言語面に規定されたもので、テキストスタイルがU+FE0E (VS15)、絵文字スタイルがU+FE0F (VS16) となっている。

なお、U+303EにIDEOGRAPHIC VARIATION INDICATOR (直訳すると漢字異体字表示子) という似たような名称で、かつ例示字形が点線で囲まれている (通常は不可視である制御文字などを示す) ものが存在するが、これはこれに続く漢字が異体字であることを示す可視の記号 (下駄記号の異体字版) であり、異体字セレクタではない[15]

CJK互換漢字との関係

CJK互換漢字を使うと<U+FA30>、異体字セレクタを使うと<U+4FAE E0101>,<U+4FAE E0103>,<U+4FAE FE00>のいずれかで符号化される

JIS X 0213CNS 11643などの各国の文字コードでは区別されているが、Unicodeでは統合されている文字を区別するため、UnicodeではこれまでCJK互換漢字を使ってきた。しかし技術的な制約により、漢字の異体字セレクタはCJK統合漢字 (正確にはUnified_Ideographプロパティを持つ文字) にしか付けることができない。これはUnicode正規化に対する安定性の問題 (CJK互換漢字#日本語処理における問題点を参照) を改善するが[16]、同じ字形を意図していても異体字セレクタに対応した実装と対応していない実装との間で異なる符号化表現が採用され、混乱を招く可能性も指摘されている[17]

また、2006年1月にIVDへの字形コレクションの登録手続きが制定され[11]、登録が可能になった後にもARIB外字や汎用電子情報交換環境整備プログラムで収集された漢字の一部をCJK互換漢字として収録することが要望される[18][19]など、足並みは必ずしもそろっていなかった。

2013年9月30日制定のUnicode 6.3では、CJK互換漢字Unicode正規化CJK統合漢字に置き換えられ、字形等の情報を失ってしまう問題を解消するために、CJK互換漢字と等価なCJK統合漢字と異体字セレクタの組合せがIVDとは別にStandardized Variantsに登録され、SVSにより利用できるようになった。IVSとは異なり基本多言語面にあるU+FE00 (VS1) ~U+FE02 (VS3) を使う。IVDにある字形と同じものでも登録されている。CJK互換漢字ブロックおよびその補助集合のうち、CJK統合漢字として扱うものを除いた1,002字全てが登録された。例えば、「侮」の康煕別掲の字体でありCJK互換漢字であるU+FA30の「侮」は、U+4FAEとU+FE00 (VS1) の組合せで登録された。また、字体の違いでなく韓国KS X 1001の読みの違いで分離されているものや台湾Big5の誤って重複収録されたものに対応するCJK互換漢字にも異体字セレクタが与えられている。例えば、U+F90Aの「금」(Geum、クム) と読む「金」には、U+91D1 (KS X 1001では「김」(Gim、キム) と読む「金」に対応) と字体が全く同じであるが、これにU+FE00 (VS1) を付け加える組合せが与えられた。

問題点

国によって異なる骨の異体字 (・骨)。異体字セレクタでは対応していない例

異体字セレクタに対応したフォントを指定できる環境以外では、異体字セレクタを使用しても対象の環境で意図した異体字が表示されるとは限らない。ただし外字と異なり、異体字セレクタは文字コード上で指定され、かつセレクタ値の定義は共通のため、どのような字形を意図していたかの情報は失われない。

  • すべての環境で異体字セレクタに対応しているとは限らず、対応した環境であっても対応範囲はフォントによって必ずしも一様ではない。たとえばWindows 8.1搭載の日本語フォントのうち、游明朝・游ゴシックはAdobe-Japan1によるIVSを完全にサポートするが、MS 明朝MS ゴシックはおおむねJIS X 0213:2004で例示字形が変更される以前の字形 (いわゆるJIS90での字形) のみをIVSでサポートする。
  • IVDでは当初、登録者が異なれば同一の字形の漢字であってもそれぞれでIVSが割り当てられることになっていたため、Adobe-Japan1 と Hanyo-Denshi (Moji_Joho) 同士で、同一の字形の漢字に重複してIVSが割り当てられる事態が発生した。例えば「葛」の場合、葛飾区の「葛」 (U+845B, JIS2004字形) の字形では、Adobe-Japan1 の VS18 (U+E0101, CID+7652) と、Hanyo-Denshiの VS20 (U+E0103, FT1769) が割り当てられ、また葛城市の「葛」 (U+845B, JIS90字形) の字形では、Adobe-Japan1 の VS17 (U+E0100, CID+1481) と Hanyo-Denshiの VS19 (U+E0102, JA1975) が与えられた。なお、2011年8月17日のUTS #37の改訂で、登録者同士で合意があればIVSの共有が可能となり、実際にその後IVDに追加されたMoji_Johoでは既存のHanyo-Denshiと同一字形ではIVSを共有している[11]
  • Unicode 6.3ではIVSとは別にCJK互換漢字にSVSとしても異体字セレクタが与えられた (詳細は前述の#CJK互換漢字との関係を参照) ため、例えば「侮」(U+FA30, CJK互換文字) には「侮」 (U+4FAE) のIVSとして、Adobe-Japan1のVS18 (U+E0101, CID+13382) とHanyo-Denshi / Moji_JohoのVS20 (U+E0103, JC1424 / MJ030244) が割り当てられた他、CJK互換漢字の U+FA30 に対応するSVSとして VS1 (U+FE00) が与えられるなど、同じ字体に異体字セレクタが3つ、符号位置としては4つも与えられることとなった。
  • 現状では言語によって異なる異体字 (図参照) のようなケースを異体字セレクタで区別することができない。

歴史

Unicodeは主に米国企業の集まりからなるユニコードコンソーシアムが定める私的な文字コード規格だが、国際符号化文字集合 (ISO/IEC 10646, UCS) との間で、収録文字と符号の割り当てに関して常に同期を取ることで合意がなされている[20]。国際符号化文字集合は国際標準化機構 (ISO) と国際電気標準会議 (IEC) の合同技術委員会 (ISO/IEC JTC 1) 第2小委員会 (SC2) 第2作業部会 (WG2) で制定作業が行われている。以下、WG2での動きを中心に異体字セレクタの収録にかかわる歴史を概観する。

2000年9月15日、ISO/IEC 10646-1が改訂され、中国の提案によりUCSに収録されたモンゴル文字の一部としてモンゴル自由字形選択子 (Mongolian Free Variation Selectors) 3文字が規定された[21]

2000年3月14日、アメリカがUCSへの数学記号の追加を提案した。この一部として、異体字セレクタ1文字が含まれていた。これは、意味が同じだが出版社の慣習や著者の好みなどにより異なる字形が使われることのある数学記号の字形を区別するために使うことを意図していた[22]

2001年1月14日、アメリカが追加の異体字セレクタの収録および異体字セレクタの使い方に関する説明の追加を提案した。この説明は漢字に対しての使用が想定されていたが、実際に漢字に対して定められた組み合わせはこの時点で1つも存在しなかったため、漢字に関する言及は除いてWG2に受理された[23]

2001年8月17日、WG2のリエゾン会員であるユニコードコンソーシアムが、活動報告として255文字の異体字セレクタを追加で承認したことを述べた[24]。UCSとUnicodeの同期の原則により、これらはUCSにも収録される必要があった。

2002年3月27日にUnicode 3.2が[25]、7月15日にISO/IEC 10646-1:2000 追補1が制定された[26]。これらは256文字の異体字セレクタのうち基本多言語面に含まれる16文字を収録していた。

2002年4月1日、日本はWG2に、万寿の表現には少なくとも10000種類の異体字セレクタが必要であるから、UCSの第13をまるまる漢字の異体字セレクタに割り当てるべきであるとする文書を提出した[27]。ただしこれは大真面目に書かれてはいるもののジョークRFCに似たエイプリルフール文書で、なぜかWG2の第42回会議の議題にまで上ってしまったが[28]、実際には審議されていない[29]

2002年5月20日、日本は上記アメリカの提案が異体字セレクタを漢字に使うつもりであったことに関して、議論が全く深められておらず導入は時期尚早であると懸念を表明した[30] (モンゴル文字や数学記号の収録に伴う異体字セレクタの導入ではそれまで長い時間を掛けて検討が重ねられていた)。

2003年4月にUnicode 4.0が[31]、12月にISO/IEC 10646:2003が制定され[32]追加面に含まれる異体字セレクタの残り240文字が両規格に収録された。

2003年6月25日、ドイツウムラウトトレマを区別するための異体字セレクタの追加を要望したが[33]、技術的制約により異体字セレクタでは実現不可能であったため却下された[34]

2005年7月16日、アメリカの企業アドビエリック・ミューラーとアメリカの企業サン・マイクロシステムズ樋浦秀樹 (当時) より、異体字セレクタを実際に漢字で運用するための漢字字形データベース (: Ideographic Variation Database、IVD) の規格草案がユニコードコンソーシアムに提案され[35]、2006年1月13日正式版が発行された[36]

2006年7月4日にISO/IEC 10646:2003 追補2が、14日にUnicode 5.0が制定され[37]、両規格へのパスパ文字の収録に合わせてパスパ文字と異体字セレクタの組み合わせが追加された[38]

鎭 鎭ではなく、鎮にVS18を付けて表す
ではなく、にVS18を付けて表す

2007年12月14日、Adobe-Japan1が最初の漢字字形コレクションとして正式に承認され、IVDに登録された[39]。ただし2度の公開レビューにもかかわらず割り当てに疑問が残る組み合わせの存在も指摘されている (右図はその一例)[40]

2008年10月10日、日本は汎用電子情報交換環境整備プログラムの成果として収集・整理された、戸籍住民基本台帳ネットワークの処理に必要とされる異体字を、互換漢字として追加提案した[19]。これに対しUnicode Technical Committee (UTC)と米国は、互換漢字は正規化に際して区別が保存されず、また統合漢字の字形の一意性は保証されないため、IVDによる登録を推奨するとコメントした[41]。またUTCは、SC2からの登録に対して通常IVDへの登録にかかる登録料を免除すると伝えた[42]。これを受け、2009年10月16日、日本は互換漢字の追加提案を取り下げた[43]

2010年3月31日、日本は取り下げた互換漢字の追加提案に代わってIVDへ登録を申請し[44]、2010年11月14日正式にHanyo-Denshiとして登録された[45]

2010年12月6日、アドビイーストジャストシステム大日本スクリーンマイクロソフトモリサワの6社共同で、IVSの普及推進を目的としてIVS技術促進協議会が設立された[46]

2011年4月2日、UTCから簡体字をIVSで表す登録申請の準備をしていることが告知された[47]。しかしCJK統合漢字の既存の符号化モデルと矛盾する上に、21字中符号化済みの漢字が6字も含まれるというずさんな提案であり、IRG[48]・韓国[49]・イギリス[50]などから懸念が寄せられ、登録申請は中止された。

2012年1月31日、Unicode 6.1が制定。絵文字のテキストスタイルと絵文字スタイル切り替えのための異体字セレクタの組合せが登録された[51]

2012年3月2日、IVDがバージョンアップ。Hanyo-DenshiとAdobe-Japan1のこれまで登録されていなかった異体字のうち一部が追加登録された[52]

2013年9月30日、Unicode 6.3が制定。CJK互換漢字の字形コレクションがSVSに登録された[53]

2014年5月16日、IVDがバージョンアップ。文字情報基盤整備事業のMoji_Johoが登録された[52]

2016年6月21日、Unicode 9.0が制定。絵文字の追加等があった。

2016年8月15日、IVDがバージョンアップ。マカオ特別行政区のMSARGが登録された。日本以外が登録者のIVD登録は初である。

2017年12月12日、IVDがバージョンアップ。Moji_JohoとAdobe-Japan1で字形の組み合わせの追加があった他、韓国のKRNameが新たに登録された。

実装

漢字の異体字セレクタに対応した実装には以下のようなものがある。

フォント

以下は和文フォントでの異体字セレクタへの対応状況である。

  • MS 明朝MS ゴシックメイリオ・Meiryo UI - OSバンドルフォント。Windows 8に搭載のバージョンから、JIS X 0213:2004で例示字形が変更される以前の字形 (いわゆるJIS90の字形) 122文字をIVSによりサポートしている[54]
  • ヒラギノ角ゴシック/明朝/丸ゴシック ProN (Adobe-Japan1) - OSバンドルフォント及び市販フォント。Mac OS X Lion (10.7) に搭載のバージョン (8.10) からAdobe-Japan1によるIVSに対応した[55]
  • 游明朝体・游ゴシック体 Pr6N (Adobe-Japan1) - OSバンドルフォントおよび市販フォント。OS X Mavericks (10.9) 以降とWindows 8.1以降、および一太郎2014プレミアムにバンドルされているバージョンで対応。Adobe-Japan1のIVSをサポートしている[56]
  • 小塚明朝小塚ゴシック Pr6N (Adobe-Japan1) - 市販フォント。2007年8月1日のバージョン6.003でAdobe-Japan1のIVSに対応した[57]
  • 源ノ角ゴシック (Noto Sans CJK)・源ノ明朝 (Noto Serif CJK) - フリーフォント。アドビGoogleの共同開発。日本語部分ではAdobe-Japan1のIVSおよびCJK互換漢字のSVSに対応している。なおAdobe-Japan1-6文字セットの漢字グリフは網羅しているが、Adobe-Japan1との互換性がとくに考慮されているわけではない。
  • IPAフォント - フリーフォント。
    • IPAexフォント - JIS X 0213:2004で例示字形が変更される以前の字形など352文字をIVSによりサポートしている。また、搭載しているCJK互換漢字93文字にSVSを実装している[58]
    • IPAmj明朝 - 約1万文字にMoji_JohoによるIVSを実装している[59][60]。2017年12月に文字情報基盤整備事業の漢字のUCSでの規格化が完了、2018年1月に対応版がリリースされ、2019年5月にはVer.006.01がリリースされた[61]。IVD 2017-12-12 Moji_Johoコレクションに準拠してIVSを実装してある。
  • 花園フォント (Adobe-Japan1) - フリーフォント。2009年12月1日版よりIVSのサポートを開始し、2010年2月22日版でAdobe-Japan1のIVSを完全収録した[62]。2017年09月04日版でIVSの2016年8月15日版[63]に対応した。
  • Y.OzFont - フリーフォント。2008年2月8日のバージョン12.04以降、IVSに対応している[64]
  • 和田研フォント - フリーフォント。IVSに対応したものは「和田研細丸ゴシックProN」がある。JIS X 0213:2004で例示字形が変更される以前の字形をこれによりサポートしている[65]
  • モリサワイワタフォントワークスが販売しているフォントでは、Adobe-Japan1-6 (Pr6N/Pr6) の多くのフォントでIVS (Adobe-Japan1) に対応している[66]

フォント規格

  • OpenType 1.5では、Unicodeの異体字セレクタによる字形切り替えをサポートするため、cmapテーブルでFormat 14 "Unicode Variation Sequences"を規定した[67]
  • SVGフォントはIVSに限らず、任意のUnicode符号列に対してグリフを割り当て可能である[68]

フォント作成ツール

Unicodeの異体字セレクタに対応したフォントの作成に対応した (cmapテーブルのFormat 14の生成ができる) ツールには、以下のようなものがある。

  • FontForge - 2007年10月2日以降のビルドでcmapテーブルのFormat 14の生成に対応[69]
  • Adobe Font Development Kit for OpenType (AFDKO) - バージョン2.1以降でcmapテーブルのFormat 14の作成に対応[57]
  • TTX/FontTools - GlyphWikiでIVS対応フォントの生成に使われている[70]
  • TTEdit - IVS対応 TrueTypeフォントから作成した場合。

ライブラリ

FreeTypeの2007年10月以降の開発版には、フォントファイル内のcmapテーブルから異体字セレクタの情報を読み取るためのAPIが追加されている[71]

ソフトウェア

  • Windows 7では標準のテキスト描画処理が異体字セレクタに対応しており、エクスプローラーでのファイル名表示やメモ帳やサードパーティのテキストエディタでのテキスト表示等で異体字セレクタによる字形切り替えが可能である。ただし、使用するフォントが異体字セレクタによる字形切り替えに対応している必要があり、日本語版の標準フォントであるメイリオはWindows 7にバンドルされたバージョンではIVSに対応していないため、初期状態では異体字セレクタで字形が切り替わらない。[72]
  • Windows 8以降、システム標準の日本語フォントがIVSに対応した[73]
  • Mac OS X 10.5標準のテキスト描画処理はdefault ignorableプロパティに従い[74]異体字セレクタを描画しないが、字形の切り替えはサポートしない。
  • Mac OS X 10.6標準のテキスト描画処理は字形の切り替えをサポートするが[75]、Windows 7と同様標準フォントのヒラギノは異体字セレクタに未対応である。
  • Mac OS X Lion (10.7) で、ヒラギノフォントがAdobe-Japan1によるIVSに対応した[76]
AlphaとY.OzFontによる、UTS #37の例文の描画結果「田さんは芦屋のお嬢様だ」「」の「戸」が新字体旧字体
  • Alpha (テキストエディタ) - 2008年2月のIVS-OTFT試験公開版では異体字セレクタの情報をOpenType機能タグの情報に変換することにより、異体字セレクタによるグリフの切り替えに対応している[77][78]
  • gdi++
  • Emacs 23[79]
  • EmEditor v11以降[80]
  • FooEditor (テキストエディタ)[81]
  • gPad (テキストエディタ)
  • Mery (テキストエディタ)
  • oedit (テキストエディタ)
  • Adobe Reader 9以降、Flash Player 10のFlash Text Engine、Adobe InDesign CS4などのアドビ社製品[75]
  • Windows 7上でのOpera (Presto)[82]
  • Mozilla Firefoxはバージョン4以降、システムにインストールされたフォントおよびWebフォントによる異体字セレクタの描画をサポートする[83]。またバージョン31以降、CJK互換漢字のStandardized Variantsをフォントがサポートしていない場合に、CJK互換漢字のグリフで代替する機能を持つ[84]
  • WebKitはSVGフォントをサポートしており、SVGフォントによって定義したIVSによる字形切り替えが可能である。Opera (Presto) もSVG文書でのみSVGフォントによる字形切り替えが可能[85]
  • 一太郎2008以降 - 入力機能は2014 徹から。それ以前は貼り付けのみ対応。個人向けATOKも2014より正式対応。法人向けはその前年より。
  • Microsoft Office 2007以降 - 2010まではUnicode IVS Add-in for Microsoft Office[86]が必要
  • LibreOffice 4.1以降/Apache OpenOffice 4.0以降
  • (データベース) 桐10以降 - 入力、表示、検索、印刷などの一般的なサポートに加えて、IVSによる異体字を同一の文字として扱う検索、ソートが可能。

異体字セレクタの使用例

JIS漢字コードの字形・字体の変遷を異体字セレクタを使用して表現した例を示す。フォントは游明朝体を使用した。

字形は、以下のWebサイトを参考とした。

JIS2004 JIS2000 JIS90 JIS83 78JIS Unicode 備考
茨󠄀 茨󠄀 茨󠄀 茨󠄀
E0100 E0100 E0100 E0100 U+8328
飴󠄀 飴󠄀 飴󠄀
E0100 E0100 E0100 U+98F4
辻󠄀 辻󠄀 辻󠄀
E0100 E0100 E0100 U+8FBB
葛󠄀 葛󠄀 葛󠄀
E0100 E0100 E0100 U+845B
芽󠄀 芽󠄀
E0100 E0100 U+82BD
恢󠄀 恢󠄀 恢󠄀 恢󠄁
E0100 E0100 E0100 E0101 U+6062
概󠄂 概󠄁
E0102 E0101 U+6982
厩󠄀 厩󠄀 厩󠄃 厩󠄁
E0100 E0100 E0103 E0101 U+53A9
靱󠄁 靭, 靱 JIS83で靭󠄁と字形交換。
U+976D U+976D U+976D U+976D U+9771 + E0101 U+976D, U+9771
靱󠄀 靱󠄀 靱󠄂 靭󠄁 靱, 靭 JIS83で靱󠄁と字形交換の後、字形も複数回変更。
U+9771 U+9771 + E0100 U+9771 + E0100 U+9771 + E0102 U+976D + E0101 U+9771, U+976D
- - - ※ JIS2000からJIS2004で例示字形が変更されているが異体字セレクタで表現できない[注 6]
U+5C62

脚注

注釈

  1. ^ JIS X 0221:2007の規格票では「字形選択子」という訳語を当てているが、全く意味の異なる"Character shaping selectors"などにも全く同じ訳語を当てているので、混乱を避けるため本項では「異体字セレクタ」という訳語を用いる。
  2. ^ 「異体字」は字形のみ異なる文字を指す一般的な言葉だが、UnicodeのVariation Selectorsは字形の差が比較的小さい場合のみの適用を想定されていることに注意。字形の差が大きい異体字は別のコードポイントに割り当てられている場合がある。
  3. ^ 正確には「原則」というよりも、当初の目論見であった16ビットの体系に、CJKそれぞれの漢字を独立に並べることは空間のサイズ的に不可能、という所から来た成行き上の都合に合わせ、そのようなルールが作られた。
  4. ^ 一般にはSVSが略称として使われることがあるが、公式な略称ではない
  5. ^ なおAdobe-Japan1-6の文字セットに含まれる漢字は14,664個である。差異はCID+12869(ルビ用の「注」)、同一CIDに対する重複18個 [1]
  6. ^ 屢の字形変更は微妙(つくりの申と中のような部分の間隔の微妙な変化)で、それを異体字としてIVSで実装しているフォントがあるかどうか不明。

出典

  1. ^ Unicode Technical Report #17 - Character Encoding Model” (2004年9月9日). 2008年2月2日閲覧。
  2. ^ 川俣晶『Windows NT 日本語処理ガイドブック』Windows NT 漢字処理技術協議会、1998年10月30日、p.5頁http://www.xkp.or.jp/xkp2.pdf 
  3. ^ ウィキペディア上ではTemplate:JIS2004フォントを使用して表示可能
  4. ^ ウィキペディア上ではTemplate:JIS90フォントを使用して表示可能
  5. ^ アプリケーション開発者向け Windows Vista 対応アプリケーションの互換性”. pp. 68. 2008年2月2日閲覧。[リンク切れ]デモ映像[リンク切れ]
  6. ^ XAMLOpenTypeの字形切替を使う例: 機種依存文字のJIS90字体とJIS2004字体を同時に表示するには?”. 2023年11月21日閲覧。
  7. ^ Mac専用日本語入力プログラム“egbridge Universal””. 2008年2月15日閲覧。
  8. ^ アップル - Pro - 技術情報 - Mac OS Xと日本語タイポグラフィ 第5回:ヒラギノProの漢字を巡る座談会 - ページ6”. 2008年2月15日閲覧。
  9. ^ Format Characters Suitable for Use with Markup” (2003年6月13日). 2008年2月2日閲覧。
  10. ^ StandardizedVariants.txt”. Unicode Consortium (2015年11月20日). 2017年6月1日閲覧。
  11. ^ a b c d Unicode® Technical Standard #37 UNICODE IDEOGRAPHIC VARIATION DATABASE”. Unicode Consortium. 2017年10月5日閲覧。
  12. ^ emoji-variation-sequences.txt” (英語). Unicode Consortium. 2017年10月6日閲覧。
  13. ^ 安岡孝一 (2011年1月24日). “UnicodeのIVSがもたらすメリットとデメリット - 新常用漢字が引き起こす文字コード問題”. 2011年2月1日閲覧。
  14. ^ https://www.unicode.org/L2/L2003/03293-puvs.html
  15. ^ Ad-Hoc Report on Ideographic Variation Indicator” (1998年3月18日). 2008年2月21日閲覧。
  16. ^ Re: Comment on PRI 98: IVD Adobe-Japan1 (pt.2)” (2007年3月20日). 2008年2月2日閲覧。
  17. ^ Re: Comment on PRI 98: IVD Adobe-Japan1 (pt.2)” (2007年3月25日). 2008年2月2日閲覧。
  18. ^ Proposal to encode six CJK Ideographs in UCS” (2007年9月7日). 2008年2月2日閲覧。
  19. ^ a b Proposal to Add a Set of Compatibility Ideographs for Government Use” (2008年10月10日). 2011年2月1日閲覧。
  20. ^ The Unicode Consortium (2006-11-03). The Unicode Standard, Version 5.0. Addison-Wesley Professional. pp. p.1097. ISBN 978-0321480910. https://www.unicode.org/versions/Unicode5.0.0/appC.pdf#G1864 
  21. ^ ISO/IEC 10646-1:2000 Information technology -- Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and Basic Multilingual Plane. (2000-09-15) 
  22. ^ Proposal for encoding additional mathematical symbols in BMP” (2000年3月14日). 2008年2月2日閲覧。
  23. ^ Final disposition of comments on FPDAM1 – 10646-1:2000” (2001年1月14日). 2008年2月2日閲覧。
  24. ^ Unicode Liaison Report” (2001年8月17日). 2008年2月2日閲覧。
  25. ^ Unicode Standard Annex #28 - Unicode 3.2” (2002年3月27日). 2008年2月2日閲覧。
  26. ^ ISO/IEC JTC 1 SC 2 N 3651 3. Prgramme of Work”. 2008年2月2日閲覧。
  27. ^ Proposal: Use full plane-13 for the Han variation selector” (2002年4月1日). 2008年2月2日閲覧。
  28. ^ Updated Agenda – Meeting 42” (2002年5月19日). 2008年2月2日閲覧。
  29. ^ Dublin Meeting 42 Minutes”. pp. p.36 (2002年10月30日). 2008年2月2日閲覧。
  30. ^ Concerns on the VARIATION SELECTORS in ISO/IEC 10646-2, PDAM-1” (2002年5月20日). 2008年2月2日閲覧。
  31. ^ Components of Unicode 4.0” (2003年4月). 2008年2月2日閲覧。
  32. ^ JTC 1/SC 2 Programme of Work”. 2008年2月2日閲覧。
  33. ^ German request to encode the characters "LATIN VARIATION SELECTOR UMLAUT" and "LATIN VARIATION SELECTOR TREMA"” (2003年6月25日). 2008年2月2日閲覧。
  34. ^ UTC response to N2593” (2003年9月4日). 2008年2月2日閲覧。
  35. ^ Proposed Draft Unicode Technical Standard #37 - Registration of Ideographic Variation Sequences” (2005年7月16日). 2008年2月2日閲覧。
  36. ^ Unicode Technical Standard #37 - Ideographic Variation Database” (2006年1月13日). 2008年2月2日閲覧。
  37. ^ Components of Unicode Standard 5.0” (2006年7月14日). 2008年2月2日閲覧。
  38. ^ Standardized Variants Revision 5.0.0” (2006年7月14日). 2008年2月2日閲覧。
  39. ^ Ideographic Variation Database”. 2011年2月1日閲覧。
  40. ^ IVDのダブリ” (2008年1月7日). 2008年2月2日閲覧。
  41. ^ Handling Glyph Shapes for Government Use in WG2/N3530 via Variation Sequences” (2009年2月9日). 2011年2月1日閲覧。
  42. ^ Information on the Unicode Ideographic Variation Database – Letter to SC2 Unicode Consortium” (2009年3月12日). 2011年2月1日閲覧。
  43. ^ Follow-up on N3530 (Compatibility Ideographs for Government Use)” (2009年10月16日). 2011年2月1日閲覧。
  44. ^ N3796 Announcement of Japan's IVD Registration Japan NB” (2010年3月31日). 2011年2月1日閲覧。
  45. ^ Ken Lunde (2010年11月25日). “The “Hanyo-Denshi” IVD Collection has been registered!”. 2011年2月1日閲覧。
  46. ^ 人名などの異体字もデータ交換可能に、MSなどが「IVS技術促進協議会」発足”. INTERNET Watch (2010年12月6日). 2011年2月1日閲覧。
  47. ^ Preliminary Proposal for an Ideographic Variation Database Registration” (2011年4月2日). 2014年9月17日閲覧。
  48. ^ Summary Report of IRG #36” (2011年4月20日). 2014年9月17日閲覧。
  49. ^ R.O.Korea's comments RE: IRG N1757 (UTC Preliminary Proposal for an IVD Registration)” (2011年6月1日). 2014年9月17日閲覧。
  50. ^ Comments on issues raised in N4021” (2011年5月22日). 2014年9月17日閲覧。
  51. ^ Standardized Variants Revision 6.1.0” (2011年11月27日). 2014年9月17日閲覧。
  52. ^ a b Ideographic Variation Database”. 2014年9月17日閲覧。
  53. ^ Standardized Variants Revision 6.3.0” (2013年3月3日). 2014年9月17日閲覧。
  54. ^ Windows 8 の IVS 対応と IVS Add-in for Microsoft Office”. マイクロソフト. 2017年10月5日閲覧。
  55. ^ ヒラギノフォントとMac OS Xのバージョン相関表”. SCREENグラフィックソリューションズ. 2017年10月5日閲覧。
  56. ^ OS搭載の游書体の互換性” (PDF). 字游工房. 2017年10月5日閲覧。
  57. ^ a b Ideographic Variation Sequences”. pp. p.10 (2007年10月17日). 2008年3月10日閲覧。
  58. ^ IPAexフォント リリースノート”. 2017年10月7日閲覧。
  59. ^ 連載:OSS界のちょっと気になる話 第1回 どんな人名も正しく表示? IPAの新フォントを試そう!”. 2012年1月5日閲覧。
  60. ^ IPAmj明朝フォント”. 2024年6月20日閲覧。
  61. ^ IPAmj明朝Ver.006.01の符号化の状況”. 2024年6月20日閲覧。
  62. ^ 花園フォント”. 2011年1月19日閲覧。
  63. ^ Charts for the Unicode Ideographic Variation Database Hanyo-Denshi collection August 15, 2016” (2016年8月15日). 2024年6月20日閲覧。
  64. ^ Y.Oz Vox” (2008年3月10日). 2019年5月19日閲覧。
  65. ^ 和田研細丸ゴシック2004フォントの公開”. 2012年1月5日閲覧。
  66. ^ IVS対応製品 - 文字情報技術促進協議会”. 2017年10月7日閲覧。
  67. ^ Microsoft Typography - OpenType Specification” (2008年1月29日). 2008年3月10日閲覧。
  68. ^ Fonts – SVG 1.1 (Second Edition)”. 2011年2月1日閲覧。
  69. ^ Change log for FontForge” (2008年3月9日). 2008年3月10日閲覧。
  70. ^ GlyphWiki:フォント生成”. 2011年1月19日閲覧。
  71. ^ freetype-devel (thread)” (2007年10月31日). 2008年3月10日閲覧。
  72. ^ Biotronique - Computing - 実は異体字セレクタに対応済のWindows 7” (2009年12月2日). 2009年12月3日閲覧。
  73. ^ 田丸健三郎, 小林龍生『Unicode IVS/IVD入門』。ISBN 978-4822294830 
  74. ^ FAQ - Display of Unsupported Characters”. 2011年1月19日閲覧。
  75. ^ a b Ken Lunde. “IVS (Ideographic Variation Sequence) support in OSes”. 2011年2月1日閲覧。
  76. ^ ヒラギノとMac OS Xのバージョン相関表” (2014年7月8日). 2014年9月17日閲覧。
  77. ^ 新レイアウトエンジンの実装 その 46 : 異体字セレクタの続き”. Alpha の古い日記 (2008年1月30日). 2019年5月19日閲覧。
  78. ^ 新レイアウトエンジンの実装 その 50 : 異体字セレクタのその後”. Alpha の古い日記 (2008年3月13日). 2019年5月19日閲覧。
  79. ^ Emacs 23 と Lookup”. 2011年1月19日閲覧。
  80. ^ Version 11 の新機能”. EmEditor (テキストエディタ). 2019年5月19日閲覧。
  81. ^ Foo Editor”. 2013年10月13日閲覧。
  82. ^ Windows7でIVSの表示テスト”. 2011年1月19日閲覧。
  83. ^ Bug 552460 - implement Ideographic Variation Sequences support”. 2011年1月19日閲覧。
  84. ^ Bug 989557 - Support fallback for CJK Compatibility Ideographs Standardized Variants”. 2014年9月17日閲覧。
  85. ^ SVGフォントでIVSを表示するテスト”. 2011年1月19日閲覧。
  86. ^ Unicode IVS Add-in for Microsoft Office”. 2012年11月12日閲覧。

参考資料

関連項目

外部リンク