rules table — 規則テーブルには、住所入力順列トークンから標準化した出力順列への対応付けに関する規則の集合が入ります。それぞれの規則は、入力トークン、-1 (終端)、出力トークン、-1、規則の種類を示す数字、規則の階級、からなります。
規則テーブルには、少なくとも次に示すカラムが必要です。それ以外にカラムを追加してもかまいません。
テーブルの主キー
規則を示す文字列フィールド。 PAGC Address Standardizer Rule recordsに詳細情報があります。
ruleには、入力トークンを表現する非負の整数、終端を示す-1、郵便属性を表現する非負の整数、終端を示す-1、規則種別を表現する整数、規則の階級を示す整数からなる集合が入ります。規則は0 (最低)から17 (最高)まであります。
たとえば、2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
は、TYPE NUMBER TYPE DIRECT QUALIFなる入力トークン順列が、STREET STREET SUFTYP SUFDIR QUALIFなる出力トークン順列に対応付けされ、規則はARC_Cで、階級は6となります。
対応する出力トークンはstdaddrに挙げています。
個々の規則は、入力トークン順列、終端を示す-1
の順です。PAGC Input Tokensから引用した正当な入力トークンは次の通りです。
書式ベースの入力トークン
(13) アンパサンド (&)は、"and"という語を短縮するために、よく使われます。
(9) 区切り記号。
(21) 二つの文字の順列。しばしば識別子に用いられます。
(25) ときどき"civic nunber"または"unit number" (訳注: 各戸に付けられる番号)で使われます。
(23) 英数文字列。識別子に用います。
(0) 数字からなる文字列。
(15) "First"や"1st"といったものを表現する文字列。しばしばストリート名の中で使われています。
(18) 一つの文字。
(1) 任意長を持つ文字列です。一つの文字はSINGLEおよびWORDの両方になりえます。
機能ベースの入力トークン
(14) 私書箱を示すために使われる語です。たとえば BoxまたはPO Boxです。
(19) 建物またはその複合体を示すための語で、通常は前置語になります。たとえばTower 7AではTowerが該当します。
(24) 建物またはその複合体を示すために使われる語または略語で、通常は後置語になります。たとえばShopping Centreです。
(22) 方位を示す語です。たとえば Northです。
(20) 距離標の住所を示す語です。
(6) 高速道路と道路を示す語または略語です。たとえばInterstate 5のInterstateです。
(8) 地方集配路線を示す語または略語です。たとえばRRです。
(2) ストリート種別を示す語または略語です。たとえばSTやAVEです。
(16) 内部の部分住所を示す語または略語です。たとえばAPTやUNITです。
郵便型入力トークン
(28) 5桁の番号。ZIPコードです。
(29) 4桁の番号。ZIP4です。
(27) 英数3文字の順列です。カナダの郵便番号の先頭3文字であるFSAを示します。
(26) 英数3文字の順列です。カナダの郵便番号の末尾3文字です。
ストップワード
STOPWORD (訳注: 処理対象外とする語)はWORDと結合します。規則で、複数のWORDとSTOPWORDの列は、単一のWORDトークンで表現されます。
(7) 重要性が低い語で、パース時に省かれます。たとえばTHEが該当します。
1番目の-1 (終端)の後に、出力トークンが続き、その後に-1
が続きます。対応する出力トークンの番号は、stdaddrに挙げています。許されるものは、規則の種類に依存します。それぞれの規則種別で有効なトークンは「規則種別と階級」に挙げています。
規則の最後の部分は規則種別で、次に挙げるものの一つが示すものです。この後には階級が続きます。規則は0 (最低) から17 (最高)までに階級付けされます。
MACRO_C
(トークン番号 = "0") PLACE STATE ZIPのようなMACRO節をパースするための規則のクラス。
MACRO_C出力トークン (http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--からの引用)
(トークン番号 "10") たとえば"Albany" (訳注: ニューヨーク州の州都)等。
(トークン番号 "11") たとえば"NY" (訳注: ニューヨーク州)等。
(トークン番号 "12") ほとんどの参照ファイル内で使われない属性です。たとえば"USA"等。
(トークン番号 "13") (SADS elements "ZIP CODE" , "PLUS 4" ). 米国Zip (郵便番号)とカナダ郵便番号の両方で使われます。
MICRO_C
(トークン番号 = "1") 完全なMICRO節 (House, street, sufdir, predir, pretyp, suftype, qualif等)をパースするための規則のクラス (ARC_CとCIVIC_Cの和)。建物フェーズでは使われません。
MICRO_C 出力トークン (http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--からの引用)
文字列 (トークン番号1
): ストリートの番号です。75 State Street
では 75にあたります。
文字列 (トークン番号2
): North, South, East, Westといった、ストリート名の方角前置語です。
文字列 (トークン番号 3
): ストリート名の修飾前置語です。3715 OLD HIGHWAY 99
ではOLDにあたります。
文字列 (トークン番号 4
): STREET PREFIX TYPE (ストリート名の前置詞の種別)
文字列 (トークン番号 5
): ストリート名
文字列 (トークン番号 6
): St, Ave, Cir等の後置詞の種別です。ストリート名に続いて記述されるものです。75 State Street
ではSTREETが該当します。
文字列 (トークン番号 7
): ストリート名に続くNorth, South, East, Westといった、ストリート名の方角前置語です。3715 TENTH AVENUE WEST
ではWESTが該当します。
ARC_C
(トークン番号 = "2") HOUSE属性を除いたMICRO節をパースするための規則のクラス。MICRO_CからHOUSEトークンを除いた出力トークン集合と同じです。
CIVIC_C
(トークン番号 = "3") HOUSE属性をパースするための規則のクラス。
EXTRA_C
(トークン番号 = "4") EXTRA属性 (ジオコーディングから除かれる属性)をパースするための規則のクラス。
EXTRA_C 出力トークン (http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--からの引用)
(トークン番号 0
): パースされていない建物識別子と種別。
(トークン番号 14
): BOX 3B
内の BOXにあたります。
(トークン番号 15
): BOX 3B
内の3Bにあたります。
(トークン番号 8
): RR 7
内のRRにあたります。
(トークン番号 16
): APT 3B
内のAPTにあたります。
(トークン番号17
): APT 3B
内の3Bにあたります。
(トークン番号9
): その他分類対象外の出力。