理研における、Genbank DNA塩基配列データベースのdaily update 宮澤三造(群馬大学工学部),安永照雄(理化学研究所) はじめに   1970年後半に始まるDNA 配列解析の実験技術の進歩によりさまざまな生物種において 多くの遺伝子が DNA のレベルで解析されるようになり、DNA 配列のレポートは指数関数 的に増大した。このような状況のなかで,1982年欧州にEMBL Data Library、米国に GenBankが DNAデータバンクとして国の援助の下で設立され,また日本でも 1986年 DNA Data Bank of Japan が国立遺伝学研究所に設立され,共同でデータの収集,提供を行ってい る.DNA データベースは、配列の類似性検索(homology search)及びSequence alignmentを 主な解析手段として、類似性の程度に基づき配列の分子系統樹の作成、類似性を手がかり に DNA 蛋白質配列の機能予測、構造予測 等、分子進化、DNA塩基配列の遺伝情報解析に 欠くことができない5).近頃では新しく DNA 配列を解析した場合、配列の類似性検索は 実験家のルーチンワークとなっている。このようにDNA データベースは生物学、医学、 農学等の広範囲にわたり研究上必要不可欠となった. また、最近ではファージの全遺伝 子配列のような短いものばかりではなく人間の全塩基配列までも解析しようとするゲノム 解析計画が米国,欧州をはじめ日本でも発足した。今後ゲノム解析計画の進行とともに従 来以上の多量のデータが予期される.データベースは現在定期的にリリースされるほか, 新データがBulletin Board でリリースされている.このようにしてリリースされるデータを データベースとして取り込むシステムを稼働させているので紹介する. 1. DNA データベースとは  現在 DNA データベースは、解析されたDNA断片ごとに図 1 に示されるようなエントリ ー単位で,フラットファイルの形で配布されている。図 1 は GenBank のエントリーの例 であるが,EMBL のエントリーも書式は異なるが本質的に同様である。図 1 で示されるよ うに,一エントリーは,エントリー名,データを一意的に指定する受理番号,配列の定義, 配列が由来する生物種の生物分類,配列データの参照論文,注釈レコード(Feature Table) と呼ばれるDNA配列にコードされている遺伝情報についての記述,そしてDNA配列など を記述した各種のレコードからなる. 図 2. GenBank, EMBL 各データベースに収集されている塩基数の変遷を示す.現在ヒトの 場合で全ゲノムの約 0.3 %が解析されている。大腸菌の場合にはほとんど解析されている のではと思うかもしれないが、約 40 %である。収集されている全塩基数は大腸菌ゲノム の約 14 倍に相当する約 66 MBases である。もちろん付加情報も含めれば、GenBank , EMBL ともに 塩基数の 約 2.5 倍(150-160 MBytes )に達する. 2. データリリース  GenBank/EMBL データベースは 年 4 回リリースされている.近年計算機ネットワーク が発達したので、Internet ネットワークを介して anonymous-ftp により入手することもでき る.近年の分子生物学の研究においては,年 4 回リリースはリリースサイクルとして充分 ではない.そこでGenBankはUSENET Bulletine Board にnewsgroupを作成し毎日データをそ のニュースグループにリリースしている.同様貳EMBL はmailing list により入力された新 データを毎日リリースしている.図 3 はこのようにして日々リリースされるGenBank 及び EMBLのデータ量を示す.日により大きく変動するが,平日は 200 KB - 1 MBのデータ量 に達する.このようにしてリリースされるデータは既にリリースされたデータの更新デー タも多数含まれるので,日々のリリースデータを加えたものはかならずしも年4回のリリ ースとは対応しない.このようにしてリリースされるデータのデータベースとして取り込 むシステムを稼働させているので紹介する. 3. 電子メールシステムを利用したデータ取り込みシステム  GenBank のデータはUSENET Bulletine Board にnewsgroup (bionet.molbio.genbank.updates) にリリースされている.これらのデータの取り出しは最も容易な方法,Bnews software Package に含まれている ニュース をメールを用い配送するためのプログラムsendnews を 用いている.このプログラムは CRC チェック用の情報も出力するのでデータをメールを して受け取った際不完全なデータを除去することも容易である.このようにして取り出さ れたデータは一旦システムのメールボックスに蓄えられた後、cron機能を利用して一定時 間毎にプログラムで処理しmailing list により必要なsites に転送している.このようにし ている理由はGenbankから一つの遺伝子のデータが一つのnewsとして送られてくるので、 ある程度まとめて送ったほうがシステムの負荷を軽減できるからである。なおこの際、 Bitnet では最大 300KB/mail 以下のメールしか許されないので、メールのサイズを調整し ている。またこのプログラムは,データを受ける相手先によっては,sendnews の付加す る先頭 一バイトの除去も行っている.このニュースシステムからのデータの取り出しは 理化学研究所の安永が管理している計算機(rknyst)と,群馬大学工学部の宮沢の計算機 (smlab)で独立になされている.rknyst はInternet に接続されているのでInternet sites に, smlabはInternet 未接続のサイトに UUCP で配布している.その一つに Bitnet 接続のみのた めnews が入手できない台湾のsite がある. 4. 電子メールシステムを利用したデータベース更新システム  このように多量なデータがリリースされると,データベースも日々更新することが要求 される.このような更新の性格を考えると,データベースの更新がデータベースの再構築 を必要とするようなデータベースでは計算機への負荷が大きいため適さず,データベース への追加が可能なデータベースでなければならないことは明らかである. 4-1. 理研における、Genbank DNA塩基配列データベースのdaily update Daily updateデータは3台のコンピュータで連携して処理されている.まず理研のnewsサ ーバーの一つであるrknss1(SUN SparcStation 1)から sendnews でニュースを電子メールに変 換してrknyst(SUN Sparc Station 1)に送る。rknystでは、次の二つの処理を行っている。一つ は、受けたデータをnewsシステム用に付加されていた制御データを取り除き、最終的に データを蓄積するrknutsに電子メールとして送る。 rknutsがrknystから配送されたメールを 受け取ると、自動的にgbnewプログラムが起動される。gbnewプログラムは、メールのヘ ッダー部分を除去しデータの本体部分のみを一つのファイル(gbnewdata)に蓄積していく。 それと同時にインデックスファイルを更新する。このインデックスは更新作業が容易にで きるB-tree構造のもので、このシステムのためにプログラムを作成した。このインデック スファイルには新規データばかりでなくGenbankデータベース本体(現在rel.69)のLOCUS 名およびaccession番号を登録しており、gbextプログラムを用いることによりGenbankデー タベース中の必要なデータを高速に抽出することができる。またこのデータはホモロジー サーチ等のアプリケーションでユーザーに利用されている。  理研では3台のコンピュータで連携して処理しているがもちろんそれは本質的ではない. 群馬大学(宮沢研)では一台の計算機(smlab)で処理している. 4-2. smlab におけるデータベース更新システム  作成及びメインテナンスの容易さのためフラットファイルを用いている.インデックス ファイルとして,一行にエントリー名とそのエントリーのファイル上の位置を記したフラ ットファイルを用いている.エントリーは複数のファイルに分割して保持出来る.メール として到着した更新データは 一日数回 cron により起動されるプログラムにより処理され インデックスファイルやデータベース検索のための各種ファイルが作成される.これらの ファイルは一日分ごとに別ファイルとして管理されている.エントリーの retrieval は,こ れらの複数の インデックスファイル をエントリー名を検索することによりなされる.エ ントリー名は正規表現を用いて指定する.新データが先に取り出されるよう,日付けの新 しい順に検索される, 5. smlab におけるDNA, 蛋白質配列フラットデータベースのためのデータ検索システム1) と電子郵便ネットワークデータベースサーバー  検索システム(Flat)は簡単な機能を果たす様々なツールからなる。基本ツールの例は、  - 指定された著者名,論文名,accession numbersを検索しエントリー名を出力する。  - エントリー定義ファイルにおいて文字列を検索しエントリー名を出力する。  - 指定されたタイプのレコードを出力する。  - 指定された文字列を含むエントリーのエントリー名を出力する。  - エントリー名からなるセットに関する and, or, xor。  - 指定されたエントリーを出力する。 等である。ほとんどのツールはUNIXにおけるフィルターとして働く。このようなツール をUNIX のパイプで組み合わせることにより、著者名、論文名、生物種、遺伝子名、キー ワード等による検索が可能である。文字列は通常UNIX の正規表現で指定する。よってあ いまいな文字列による検索が可能である。また特異な塩基配列をもつ遺伝子の検索におい ても塩基配列を正規表現で表現できる。この検索システムがサポートするフォーマットは 現在 GenBank, EMBL フォーマット及びSwissProt, PIR, PRF フォーマット等である。この ソフトウエアは、UNIXシステムなら移植可能であると言う利点を持つ。  この検索システムのコマンドの一部(著者名、論文名、キーワード等による検索,及び エントリーのretrieval )及び配列の類似性検索プログラムは電子メールによっても利用可 能となっている.利用者はオンライン使用時と全く同じように検索コマンドを書いた電子 メールを flat-netserv@smlab.eg.gunma-u.ac.jp に送ると検索結果が送り返される.  この場合, system security を守ることが重要である.まずmail はmail header が除去され た後,PATH 変数, directory を適当に設定し,ristricted shell (sh -r)のデータとして渡され, 処理される.restricted shell ではPATH変数のリセット,入出力のredirection 及び cd コマン ドは使用出来ないことに注意願いたい.その機能により,mail 内では,PATH 変数に設定 されたdirectory 内にあるコマンドのみが使用できる.一方,配列の類似性検索コマンドは ファイルからのみ入力データを 読み取れるため, stdin からデータを読み取りファイルと して書き出すコマンドが追加されている.もちろんファイルはそのdirectory にしか作成さ れないようになっている.このようにして処理された結果(restricted shell からの出力)は メールのFrom line から得られたe-mail addressに送り返される. まとめ  簡単にDNA データの電子メールによるデータ取り込み及びデータベース更新システム が報告された.データベースの管理は time consuming である.全てのユーザーが個々に管 理するのは不可能であろう.今後はネットワークのの進展とともに,サーバー,クライア ントタイプのデータベース検索システムが有用であろう. 謝辞  宮澤は,UUCP link を快く引き受けて下さった理化学研究所電子計算機室鈴木氏に感謝 したい. 1) Miyazawa, S.: DNA Databank of Japan: Present Status and Future Plans. in "Computers and DNA", Santa Fe Institute Studies in the Sciences of Complexity, Eds. G. Bell and T. Marr (Reading, MA: Addison-Wesley), vol. VII, 1989 図 1. GenBankエントリーの例.EMBLも同様のフラットファイルを用いている。 図 2. GenBank, EMBL 各データベースに収集されている塩基数の変遷。