バイオインフォマティクス



このページでは、オリジナルのバイオインフォマティクス関連ツールやバイオインフォマティクス関連の情報を提供しています。

GenomeViewerをバージョンアップしました
BLAST2.0データフォーマットについて
BLAST2.0データ用ツール(コマンド形式)

バイオインフォマティクス関連ツール
 
バイオインフォマティクス関連のオリジナルツールです。このサイトでしかダウンロードできないものばかりです。

GenBankデータ用のToolを作成したのでダウロードしてご利用ください。
 ・GenomeViewer
  GenomeViewerは、GenBank形式、FASTA形式のファイルを閲覧するソフトです。
  2004/2/19バージョンアップしました。
  現在、Blast Databaseのバイナリ形式データを読み込み機能を追加しています。
  (↑すこし手間取っています。もうしばらくお待ちください。)
  Windows 98/Me/2000/XPで使用することができます。
 

 ・Windows用ツール
  glsコマンド
  GenBankファイルの内容についての各種情報を表示します。
  使用可能OS : Windows 95〜Windows XP

  gftコマンド
  GenBankファイルのFEATUREを解析しその結果を表示します。
  使用可能OS : Windows 95〜Windows XP

  ggrepコマンド
  GenBankファイルに対して直接grep相当の検索を実行します。
  正規表現や(MRWS...)などの文字も使用できます。
  使用可能OS : Windows 95〜Windows XP
  

 ・Linux用ツール
  gls/gft/ggrep(上記)をLinux用に移植しました。
  移植した環境はRed Hat Linux 8.0です。

BLAST2.0用データ用ツール
BLAST2.0用データ解析用のライブラリを使用してコマンドライン用のツールを作成しました。
  blastdbコマンドのダウンロード
・BLAST2.0データの情報表示
・N番目のシーケンスデータの表示
・N番目のデータの抽出
・ヘッダ情報の一覧


バイオインフォマティクス関連のファイルフォーマットについて
 
バイオインフォマティクス関連のファイルフォーマットについての解説です。

GenBankフォーマット
 GenBankフォーマット
  FEATUREの解析
   Locationの解析
   Qualifierの解析

CGIから解析プログラムを呼び出せるようにしたので複雑なLocationがありましたら入力してみてください。 ログを見てエラーになってしまうようなものがあったら修正しておきます。
 Location解析するCGI

データのダウンロード
 GenBankフォーマットのゲノムデータは、NCBIからFTPでダウンロードすることができます。
  NCBIゲノムデータ
 ミラーサイト
  ゲノムデータ(ミラー)

BLAST2.0データフォーマット
BLAST2.0で使用するデータをViewerから参照(まだViewerには組み込んでいません)できるようにするためのライブラリを作成しました。 BLAST2.0のデータは、アミノ酸配列と核酸配列で拡張子が異なり次のものが作成(formatdbコマンドで)されます。
アミノ酸配列 核酸配列 概要
xxx.pin xxx.nin ヘッダ/シーケンスの各エントリの位置情報など
xxx.phr xxx.nhr 各シーケンスのヘッダ情報
xxx.nsq xxx.psq シーケンスデータ
xxx.psd xxx.nsd デフォルトでは作成されない
xxx.psi xxx.nsi デフォルトでは作成されない
xxx.pnd xxx.nnd デフォルトでは作成されない
xxx.pni xxx.nni デフォルトでは作成されない

今回は、デフォルトで作成される最初の3種類のファイルを利用しました。
BLAST2.0用のデータフォーマットに関する情報は、インターネット上で検索しましたが、ほとんど見つけることができませんでした。 そこで、NCBIのライブラリ、実際のデータ、formatdbを使ってテストデータを作るという方法でデータフォーマットを解析しました。 そもそも、NCBIのライブラリを使いデータを読み込むという方法もあるのですが、どうもこのライブラリは理解して一部を抜き出したり改造したりするのに時間がかかってしまうので(個人的な意見ですが)最初から作成しました。

当初、解析処理の中心はpin/ninファイルの解析と考えていましたが、このファイルの解析処理は簡単で1日もかからずに完成しました。 その他、核酸配列でACGT以外の文字が含まれたときの処理がちょっと面倒でしたが、全体で3日ほどで完成しました。

ところが、'|'で区切られた文字を解析するだけと考えていたヘッダ部の解析で非常に手こずることになってしまいました。 ヘッダ情報の内容は、formatdbのデフォルトオプションでは'|'で区切られるだけの簡単なフォーマットですが、オプションによってはASN.1形式のデータが格納されるようになります。 このためヘッダ情報の解析は簡単にはできそうもないので、しかたなくNCBIのライブラリから関係部分を抜き出し(コードの理解もかねて)組み込む方法を選びました。 しかし、やはり多くの時間がこの作業にかかってしまいました(そのままブラックボックスとしてリンクしてしまえば簡単なのでしょうが)。 2週間ほど経過した時点で、NCBIのライブラリの使用は断念し最初から作ることにしました。 すでにNCBIライブラリの解析でおおよその処理内容は理解できていたこともあり、1週間程度でヘッダ情報を解析することができました。

バイオインフォマティクスの基礎プログラミング(C言語)
 
バイオインフォマティクスのツールを、C言語(C++)で作りましょう(NCBIのソースもほとんどC言語で書かれているし)。
Perlやjavaなどのインタープリタ型も少量のデータ操作には有用な場合もあるでしょうが、大量のデータを扱うときはC/C++のようなネイティブコードにコンパイル可能な言語で作りましょう。
また、大量のデータ処理では、場合によってはメモリ管理が制御できる言語でプログラミングする必要があります。その意味でもC/C++は最適だと思います。

バイオインフォマティクスの基礎プログラミング(C言語)
 C言語でバイオインフォマティクスでの基本的なプログラミングについての解説です。
  DNA塩基配列から相補配列を生成
  アミノ酸配列表記の変換
  塩基配列の翻訳
  相補配列の翻訳
  以下作成中...
 C言語プログラミングに関してはこちらで解説しています。

バイオインフォマティクス関連のリンク集
 

●バイオインフォマティクス関連のリソース
NCBI - 核酸塩基配列
EMBL - 核酸塩基配列
DDBJ - 核酸塩基配列
Swiss-Prot - タンパク質アミノ酸配列
PDB - タンパク質等立体構造
PROSITE - タンパク質データベース
ENZYME - 酵素データベース
大腸菌ゲノムデータベース

●遺伝子やDNAの基礎を解説しているページ
遺伝子の部屋
細胞の生物学

●生物/バイオインフォマティクスの用語解説、Q&Aなど
ゲノム情報利用ワークショップQ&A集
用語集
遺伝子工学の最新用語解説

●バイオインフォマティクスの基礎
Webラーニングプラザ(リストからライフサイエンスを選択) - FLASHで動作する教材で勉強できます
ゲノムのコンピュータ解析

●バイオインフォマティクス関連の配列データベースにつていの解説など
DDBJ/EMBL/GenBankのFeatureについて
配列データベースの解説
配列データベースについての紹介
分子生物学データベース
生物の研究に役立つデータベース

●各種検索について
Search and Analysis
遺伝子解析におけるネットワークの利用


当サイトのバイオインフォマティクス関連の下記ページも参考にしてください。
バイオインフォマティクス関連オリジナルツールなど
DNA塩基配列から相補配列を生成
アミノ酸配列表記の変換
塩基配列の翻訳
相補配列の翻訳
おすすめのバイオインフォマティクス関連の書籍です。参考にしてください。

初心者でもわかる!バイオインフォマティクス入門 [ 坊農秀雅 ]

価格:3,990円
(2013/1/27 10:50時点)
感想(0件)

バイオインフォマティクスin silico [ 松山泰男 ]

価格:3,675円
(2013/1/27 10:51時点)
感想(0件)

社内用資料(社内用の資料なので一般の方は閲覧できません)
●バイオインフォマティクス関連のツールのソースコード解析結果
・NCBIライブラリソースのGenBankのLocation処理に関して(http://www.orchid.co.jp/bio/PRIVATE/ncbi_gb_loc.html)
・NCBIライブラリソースのASN.1(バイナリ)処理に関して(http://www.orchid.co.jp/bio/PRIVATE/ncbi_bdb_asn1.html)

●バイオインフォマティクス関連のファイルフォーマットに関する情報
・GenBankフォーマットLocation部の解析方法(http://www.orchid.co.jp/bio/PRIVATE/gb_loc_parser.html)
・GenBankフォーマットLocation部の複雑な使用例(http://www.orchid.co.jp/bio/PRIVATE/gb_loc_ex.html)
・Blast DBフォーマット全般(http://www.orchid.co.jp/bio/PRIVATE/bdb_format.html)
  ファイルフォーマットのバージョンと処理内容の相違点
  塩基配列ファイルの場合のサイズの求め方
  formatdbコマンドの使い方と出力されるフォーマットについて
・Blast DBフォーマット(アミノ酸配列)の解析結果(http://www.orchid.co.jp/bio/PRIVATE/bdb_prot_format.html)
・Blast DBフォーマット(塩基配列)の解析結果(http://www.orchid.co.jp/bio/PRIVATE/bdb_nucl_format.html)
・ASN.1(バイナリ)parser開発関連:ASN.1(バイナリ)について(http://www.orchid.co.jp/bio/PRIVATE/asn1.html)
・Blast DBフォーマットでのASN.1(バイナリ)について(http://www.orchid.co.jp/bio/PRIVATE/bdb_asn1.html)