Adansons Base (日本語ページ)

プロダクトコンセプト

  • 非構造化データのメタ情報を整理し、データセットを作成・管理する、データマネジメントツールです。
  • データセット設計を効率化し、学習結果のより深い考察やAIの性能の維持向上を手助けします。
 
 
Get Started for Free
 

View tutorial on   GitHub

 

DEMO動画

 
 
 
 

特長① : データセット作成に役立つ情報をデータベースに収集・統合

本製品では、データファイルのパスやファイル名などに含まれる情報や、Excelなどの外部ファイルに記述されたデータに関連する属性情報(メタ情報)を自動で抽出し、データセットとしていつでも使用できるように整形します。
project-a というプロジェクトに、./dataというフォルダ以下にあるWAV形式のファイルをimportする様子。 -x ‘1.2’ と、データセットのバージョンを指定することも可能。
project-a というプロジェクトに、./dataというフォルダ以下にあるWAV形式のファイルをimportする様子。 -x ‘1.2’ と、データセットのバージョンを指定することも可能。
 

メタ情報の重複やラベルミスを判別し、自動で統合します

また、重複する同じ内容のメタ情報などを、データファイルの情報などから自動で推測しながら、データベースに統合します。
例えば、右の例の場合、
  • 管理番号と番号
  • クラス名とクラス名称
という列が自動で統合されます。
 
 

データベースに収集するメタ情報

  • ファイルパスやフォルダ名
  • ExcelやCSV等にまとめられた学習データに関連する情報
  • データに紐づくAIの学習結果やパラメータ
※データファイルそのものはユーザーの手元に残したまま、上記情報のみを吸い上げて紐付けます。
 
 
 
 

各種クラウドストレージ等に対応

ユーザーのローカルストレージの他に、各種クラウドストレージにも対応。 クラウド上にデータファイル自体は残したまま必要な情報のみを収集します。
 
 
 

特長② : データセット作成時間の削減

各種MLフレームワークに対応

作成したデータベースは、SDKを使えば、PyTorchやTensorflowですぐに使える形式で書き出しも可能。
わざわざDataloaderを記述する必要はありません。
 
ユーザーにとって馴染みの深い形式に変換するので、スムーズに様々なデータを読み込み活用できるようになります。
データセットに対する前処理を定義した後に、sklearn.datasetsでirisを呼び出すほど簡単にデータをロードし、Numpyや、PyTorchなどの形式ですぐに学習開始可能。
データセットに対する前処理を定義した後に、sklearn.datasetsでirisを呼び出すほど簡単にデータをロードし、Numpyや、PyTorchなどの形式ですぐに学習開始可能。
 
 

学習結果もデータセット作成に反映可能 

学習した結果をデータベースに簡単に収集することも可能です。この結果を使って、例えば精度が悪かったデータだけを簡単に取り出すことも可能です。
このように、MNISTの0と1と2とラベリングされた中で、学習済みモデルの精度が0.2より小さかったもののみを取り出すなどのようにフィルターを設定して使用することも可能です。
このように、MNISTの0と1と2とラベリングされた中で、学習済みモデルの精度が0.2より小さかったもののみを取り出すなどのようにフィルターを設定して使用することも可能です。
 

URLやCSV形式などでも書き出し可能

URL形式で書き出すことで、例えばDataRobotなどとの連携も非常に簡単に。
URL形式で書き出すことで、例えばDataRobotなどとの連携も非常に簡単に。
 

特長③ : データセット共有の高速化

作成したデータセットは簡単に共有することができ、共有された人はすぐに最新のデータセットを使用できます。
データファイル以外の学習に必要な情報を、本製品をクラウドストレージのように使用して受け渡すことが可能です。
 

特長④ : AI性能向上のためのデータセット高品質化サポート

AIの性能を下げる要因を探して提案 ※β版, PCT国際出願中

本機能は、AIの学習結果とデータセットの持つ情報を合わせて活用することで、 ユーザーの手元で簡単にデータセントリックなAI開発を可能にするレコメンドエンジンです。
AIの学習結果とラベルなどの情報を比較して、様々な角度から、AIの性能を下げる要因を探して教えてくれます。
 
本製品を使うと、例えば以下のような提案がされ、AIモデルアルゴリズムだけではなくよりデータ中心的なAI開発が簡単になります。
💡
「ラベルCに注目すると、XXXな傾向なデータは予測精度が悪い」
「予測精度が良いものと悪いものがあるが、それぞれhogeというクラスとfugaというクラスに分けるべきでは」
「モデルのパラメータAとBを変えたほうがパラメータCを変えるよりも予測精度が高い」
そして、ユーザーがどの提案を受け入れるか意思決定したデータセットは、即時にデータセットとしてJupyterなどで使用可能です。

プラン & 価格

 

✉️ サービス利用登録はこちらから

Adansons Baseでは、下記フォームから利用登録を受付中です。
↓↓↓

お問い合わせ

その他、ご質問等お気軽に受け付けております。
support[at]adansons.co.jp
atを@に変えてお使いください。

Copyright © Adansons Inc., 2022, All Rights Reserved.