失われたデータの追跡者　Chasers of the Lost Data - Spce Apps Challenge 2019 チャレンジ翻訳

チャレンジ原文 https://2019.spaceappschallenge.org/challenges/planets-near-and-far/raiders-lost-data

要約

モデルトレーニングの前にデータセットのギャップを埋めることにより、機械学習モデルや予測モデルのパフォーマンスを改善する方法を見つけましょう。これには、センサーの問題または信号ノイズのために欠落しているデータを計算的に回復または近似する方法を見つけることが必要です。このチャレンジは、センサーがその場でビルド特性をキャプチャする付加製造（AM; 3Dプリンター等）プロセス中のデータ収集にインスピレーションを得ていますが、NASAの多くの分野において応用がききます。

背景

データがありません。。。

機械学習（ML）と人工知能（AI）を組み合わせることで、科学者とエンジニアが実験データを使用する方法を革新できる可能性があります。 ML / AIの多くの価値ある実装の中のいくつかの例には、以前は検出できなかったパターンを見つけたり、物理ベースのモデリングを補完または検証したり、人間が処理するのに数か月または数年かかるような非常に大きなデータセットから結論を引き出したりするための自律性の研究が含まれます。

MLおよびデータ駆動型モデリングの基本的なコンポーネントは、包括的なデータセットを持っていることです。そこから、多数の、場合によっては数百もの特徴量を抽出できます。次に、モデルは、これらの機能に基づいて予測を行う方法のトレーニングと呼ばれるプロセスを通じて「学習」します。すべてのMLアルゴリズムには膨大な量のデータが必要であり、ニューラルネットワークのような複雑なアルゴリズムでは、モデルを適切にトレーニングするためにデータセット内の数千のレコードまたは観測値が必要になることがよくあります。

ML / AIの実験データの使用には大きな可能性がありますが、潜在的な欠点の1つは、データ収集プロセス中に実験データが危険にさらされることが多いことです。データ収集は、一部のシステムを監視するセンサーによって駆動されますが、実験環境または設定によっては、これらのセンサーに制限がある場合があります。ハードウェアは信頼性が低く、監視されていないセンサーは故障する可能性があり、信号ノイズは常に潜在的な問題となります。そのような例の1つは、材料科学における積層造形（AM）プロセスの特性評価に関する現在の研究です。より一般的に3D印刷として知られているAMは、航空用の物理的なコンポーネントを作成するための費用対効果の高い効率的な方法として検討されています。ただし、AM中に収集されたその場のセンサーデータはノイズもキャプチャするため、不完全なデータセットが生成されます。

この問題により、MLを使用して構造特性を予測し、部品の性能をモデル化して、構造の完全性を理解する機能が制限されます。あなたのチャレンジは、正確なMLモデルを構築することを目的としたAM研究のデータ損失にインスピレーションを得つつ、データセットにギャップと過度のノイズがある場合に失われた値を計算的に回復する方法を特定することです。

考慮事項（案）

研究者は多種多様な科学および工学分野を調査するため、さまざまな種類のセンサーからのさまざまな種類のデータに適用できる方法が特に役立ちます。科学者やエンジニアは、自分の仕事で使用する方法を他の人が評価および検証できるようにする必要もあるため、アプローチのパフォーマンスの測定方法を理解することも役立ちます。アプリケーションの潜在的なアイデアには、欠測値補完（インピュテーション）、行列補完、およびテンソル補完があります（ただし、これらに限定されません）。

プログラミングの初心者は、カンマ区切り値（CSV）形式のデータセットから欠落データを概算できるメソッドを作成してください。中級および上級プログラマーは欠落データを概算するメソッドを作成してください。また、MLモデルを構築し、データリカバリ方法を適用する前後のモデルのパフォーマンスの改善を説明することにより、そのメソッドを評価してください。

以下に、潜在的な（ただし必須ではない）追加の考慮事項と推奨事項を示します。欠落データを処理するという課題は多くの研究者を混乱させるものですが、データ駆動モデルを使用して予測を行う機械学習アプローチを実装するために特に重要です。

特性はデータセットごとに大きく異なります。ただし、多くの異なるアプリケーションに一般化できるアプローチが特に役立ちます。
メソッドでは、混合データ（カテゴリデータ型と連続データ型）を考慮する必要があります。
ソースコードとモデルは公開されており、無料で再利用できます。 PythonやRなどの一般的なオープンソースMLプログラミング言語のコードは便利です。
コードには、選択したモデルパラメータとその理由に関するドキュメントを含める必要があります。
メソッド開発用のテストデータには小さなデータセットが含まれる場合がありますが、これらのメソッドを大きなデータセット（ギガバイト以上）に適用する可能性を考慮する必要があります。

リソース例

欠落しているデータ要素の探索に適したNASAデータセットがリソースに提供されています。これらはそれぞれCSV形式でダウンロードでき、それぞれにカテゴリ変数と連続変数が混在しています。これらの各データセットには、ある程度の欠損値が含まれます。

（訳者注：以下のデータはCSV, PDF, JSON, XML形式で公開されています）地上に達した隕石：https://catalog.data.gov/dataset/meteorite-landings

地球近傍の彗星や小惑星などの天体：https://catalog.data.gov/dataset/near-earth-comets-orbital-elements

火球や流星：https://catalog.data.gov/dataset/fireball-and-bolide-reports

降雨による地滑り：https://catalog.data.gov/dataset/global-landslide-catalog

代入および行列補完アルゴリズム用のPythonライブラリを以下に示します。これらは例であり、利用可能なライブラリの包括的なリストではありません。同様に、これらの手法は、この問題について調査できる唯一の手法ではありません。参加者は、以下にリストされたこれらのライブラリに拘束されず、ソリューションを開発するための可能な限り最良の方法を模索することが奨励されます。

https://scikit-learn.org/stable/modules/impute.html https://pypi.org/project/impyute/ https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.dict_learning.html https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html

NASAは、米国政府以外の団体を承認するものではなく、米国政府以外のウェブサイトに含まれる情報について責任を負いません。