このトピックには、よく書かれるバージョンがあります。最初に、ロボット工学の未来についての主張から始まり、印象的と思われる用語を順を追って説明し、製品に取り掛かります。これはそのバージョンではありません。
以下は、機械学習が現代の内部で実際に何をしているのかを説明したものです。 ビンピッキングシステム —どのような問題を解決するのか、なぜそれらの問題が難しいのか、アプローチはどこでうまくいかないのか、研究デモと工場で稼働するものを区別するものは何か。このトピックに慣れていない場合は、 このフィールドガイド ML の側面に入る前に、基本的なことを説明します。
この記事のあちこちにいくつかの用語がありますが、詳しく説明しておきましょう。機械学習 (ML) は AI のサブセットです。明示的なルールを記述する代わりに、例に基づいてシステムをトレーニングし、そのシステムにパターンを理解させます。ニューラルネットワークは、これを機能させる基礎となるモデル構造です。ニューラルネットワークはトレーニングを受け、本番稼働中に実行されるものです。実際には、業界では「AI ビジョン」、「AI ビンピッキング」、「フィジカル AI」を基盤とする同じテクノロジーを指しています。
ビンピッキングシステムが解決しなければならない2つの問題
ML の機能を説明する前に、問題の構造を明確にしておくと役立ちます。
ビンピッキングシステムには 2 つの異なる役割があります。1つ目はビジョン。部品がどこにあるのか、どの方向にあるのか、ロボットが握ったり吸引したりする位置を把握することです。2つ目はモーションです。パーツに向かう物理的な動きを計画して実行し、部品をピックアップして目的地に配置します。
機械学習は、原則として両方に適用できます。 実際には、MLのケースはビジョン側の方がはるかに強力です。モーションプランニングの場合、従来の手法は何十年にもわたる開発を経ており、よく理解されており、本番環境でも確実に機能します。ビンピッキングのモーションに ML を適用しても、明確な見返りがないのに複雑になる傾向があります。
機械学習が実際に存在する場所が大きく異なるシステムの説明には「AI ビンピッキング」が使用されるため、これは重要です。ベンダーの主張を評価する際、最初に尋ねるべき質問は、機械学習は正確にはどこに適用され、何をしているのかということです。
クラシック・ビジョンが壁にぶつかる理由
クラシックビジョンは、手作業で作成されたルールに依存しています。特定の部品について、ビジョンエンジニアがアルゴリズムを作成します。つまり、これらのパラメータでエッジを検出し、その形状に一致する輪郭を探し、ジオメトリがこの許容範囲内にあることを確認します。問題は、部品がいかに壊れやすいかということです。
ある条件で機能するルールが、わずかに異なる条件下では機能しないことがよくあります。セルを環境照明の異なる場所に移動すると、システムが完全に機能しなくなる可能性があります。表面仕上げが少し異なるパーツを導入すると、輪郭検出で認識されない場合があります。新しい条件に対応するようにルールを調整すると、すでに機能していた動作が崩れるリスクがあります。また、ルールにはパーツの外観に関するエンジニア固有のモデルがエンコードされるため、ルールをデバッグして改善するには、毎回同じエンジニアの関与が必要です。
実際の導入の多くでは、従来のビジョンシステムでは複雑な部品の成功率が 70% 前後で横ばいになり、それを超えることは困難または不可能になります。
機械学習ベースのビジョンが実際に異なる点
MLベースのビジョンは、別の方向から問題にアプローチします。エンジニアがパーツの外観を指定する代わりに、システムは例から学習します。
プロセス: 現実的な条件でパーツの写真を撮り、パーツの位置と向きを示す注釈を付けて、そのデータセットでニューラルネットワークをトレーニングします。私たちが推し進めているのはこの方向であり、手作業による写真撮影やラベル付けの手順に完全に取って代わって、シミュレーションデータと自動注釈がますます使用されるようになっています。いずれにしても、ネットワークは脆弱な幾何学的規則に頼るのではなく、基礎となる構造、つまり部品が特定の位置にあるときに一貫して現れる特徴を学習します。
実際的な結果は意味があります。MLベースのビジョンを使用するシステムでは、従来のビジョンでは確実に 70% を超えることができなかったパーツの成功率は、通常98~ 99.9% に達します。物理的にキャプチャしたものとシミュレートしたものの両方で、照明の異なるシーンをトレーニングデータに含めることができるため、照明の変化をより適切に処理できます。障害が発生した場合、多くの場合、失敗したケースをトレーニングデータセットに追加して再トレーニングするだけで、モデルを改善できます。これには数分かかります。新しいモデルは、特定の障害だけでなく、これまでに遭遇したことのない同様のケースにも対応します。
これは機械学習のビジョンに限界がないという意味ではありません。計量、精密な寸法測定には適したツールではありません。このような用途では、ML Visionを使用して部品の位置と向きを特定し、その測定自体に従来の方法を適用する方が良いでしょう。ML が役立つ場所と役に立たない場所を知ることは、ML を上手に活用することの一部です。
実稼働環境でのトレーニングの実際の仕組み
新しい部品の ML ビンピッキングの設定には、何千枚もの画像と数週間にわたるトレーニングが必要だというのが一般的な前提です。現代の生産システムはそうはいきません。
Eureka Roboticsでは、さまざまな部品や環境にわたる数百万のデータポイントで事前にトレーニングされた基本モデルから始めます。新しいパーツに導入する場合、小規模なデータセット (通常は20~30枚の画像) を使用してこの基盤モデルから微調整します。基礎モデルはすでに産業用オブジェクトの外観と選択方法について十分に理解しているため、堅牢な生産パフォーマンスを実現するにはこれで十分です。
このアプローチは、標準形状の部品で方向が予測可能な場合が多い場合に適しています。どんな向きでも見える複雑な形状の部品 (例えば、金属製のフックがゴミ箱の中で転がり落ちるようなもの (下のビデオ参照) の場合、写真だけでは可能な位置の空間を写真に収めることはできません。これはフル3Dです。 ランダムビンピッキング 問題は、3Dマッチングベースのトレーニングの出番です。パーツの3Dモデルをもとに、何万ものシミュレートされた位置と向きでレンダリングし、パーツがどのように見えるかの全範囲をカバーする合成トレーニング画像を生成します。お客様が共有できる CAD データを持っていれば、それが出発点になります。そうでない場合は、物理的なサンプルから 3D モデルを構築します。
時間が経つにつれて改善されるシステム
ML ベースのビジョンで過小評価されている側面の 1 つは、導入後に何が起こるかということです。従来のビジョンシステムはほとんど静的です。他の場所でリグレッションを起こさずに改善することは非常に困難です。ML システムはそうではありません。
MLベースのシステムが検出に失敗した部分に遭遇した場合、その故障ケースをトレーニングデータセットに追加して再トレーニングするのに数分かかります。新しいモデルでは、今後そのシナリオを正しく処理し、これまでに見たことのないようなケースに一般化します。お客様固有の再トレーニングだけでなく、年間保守契約を通じて定期的なソフトウェアアップデートも実施しています。つまり、すべてのお客様にメリットをもたらすモデルアーキテクチャと厳選されたデータセットの改善を、オプトインアップデートとして提供します。更新のたびに、速度や故障率が目に見えて向上します。
システムがピックに失敗した場合はどうなりますか
ビンピッキングの失敗は必ずしもビジョンシステムに起因するわけではなく、違いを見分ける方法を知っておく価値があります。
ピックに失敗した場合、考えられる可能性は2つあります。MLが間違ったピックポイントを提案した場合と、ロボットが実行できなかった良いピックポイントを提案した場合です。キャリブレーションエラーや、吸盤が正しく取り付けられないなどの機械的な故障です。そこで、提案したピックポイントをシーンのビジュアライゼーションに重ね合わせることで解決します。これがデジタルツインです。提示されたポイントがビジュアライゼーションで正しく表示されない場合、問題は ML にあります。問題がないように見えても、それでもロボットに障害が発生する場合、問題は別の場所にあります。
これは、MLが従来のビジョンよりも過小評価されている利点の1つを示している点でもあります。ピックの失敗は、単に修正すべき問題ではなく、教育の機会でもあります。従来のルールベースのシステムには、逆のリスクがあります。新しい失敗事例を考慮してルールを調整すると、すでに機能していた行動が崩れてしまう可能性があるのです。パーツが複雑になればなるほど、この問題は悪化する傾向にあります。
MLビンピッキングを請求するベンダーに尋ねるべきこと
システムを評価していて、ベンダーが機械学習またはAIベースのゴミ箱ピッキングを主張している場合、いくつかの質問を行うと、その主張が実質的であるかどうかがすぐにわかります。
新しいSKU用にシステムをどのようにトレーニングしますか?CADデータ、注釈付きの画像、またその数はどれくらいですか?システムは、既存の部品と似ている新しい部品 (同じ形状、異なるサイズ) を、ゼロから始めることなく処理できますか?セル内の照明が変わるとどうなるのか?再トレーニングが必要なのか?トレーニングはローカルコントローラーで実行できますか?それともクラウド接続が必要ですか?
答えを見れば、本物のプロダクションシステムを見ているのか、それとも制御されたデモを見ているのかがわかります。
研究と工場で稼働するものとのギャップ
生産ビンピッキングシステムは、公開されている最新の機械学習研究を実行するだけではありません。おそらく、ロボット工学と AI の学術研究の 99% は、私たちのチームがこれまで取り組んできた学術成果のかなりの部分も含めて、実稼働環境に導入されることはないでしょう。制御された条件下でうまく機能したモデルが、自動的に工場環境に移行するわけではありません。

このギャップを埋めるための取り組みには、専門家ではないユーザーが画像を収集したり、パーツに注釈を付けたり、モデルをトレーニングしたりできるユーザーインターフェイスが含まれます。これには、顧客パーツのデータを非公開にしつつ大規模なデータセットを管理するためのデータパイプラインが含まれます。複数のトレーニングジョブを同時に実行するためのサーバーアーキテクチャが含まれています。また、リアルタイムで通信するエッジ推論システムも含まれています。 カメラ そしてロボット。これをどのように構築したかについて詳しくは、以下をご覧ください。 ビンピッキング用AIビジョンソフトウェア。
モデルは重要です。しかし、これらはシステムを本番環境に対応させる要素の一部に過ぎません。
Eureka Roboticsは、産業オートメーション向けのビジョンガイド付きビンピッキングシステムを構築しており、プラット・アンド・ホイットニー、トヨタ、デンソー、住友などの顧客全体で3,000万個以上のピックを生産しています。
