AI エンジンのエラー イベント - 2023.2 日本語

AI エンジン ツールおよびフロー ユーザー ガイド (UG1076)

Document ID
UG1076
Release Date
2023-12-04
Version
2023.2 日本語

このセクションでは、前述の XRT エラー レポート API を使用して取得したエラーの説明と関連するデバッグ情報を示します。これらは AI エンジン アレイから伝搬されるエラーで、ハードウェアでアプリケーション固有のエラーをデバッグする際に役立ちます。

https://github.com/Xilinx/XRT/blob/master/src/runtime_src/core/include/xrt_error_code.h にあるようなクラス XRT_ERROR_CLASS_AIE のエラーの場合、エラーの原因を提供する dmesg ログを有効にすることで詳細情報を取得できます (次の表で詳細を説明)。次に、ログの例を示します。

[18.462615] aie aie0: Asserted tile error event 56 at col 6 row 7
[18.471397] aie aie0: Asserted tile error event 60 at col 25 row 1
注記: タイルの場所は、colrow で示されます。row 0 は SHIM (インターフェイス) タイルで、AI エンジンは row 1 から開始します。

次の表に、エラーのカテゴリ、エラー番号、説明、およびエラーをデバッグして修正するためのヒントを示します。

表 1. CORE モジュールのエラー イベント
エラー グループ 番号 名前 説明 デバッグのヒント
命令エラー 59 Instruction Decompression Error フェッチされた命令を AI エンジンが解凍できない場合に生成されるエラー イベント。プログラム命令が破損している場合に発生する可能性があります。ELF 生成を検証します。 Vitis コンパイラ (V++) の --package コマンドを使用して ELF ファイルを再生成します。これで問題が解決しない場合は、AMD サポートまで問い合わせください。
アクセス エラー 55 PM Reg Access Failure メモリ マップド AXI インターフェイスと AI エンジンによる PM へのバンク アクセスの競合により発生するエラー。 AMD サポートまでお問い合わせください。
60 DM address out of range AI エンジンが 0x20000 ~ 0x3FFFF 外のメモリ ロケーションにアクセスしようとすると生成されるイベント。 AI エンジン シミュレータ (aiesimulator) を、アクセス違反を通知する –-enable-memory-check をイネーブルにして実行します。

x86simulator を、アクセス違反を通知する --valgrind を使用して実行します。

65 PM address out of range PC が範囲外の場合に生成されるイベント。 AI エンジン シミュレータ (aiesimulator) を、アクセス違反を通知する – enable-memory-check をイネーブルにして実行します。x86simulator を、アクセス違反を通知する --valgrind を使用して実行します。
66 DM access to unavailable AI エンジンが隣接する分離されたタイルへのアクセスを発行した場合に生成されるイベント。 AI エンジンで実行されているカーネルが、分離されたタイル (異なるパーティション) のデータ メモリにアクセスしていないかを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

バス エラー 58 AXI MM Slave Error メモリ マップド AXI インターフェイス スレーブの読み出し/書き込み要求が AI エンジン タイルに存在しないアドレスを指定している場合に生成されるイベント。 PL IP が、メモリマップド AXI インターフェイスを使用して AI エンジン レジスタにアクセスしている場合は、PL IP が無効なレジスタにアクセスしていないかを確認する。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

ストリーム エラー 54 TLAST in WSS words 0-2 TLAST が幅の広いストリームの 4 番目のワードにない場合に生成されるイベント。 PL IP を使用してストリームを生成する場合は、TLAST が正しく生成されていることを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

56 Stream Pkt Parity Error

パケット ヘッダーにパリティ エラーがある場合に生成されるイベント。

パケットを生成する PL IP などのデータ ソースをチェックし、パケットが有効であるか、またパリティ ビットが正しく計算されているかを確認します。データが PL IP から出力される場合は、PL IP で生成されたパケット ヘッダーを確認します。
57 Control Pkt Error 制御パケット エラー パケットを生成する PL IP などのデータ ソースをチェックし、パケットが正しく生成されているかを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

ECC エラー 64 PM ECC Error 2bit 2 ビット ECC エラーが検出された場合に生成されるイベント。 アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

62 PM ECC Error Scrub 2bit ECC スクラバーにより 2 ビット ECC エラーが検出された場合に生成されるイベント。 アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

ロック エラー 67 Lock Access to unavailable AI エンジンが隣接する分離されたタイルへのアクセスを発行した場合に生成されるイベント。 AI エンジン シミュレータ (aiesimulator) を、アクセス違反を通知する –-enable-memory-check をイネーブルにして実行します。これで問題が解決しない場合は、AMD サポートまで問い合わせください。x86simulator を、アクセス違反を通知する --valgrind を使用して実行します。
  1. CORE は、AI エンジン タイルの AI エンジンを指します。
表 2. MEMORY モジュールのエラー イベント
エラー グループ 番号 名前 説明 デバッグのヒント
ECC エラー 88 DM ECC Error Scrub 2bit ECC スクラバーにより DM のバンク 0 またはバンク 1 で 2 ビット ECC エラーが検出された場合に生成されるイベント。 アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

90 DM ECC Error 2bit DM のバンク 0 またはバンク 1 にアクセス中に 2 ビット ECC エラーが検出された場合に生成されるイベント。この DM ECC エラーは、AI エンジン、タイル DMA、またはメモリ マップド AXI インターフェイスからの DM アクセスが原因で発生することがあります。 アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

メモリ パリティ エラー 91 DM Parity Error Bank 2 DM バンク 2 にアクセス中にパリティ エラーが検出された場合に生成されるイベント。

この DM パリティ エラーは、AI エンジン、タイル DMA、またはメモリ マップド AXI インターフェイスからの DM アクセスが原因で発生することがあります。

アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

92 DM Parity Error Bank 3 DM バンク 3 にアクセス中にパリティ エラーが検出された場合に生成されるイベント。

この DM パリティ エラーは、AI エンジン、タイル DMA、またはメモリ マップド AXI インターフェイスからの DM アクセスが原因で発生することがあります。

アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

93 DM Parity Error Bank 4 DM バンク 4 にアクセス中にパリティ エラーが検出された場合に生成されるイベント。

この DM パリティ エラーは、AI エンジン、タイル DMA、またはメモリ マップド AXI インターフェイスからの DM アクセスが原因で発生することがあります。

アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

94 DM Parity Error Bank 5 DM バンク 5 にアクセス中にパリティ エラーが検出された場合に生成されるイベント。

この DM パリティ エラーは、AI エンジン、タイル DMA、またはメモリ マップド AXI インターフェイスからの DM アクセスが原因で発生することがあります。

アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

95 DM Parity Error Bank 6 DM バンク 6 にアクセス中にパリティ エラーが検出された場合に生成されるイベント。

この DM パリティ エラーは、AI エンジン、タイル DMA、またはメモリ マップド AXI インターフェイスからの DM アクセスが原因で発生することがあります。

アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

96 DM Parity Error Bank 7 DM バンク 7 にアクセス中にパリティ エラーが検出された場合に生成されるイベント。

この DM パリティ エラーは、AI エンジン、タイル DMA、またはメモリ マップド AXI インターフェイスからの DM アクセスが原因で発生することがあります。

アプリケーションを再実行します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

DMA エラー 97 DMA S2MM 0 Error S2MM チャネル 0 の BD タスク キューがフルのときに書き込みを実行すると生成されるエラー。 アプリケーションでバッファー ディスクリプターを管理する場合は、キューがフルのときに新しいバッファー ディスクリプターをプッシュしていないことを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

98 DMA S2MM 1 Error S2MM チャネル 1 の BD タスク キューがフルのときに書き込みを実行すると生成されるエラー。 アプリケーションでバッファー ディスクリプターを管理する場合は、キューがフルのときに新しいバッファー ディスクリプターをプッシュしていないことを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

99 DMA MM2S 0 Error MM2S チャネル 0 の BD タスク キューがフルのときに書き込みを実行すると生成されるエラー。 アプリケーションでバッファー ディスクリプターを管理する場合は、キューがフルのときに新しいバッファー ディスクリプターをプッシュしていないことを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

100 DMA MM2S 1 Error

MM2S チャネル 1 の BD タスク キューがフルのときに書き込みを実行すると生成されるエラー。

アプリケーションでバッファー ディスクリプターを管理する場合は、キューがフルのときに新しいバッファー ディスクリプターをプッシュしていないことを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

表 3. SHIM モジュールのエラー イベント
エラー グループ 番号 名前 説明 デバッグのヒント
バス エラー 62 AXI MM Slave Tile Error インターフェイス タイルに到達したメモリ マップド AXI インターフェイス スレーブ要求のアドレスが無効な場合に生成されるイベント。 PL IP を使用して、メモリ マップド AXI インターフェイスを介して AI エンジン レジスタにアクセスする場合は、IP が間違ったアドレスにアクセスしようとしていないかを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

64 AXI MM Decode NSU Error メモリ マップド AXI インターフェイス トラフィック内部で DECERR が生成された。たとえば、タイルの列または複数のタイルがクロック ゲートされている場合、デコード エラーが内部で生成されると、メモリ マップド AXI インターフェイスを介してインターフェイス タイルに伝搬され、このエラー イベントが生成されます。 PL IP を使用して、メモリ マップド AXI インターフェイスを介して AI エンジン レジスタにアクセスする場合は、ゲーティングされているタイルに IP がアクセスしようとしているかを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

65 AXI MM Slave NSU Error メモリ マップド AXI インターフェイス トラフィック内部で SLVERR が生成された。たとえば、そのインターフェイス タイル列にある AI エンジン タイルがスレーブ エラーで応答した場合などです。スレーブ エラーは、メモリ マップド AXI インターフェイスを経由してインターフェイス タイルにスレーブ エラーとして伝搬されます。 PL IP を使用して、メモリ マップド AXI インターフェイスを介して AI エンジン レジスタにアクセスする場合は、IP が間違ったアドレスにアクセスしようとしていないかを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

66 AXI MM Unsupported Traffic NoC からのメモリ マップド AXI インターフェイスが、AI エンジンでサポートされない要求を発行した場合に生成されるイベント。 PL IP を使用して、メモリ マップド AXI インターフェイスを介して AI エンジン レジスタにアクセスする場合は、IP がサポートされていないメモリ マップド AXI インターフェイス要求を生成していないかを確認します。
67 AXI MM Unsecure Access in Secure Mode NoC からのメモリ マップド AXI インターフェイスがセキュア モードに違反している (AI エンジンでセキュア トラフィックのみがサポートされる場合に、非セキュアなトラフィックを送信しようとしている)。 AI エンジン アレイがセキュア モードに設定されているかを確認します。
68 AXI MM Byte Strobe Error NoC からのメモリ マップド AXI インターフェイスが、不完全な 32 ビット ワードの書き込みを実行している (32 ビット ワード内ですべてのバイト ストローブを設定する必要あり)。 PL IP を使用して、メモリ マップド AXI インターフェイス経由で AI エンジン レジスタにアクセスする場合は、32 ビット ワードに対してすべてのバイト ストローブが設定されていることを確認する。
ストリーム エラー 63 Control Pkt Error 制御パケット エラー PL IP が制御パケットを生成している場合は、IP がパケットを正しく生成しているかを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

DMA エラー 69 DMA S2MM 0 Error DMA S2MM チャネル 0 の DMA エラーを示します。次の原因が考えられます。
  • BD タスク キューがフルのときに書き込みを実行した
  • メモリ アクセス時のデコード エラー
  • メモリ アクセス時のスレーブ エラー
アプリケーションでバッファー ディスクリプターを管理する場合は、キューがフルのときに新しいバッファー ディスクリプターをプッシュしていないことを確認します。

アプリケーションでバッファー ディスクリプターを管理する場合は、インターフェイス タイルの DMA バッファー ディスクリプターに送信するメモリ アドレスが有効であることを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

70 DMA S2MM 1 Error DMA S2MM チャネル 1 の DMA エラーを示します。次の原因が考えられます。
  • BD タスク キューがフルのときに書き込みを実行した
  • メモリ アクセス時のデコード エラー
  • メモリ アクセス時のスレーブ エラー
アプリケーションでバッファー ディスクリプターを管理する場合は、キューがフルのときに新しいバッファー ディスクリプターをプッシュしていないことを確認します。

アプリケーションでバッファー ディスクリプターを管理する場合は、インターフェイス タイルの DMA バッファー ディスクリプターに送信するメモリ アドレスが有効であることを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

71 DMA MM2S 0 Error DMA MM2S チャネル 0 の DMA エラーを示します。次の原因が考えられます。
  • BD タスク キューがフルのときに書き込みを実行した
  • メモリ アクセス時のデコード エラー
  • メモリ アクセス時のスレーブ エラー
アプリケーションでバッファー ディスクリプターを管理する場合は、キューがフルのときに新しいバッファー ディスクリプターをプッシュしていないことを確認します。

アプリケーションでバッファー ディスクリプターを管理する場合は、インターフェイス タイルの DMA バッファー ディスクリプターに送信するメモリ アドレスが有効であることを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

72 DMA MM2S 1 Error DMA MM2S チャネル 1 の DMA エラーを示します。次の原因が考えられます。
  • BD タスク キューがフルのときに書き込みを実行した
  • メモリ アクセス時のデコード エラー
  • メモリ アクセス時のスレーブ エラー
アプリケーションでバッファー ディスクリプターを管理する場合は、キューがフルのときに新しいバッファー ディスクリプターをプッシュしていないことを確認します。

アプリケーションでバッファー ディスクリプターを管理する場合は、インターフェイス タイルの DMA バッファー ディスクリプターに送信するメモリ アドレスが有効であることを確認します。

これで問題が解決しない場合は、AMD サポートまで問い合わせください。

  1. SHIM は、AI エンジン アレイのインターフェイス タイルを指します。