信頼性の推定 - 3.1 日本語

UltraScale Architecture Soft Error Mitigation Controller v3.1 LogiCORE IP 製品ガイド (PG187)

Document ID
PG187
Release Date
2019-05-22
Version
3.1 日本語

システム信頼性に関する仕様を決定するには、まずシステム デザイン全体のうち特に重要なセクションを特定し、セクションごとに必要な信頼性の値を決定していく必要があります。一般に、信頼性の要件は FIT (Failures In Time) で表します。これは、10 9 時間 (約 114,155 年) あたりに予想されるデザインの故障回数です。

同じデザインを複数出荷する場合、いずれか 1 つのデザインがソフト エラーの影響を受ける確率は出荷台数に比例して大きくなります。たとえばあるデザインを製品として 1,000 個出荷した場合、出荷全数の公称 FIT は 1,000 倍になります。出荷全数の公称 FIT が大きくなると保守/メンテナンスの負担が増大することが考えられます。

出荷全数の公称 FIT は、個々のデザインが影響を受ける確率とは異なります。また、ある特定のデザインで 2 回目のエラーが発生する確率は、出荷全数の FIT ではなくデザイン個体の FIT によって決まります。これは、個々のアプリケーションに適したソフト エラー軽減方針を検討する際に考慮すべき重要な点です。

ソフト エラーに関する FIT と製品の推定耐用年数に関連する FIT は区別して考える必要があります。後者はシステムの部品の一部交換または物理的な修理が必要になる故障を想定したものです。

ザイリンクス デバイスの FIT データは『ザイリンクス デバイス信頼性レポート』 (UG116) [参照 1] に記載しています。このデータは、全体的にソフト エラーがほとんど発生しないことを示しています。

ヒント: 故障率は非常に低いため、ほとんどのデザインでソフト エラー軽減策は必要ありません。

フリップフロップは数が少なく FIT の値も非常に小さいため、デザイン全体の FIT にはほとんど影響しません。
とはいえ、フリップフロップに格納されたデザイン ステートを保護することの重要性は変わりません。フリップフロップに格納されたステートがデザインの動作にとってきわめて重要な場合、ソフト エラーを検出および訂正してエラーから回復するためのロジックをアプリケーションに適した形でデザインに実装する必要があります。

分散メモリやブロック メモリを多用するデザインでは、これらリソースがデザイン全体の FIT に大きく影響する可能性があります。前述のとおり、デザインでソフト エラー軽減策をとることで、デザイン全体の FIT への影響を大幅に抑えることができます。たとえばブロック メモリ リソースにはエラー検出/訂正回路が内蔵されており、ブロック メモリのコンフィギュレーションによってはこの軽減機能を利用できます。プログラマブル ロジック リソースを使用したソフト エラー軽減手法は、コンフィギュレーションに依存せずすべてのブロック メモリと分散メモリに使用できます。

コンフィギュレーション メモリはデザイン全体の FIT に大きく影響します。エラー分類機能を使用しない場合、コンフィギュレーション メモリで発生したソフト エラーはすべてエッセンシャルと見なす必要があります。その場合、コンフィギュレーション メモリによる FIT への影響がその他の要因による影響より圧倒的に大きくなります。

エラー分類機能を使用するとソフト エラーのほとんどを故障と見なす必要がなくなるため、デザイン全体の FIT への影響を抑えることができます。実害のないソフト エラーは、動作を中断せず訂正できます。

最高レベルの信頼性が要求されるデザインでは、コンフィギュレーション メモリで発生したソフト エラーの分類が必須です。SEM Controller はこの機能を提供します。