このネットワークは、多言語テキストの検出に使用します。このネットワークは、ResNet-FPN 特徴検出器と検出予測器で構成されます。このモデルは ICDAR-2017 でトレーニングしています。入力は、何らかのテキストを含む画像です。出力は、認識した単語とその位置を含む構造体です。次の画像は、TextMountain モデルの結果を示しています。
図 1. TextMountain 検出
番号 | モデル名 | フレームワーク |
---|---|---|
1 | textmountain_pt | PyTorch |