Archer®、規制変更管理で汎用LLMを上回る専用設計AIの優位性を実証(検証済み精度95%、処理速度80倍、コスト92%削減)

ビジネスワイヤ

米カンザス州オーバーランドパーク--(BUSINESS WIRE)-- (ビジネスワイヤ) -- コンプライアンス領域でAIを導入する企業において、日付の誤りは期限遅延に直結します。さらに深刻なのは、モデルが高い信頼度をもって出力した誤った回答が、コンプライアンスのスケジュールに検知されないまま組み込まれ、対応期限が過ぎてから判明するケースです。Archer® は、規制関連業務において、専用設計AIが汎用的な大型言語モデル(LLM)を大きく上回るという結果を発表しました。今回の直接比較テストでは、6つの法域にまたがる規制文書の公表日、発効日、意見募集締め切り日を判断するというコンプライアンスの中核業務において、Archerの専用設計かつ業界特化型のAIおよび独自データ・セットと大手汎用LLMを比較しました。

汎用モデルは優れた進歩であり、その品質は確かなものです。Archerによる検証対象は、「ある特定の重大な判断を、信頼性、スピード、コスト効率の面で優れた形で大規模に実現するには何が必要か」という、より限定的かつ実用的な点に視点が置かれています。専門家検証の知識ベースに裏打ちされた、垂直的な分野特化型のプロセスにより、こうした3つの要件をすべて同時に満たすことができます。

精度:誤答率を90%削減

同じ55件の文書に対し、汎用LLMの誤答率は56%を記録しました。信頼度判定は状況を改善させるどころか状況を悪化させ、信頼度が高いと評価された回答のうち、35%は依然として誤りでした。Archer Evolvでは、95%以上の判定結果が即座に検証され、その残りは活用前に専門家に回されます。そのため誤った日付が実運用に反映されることは一切ありませんでした。つまり、未検証データが本番環境で使用されることはない設計です。

サンプル文書における検証結果

汎用LLMプロセス

Archer Evolv

正答

44%

検証済み95%、専門家による確認5%

誤答、「有効」として出力

25%

0%

失敗またはタイム・アウト

31%

0%

モデルが示す信頼度は、統制指標としては不十分です。汎用LLMが高い信頼度と評価した回答のうち、35%は誤りでした。この精度差は、エージェント型AIを責任ある形で導入する上での重要な前提となります。なぜなら、自律的なオペレーターの信頼性は、その基盤となる判断の信頼性に直結するためです。検証済みで情報源の追跡が可能であり、専門家によって管理された回答であれば、企業全体でAIエージェントの安全な展開が可能になります。これがAIガバナンスの核となり、Archerが担う役割です。

Archerの最高製品・技術責任者であるKayvan Alikhaniは、「コンプライアンスの面で言えば、迅速かつ低コストであっても、誤った回答は無価値であり、トレース不可能である回答はリスク要因となります」と述べ、「Archerの専用設計AIは、95%以上の判定をリアルタイムで検証しました。これこそが、企業が成果物に対する管理を失うことなく、AIエージェントを大規模展開できる基盤となります」と付け加えています。

スピード:リアルタイムでの回答検証

汎用プロセスでは、1回のリクエストあたり、5秒のタイムアウト内で平均約4秒の応答時間を要しました。一方、Archer Evolvでは日付の検証結果が約0.05秒で返され、リピート検索で約80倍の速度を実現しました。規制関連のスケジュールに合わせて対応するAIエージェントやアナリストにとって、これは業務対応の継続の可否を分け、ボトルネックになるかどうかの分かれ目となります。

コスト:オンデマンドの推論ではない、永続的で検証済みの知識ベース

汎用プロセスでは、以前の検索結果を記憶することなく、リクエスト毎に回答を再び算出します。Archer Evolvでは、データ取り込み時に一度だけ計算を行い、その結果をスケーラブルで専門家管理の知識ベースで検証した上で、それ以降すべての検索に対して、ごくわずかコストとレイテンシーで永続的に利用できるようにします。規制改正時には、Archer Evolvは事前に変更を検知し、再検証を行い、更新された回答にバージョン付けを施します。出力される結果は常に最新状態に保たれます。500件の文書からなるコーパスに対し、それぞれ月12回の検索が行われると仮定すると、500件の文書に対して6,000回の判定が行われることになります。Archer Evolvは推論処理の実行回数を約92%削減し、処理量が増えるにつれて節約の規模も拡大する構造に設計されています。

全てを可能にするコンテキスト

Archer Evolvの強みは、コンテキストにあります。つまり、AIによる処理を実行する前に、組織の管轄範囲、製品、事業部門、リスク、規制上の論点を評価し、あらゆる判断が当該企業にとって関連性の高い情報に基づいて下されます。これにより、「単なる答え」と「正当性を有する答え」との違いが生まれます。企業がエージェントを多く導入すればするほど、その基盤の価値は増大します。これは、全エージェントが、ゼロから情報を再構築するのではなく、検証済みで情報源の追跡が可能な同一の基盤を共有することに起因します。

Archerの最高経営責任者であるビル・ディアスは、「基盤モデルでは模倣できない、独自の業界固有のコンテキストと、分野特化型のAIを組み合わせた企業こそが、今後10年間のSaaS市場をリードするでしょう」と述べ、「それこそが競争優位性であり、これは蓄積されていきます。今回のテストがその証拠となります」と話しています。

全文の調査方法、出典データ、およびケース・スタディーについては、Archerの専門知見サイト(compliance.ai/evolv_assets/case-01-evolv-vs-raw-llm.html)をご覧ください。Archer Evolvのデモについては、www.archerirm.comをご覧ください。

Archerについて

Archerでは、世界大手企業における、リスク、コンプライアンス、規制変更の管理方法を支援しています。フォーチュン500企業のうち半数、ならびに世界の上位50銀行のうち37行を含む、1,300以上の組織がArcherを採用しています。世界では6分ごとに新たな規制変更が行われ、エージェント型AIがその対応能力において、多くの専門チームを凌駕しつつあります。Archerの専用設計AIは、GRC分野における最も充実した規制データと専門知識に基づいていることから、あらゆる結果の出典が追跡可能であり、いかなる決定も正当化可能です。Archerでは、規制変更管理、AIリスク管理、規制インテリジェンス、サード・パーティー・リスク、ITおよびセキュリティー・リスクなど、GRCの全範囲に対応するソリューションを提供しています。詳細については、www.archerirm.comをご覧ください。

本記者発表文の公式バージョンはオリジナル言語版です。翻訳言語版は、読者の便宜を図る目的で提供されたものであり、法的効力を持ちません。翻訳言語版を資料としてご利用になる際には、法的効力を有する唯一のバージョンであるオリジナル言語版と照らし合わせて頂くようお願い致します。

Contacts

Kevin Bobowski
kevin.bobowski@archerirm.com


企業プレスリリース詳細へ
ビジネスワイヤトップへ
記事提供元:タビリス