Anthropicは現地時間の2024年10月22日に生成AIがPCを操作することができる機能「Computer Use」をパブリックベータ版として公開しました。

Github: https://github.com/anthropics/anthropic-quickstarts

この機能、ClaudeはPCの画面を実際に確認しながらカーソルを移動しブラウザを操作したり、ボタンをクリックする、テキストを入力するなどあたかも人間かのように操作する機能です。

現状としてはDocker上のUbuntu環境上で試すことができるだけとなっています。
また、ログイン要するWEBサービスなどの利用も倫理的観点などから基本的にセーフガードがかかっています。この記事では実際のパブリックベータの利用方法も解説します。

また今回の発表で
・Claude 3.5 Sonnetの性能向上
・Claude 3.5 Haikuを10月末に公開予定


も発表しています。
Claude 3.5 Haikuに至っては従来の「Claude 3 Opus」相当の性能を持ちながら、料金は$0.25 / 100万トーク、$1.25 / 100万トークンという料金です。以下は料金ページですのでご確認ください。

料金ページ:https://www.anthropic.com/pricing#anthropic-api

先日のプロンプトキャッシュ機能も併用すればさらなるコスト面でのメリットをだせるかもしれません。
今後Open AIのGPT-4o miniのように、簡単なタスクを多量に行うときの対抗馬として有用に使えるようになるかもしれません。

Anthropic公式の紹介ページはこちら:https://www.anthropic.com/research/developing-computer-use
プロンプトキャッシュについて:https://www.anthropic.com/news/prompt-caching

実際にComputer Use(ベータ)を試してみる。

前提として理解いただきたいのは、Anthropic社の動画デモのようにまだ実際のPCを使えるというわけではないので物足りないと感じるかもしれません。そのため、あくまでもDocker上に仮想環境UbuntuでFirefoxなどをいじるという感じです。

では、実際の使い方です。前提条件として

・Git、Dockerがインストールされている
・AnthropicのAPIキーを取得することができる

の2点が条件です。Difyをローカルで使ったことある人ならここら辺はクリアしていると思います。
まだインストールしていない場合、公式サイトからインストールしてください。

Git: https://git-scm.com/downloads
Docker: https://www.docker.com/ja-jp/

ちなみにDockerのここでまよったら

Windowsでここをまよったら基本AMD64です。
「スタートメニュー」→「設定」→「システム」→「バージョン情報」に移動します。

「64 ビット オペレーティング システム、x64 ベース プロセッサ」と書かれていれば、AMD64(一般的な64ビット版)です。

ARMの場合はこうなってますので。

1. リポジトリのクローン

では初めて行きましょう。
まず、リポジトリのクローンとは?ということで公開されているプロジェクトのファイルやコードを自分のPCにダウンロードすることです。

クローンの手順
まず、ターミナル(今回私はWindows PowerShellでいきます)を開き、以下のコマンドを実行して、指定されたリポジトリを自分の環境にコピーします。つまり以下のコードでプログラムをこのURLからダウンロードしてくださいと入力する感じです。

git clone https://github.com/anthropics/anthropic-quickstarts.git

実行後、リポジトリの内容がPCにダウンロードされ、anthropic-quickstartsというディレクトリが作成されます。次に、そのディレクトリに移動します。

cd anthropic-quickstarts

これでクローンしたプロジェクトのファイルやコードの場所に行き先ほどのものが使える状態になります。

2. AnthropicのAPIキーの設定

APIキーは、API(アプリケーションプログラミングインターフェース)を利用する際に必要な認証情報です。AnthropicのAPIを使用するためには、このキーを事前にAnthropicから取得しておく必要があります。
これは今回Computer Useの説明にフォーカスしたいので割愛します。ブラウザからできて非常に簡単です。以下のURLからいけます。

Anthropic Console: https://console.anthropic.com/settings/keys

でPC環境によってコマンドが変わります。
上は特に””はいりません。下は””でキーを囲ってください。

LinuxやMacOSなど

export ANTHROPIC_API_KEY=ここにAPIキー

Windows PowerShellの場合

$env:ANTHROPIC_API_KEY = "ここにAPIキー"

上記どちらかを入力してください。

3.Dockerコマンドの実行

あともう少しです。Dockerコマンドの実行以下のコマンドを使って、Dockerコンテナを実行します。これもLinux、windows分かれます。

LinuxやMacOSなど

docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

Windows PowerShellの場合

docker run `
    -e ANTHROPIC_API_KEY=$env:ANTHROPIC_API_KEY `
    -v $HOME/.anthropic:/home/computeruse/.anthropic `
    -p 5900:5900 `
    -p 8501:8501 `
    -p 6080:6080 `
    -p 8080:8080 `
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

そうすると動き出します。

4.http://localhost:8080/にアクセスする

さあどうでしょうか?アクセスできたのではないでしょうか。
あとは試すだけです。

ですが日本語ちゃんと動かない感じがするんですよね。
例えば〇〇と検索してといっても、うまくその日本語になってくれないというか…
Windows環境だからいけないのかどうなのか…
追記:少しスペックのいいパソコンで動かしたら多少はよくなりましたがそれでも完全とは言えないかもです。英語は悪くなさそうです。

これが画面ですが指示どおりの内容を検索してくれてません。まだまだちょこちょこ動かないです。もう少し検証が必要そうです。

料金やっぱまだ高いかも。

APIなので別途料金がかかります。で実際に料金を見てみました。以下はAPIのログ画面のほんの一部です。

INPUT TOKENSが増えていっているのがよくわかります。
操作をし続ければ以前の会話を再利用するので料金が指数関数的に増えていきます。画像の状況を理解するためにスクショをとってそれをもとに理解しているようです。それはお金かかります。

ちなみにこれちょっと当社のホームページ見てね。っていっただけなんですけどね。(笑)

なお、AnthropicのAPIの場合は通常は先払いなので料金なくなるとちゃんとエラーが出たので問題ないのです。
ただBedrockとかで青天井にかかる可能性があるとちょっと気を付けないといけないかもですね。ちゃんとBudgetで予算を管理しないとだめですね。

まとめ

現状で何かができるというのは決して大くないと思います。
そのため、最初の設定は手間でもRPAツール、例えばUiPathとかを使った方が現状は実用的です。あとほかにはPythonでSelenium使った方が。

でもArtifactsの時のように、このようなファーストプロダクトがでてくれば追随するサービスがでるのは時間の問題です。なので今回の内容どうだこうだというより、この動きにすすんでいるという状況の方が楽しみが持てます。いつかゲーム勝手にやらせたりSNSをやらせてみたいなぁと。

とはいえ、発表されてすぐにあたかもなんでもできるように拡散している記事にはご注意ください。もちろん今後できることは確実に増えていき実用的になるのも時間の問題とは思っています。その時間も異常に短期間で。
ちなみにログイン系サービスは素直にログインしてというのではなく、このボタンおして。ここにこれ打って。みたいにだましだまし通過できるものもありました。

もしも速度も費用も利用できる範囲もよくなれば利用は爆発的に増え、将来的にはAIが操作しているものを管理・監督するというマネジメント職位ができるやもしれません。Slackなども操作して進捗報告もして…
あなたが会話している取引先の相手が実はAIだった。なんてことが本当に近い将来どころか数か月数年以内に起きるかもしれません。

その他記事

この記事を書いた人

スムーズロゴ
SMOOZ
enterprise-smooz

資料
ダウンロード

マスターデータのメンテナンスに関わる機能をまとめたSaaS「SMOOZ
SMOOZはリレーショナルデータベースの課題を解決するサービスです。
ご興味ございましたら資料をダウンロードください。