※この記事は情報提供が目的ではなく、「わからん」というメモです。むしろ詳しい方からの訂正が飛んでくるのに期待しています。

ここ数日間猫も杓子もPlaywright-MCPです。

microsoft/playwright-mcp: Playwright Tools for MCP

テスト自動化にも使えそうだね!なんて意見も見かけます。が、正直何もわからん・・・

最初話聞いて思ったのは、Webサイトやアプリケーションを提供している事業者側が、LLM向けのエンドポイントみたいな形でそれ用のサーバ立てて構造化データ送ったりするの?と思ったのですが、そうではなく。

まずは色々な記事を読んでみました。

まあなるほどわからん、のままだったので、図示を試みました。

Image from Gyazo

こういうこと・・・?

便宜上図ではClaudeのデスクトップクライアントが登場しているけれども、Chat-GPT等のようにブラウザから使うLLMだとどうなるんだ?というのと、あとは例えばCursorを使ってPlaywrightのコード書かせても似たようなことはできるわけで、そのへん何が違うんだろう、とも。使い道がよくわかっていません。X上にいる人達のように「こいつはすげぇ!」って驚きたい・・・。

Playwrightのコード直接書く場合との違いは、おそらくDOMをベースに要素指定するのか、それともaccessibility treeを使うのか、あたりかなと思っているのですが・・・普通にコード書くときにもaccessibility tree使えばいいのでは?という気もする。できないのかな。

以前ブログに書いた自然言語でブラウザ操作ができるAlumniumを試す - テストウフのほうが直感的に理解はできたかも。