Playwright-MCPがアツい！がなにもわからんので図示を試みた

※この記事は情報提供が目的ではなく、「わからん」というメモです。むしろ詳しい方からの訂正が飛んでくるのに期待しています。

ここ数日間猫も杓子もPlaywright-MCPです。

microsoft/playwright-mcp: Playwright Tools for MCP

テスト自動化にも使えそうだね！なんて意見も見かけます。が、正直何もわからん・・・

最初話聞いて思ったのは、Webサイトやアプリケーションを提供している事業者側が、LLM向けのエンドポイントみたいな形でそれ用のサーバ立てて構造化データ送ったりするの？と思ったのですが、そうではなく。

まずは色々な記事を読んでみました。

まあなるほどわからん、のままだったので、図示を試みました。

こういうこと・・・？

便宜上図ではClaudeのデスクトップクライアントが登場しているけれども、Chat-GPT等のようにブラウザから使うLLMだとどうなるんだ？というのと、あとは例えばCursorを使ってPlaywrightのコード書かせても似たようなことはできるわけで、そのへん何が違うんだろう、とも。使い道がよくわかっていません。X上にいる人達のように「こいつはすげぇ！」って驚きたい・・・。

Playwrightのコード直接書く場合との違いは、おそらくDOMをベースに要素指定するのか、それともaccessibility treeを使うのか、あたりかなと思っているのですが・・・普通にコード書くときにもaccessibility tree使えばいいのでは？という気もする。できないのかな。

以前ブログに書いた自然言語でブラウザ操作ができるAlumniumを試す - テストウフのほうが直感的に理解はできたかも。