update readme

This commit is contained in:
yuruo
2025-04-01 17:44:15 +08:00
parent a20e326283
commit 0c54709073
3 changed files with 86 additions and 76 deletions

View File

@@ -2,37 +2,42 @@
<img src="./imgs/logo.png" width="120" height="120" alt="autoMate logo">
<h1>autoMate</h1>
<p><b>🤖 AI-powered Local Automation Tool | Make Your Computer Work For You</b></p>
<p><b>🤖 AI-Powered Local Automation Tool | Let Your Computer Work for You</b></p>
[中文](./README_CN.md) | [日本語](./README_JA.md)
>"Automate the tedious, reclaim your time for life"
>"Automate the tedious, give time back to life"
https://github.com/user-attachments/assets/bf27f8bd-136b-402e-bc7d-994b99bcc368
</div>
> Special Note: The autoMate project is still in a very early stage and is currently more for learning purposes. We are constantly looking for breakthroughs and continuously integrating the latest technologies! If you have any questions, you can also add Knowledge friends to join the group for communication.
> **Special Note:** The autoMate project is still in its early stages of rapid iteration, and we continue to explore and integrate the latest technologies. During this process, **deeper design thinking, technical stack discussions, challenges and solutions encountered, as well as my ongoing research notes on AI+RPA, will be primarily shared and discussed in my [Knowledge Planet "AI Tongmu and His Noble Friends"](https://t.zsxq.com/x1cCW)**.
>
> If you're interested in the technical details behind autoMate, its development direction, or broader AI automation topics, feel free to scan the QR code to join and discuss with me and other friends, witnessing the growth of autoMate together!
<div align="center">
<img src="./imgs/knowledge.png" width="120" height="120" alt="autoMate logo">
<figure>
<a href="[Your Knowledge Planet Link]" target="_blank" rel="noopener noreferrer"><img src="./imgs/knowledge.png" width="150" height="150" alt="Knowledge Planet QR Code"></a>
<figcaption>Scan or click to join Knowledge Planet</figcaption>
</figure>
</div>
## 💫 Redefine Your Relationship with Computers
## 💫 Redefining Your Relationship with Computers
Unlike the complexity of traditional RPA tools, autoMate leverages the power of large language models to complete complex automation processes with just natural language descriptions of tasks. Say goodbye to repetitive work and focus on what truly creates value!
Unlike traditional RPA tools that are cumbersome to use, autoMate leverages the power of large language models to complete complex automation processes simply by describing tasks in natural language. Say goodbye to repetitive work and focus on what truly creates value!
**Let automation create more possibilities for your life.**
## 💡 Project Introduction
autoMate is a revolutionary AI+RPA automation tool built on OmniParser that can:
- 📊 Understand your needs and automatically plan tasks
- 📊 Understand your requirements and automatically plan tasks
- 🔍 Intelligently comprehend screen content, simulating human vision and operations
- 🧠 Make autonomous decisions, judging and taking actions based on task requirements
- 💻 Support local deployment to protect your data security and privacy
- 💻 Support local deployment, protecting your data security and privacy
## ✨ Features
@@ -40,14 +45,13 @@ autoMate is a revolutionary AI+RPA automation tool built on OmniParser that can:
- 🖥️ Full Interface Control - Support operations on any visual interface, not limited to specific software
- 🚅 Simplified Installation - Support for Chinese environment, one-click deployment
## 🚀 Quick Start
### 📥 Direct Use
You can directly download the executable file from GitHub release to use.
### 📥 Direct Usage
You can directly download the executable file from github release.
### 📦 Installation
It is strongly recommended to install miniConda first and use miniconda to install dependencies. There are many tutorials online; if you're still confused, you can ask AI. Then install the environment according to the following commands:
We strongly recommend installing miniConda first and using miniconda to install dependencies. There are many tutorials available online, or you can ask AI for help. Then follow these commands to set up the environment:
```bash
# Clone the project
@@ -60,53 +64,52 @@ conda activate automate
# Install dependencies
python install.py
```
Launch Application
After installation, you can start the application using the command line:
```bash
python main.py
```
Then open `http://localhost:7888/` in your browser to configure your API key and basic settings.
### 🔔 Notice
The models that have been tested and are currently supported are as follows:
### 🔔 Note
> PS: The following are large language model providers that have been tested and confirmed to work. We have no business relationship with these providers, therefore we cannot guarantee after-sales service, feature assurance, or stability maintenance. Please consider carefully when using paid services.
Currently tested and supported models are as follows:
> PS: Below are the large model vendors that have been tested and are working. These vendors have no relationship with us, so we don't promise after-sales service, functional guarantees, or stability maintenance. Please consider the payment situation carefully.
| Vendor| Model |
| --- | --- |
|[yeka](https://2233.ai/api)|gpt-4o,o1|
|openai|gpt-4o,gpt-4o-2024-08-06,gpt-4o-2024-11-20,o1,4.gpt-4.5-preview-2025-02-27|
## 📝 FAQ
### What models are supported?
Currently, only OpenAI series models are supported. If you cannot access OpenAI from mainland China, it is recommended to use [yeka](https://2233.ai/api) as a proxy.
Why don't we support other models yet? We utilize multimodal + structured output capabilities, and few other model providers can simultaneously support these two capabilities. Adapting to other models would require significant changes to our underlying architecture, and effectiveness cannot be guaranteed. However, we are actively seeking solutions and will update as soon as progress is made.
Currently only OpenAI series models are supported. If you can't access OpenAI in China, we recommend using [yeka](https://2233.ai/api) as a proxy.
Why don't we support other models? We use multimodal + structured output capabilities, and few other model vendors support both capabilities simultaneously. Adapting to other models would require significant changes to the underlying architecture, and we can't guarantee the results. However, we are actively looking for solutions and will update immediately when available.
### Why is my execution speed slow?
If your computer doesn't have an NVIDIA dedicated GPU, it will run relatively slowly because we frequently call OCR to annotate visuals, which consumes a lot of GPU resources. We are actively optimizing and adapting. It is recommended to use an NVIDIA graphics card with no less than 4GB of memory, and ensure the version is compatible with your torch version:
If your computer doesn't have an NVIDIA dedicated graphics card, it will run slower because we frequently call OCR for visual annotation, which consumes a lot of GPU resources. We are actively optimizing and adapting. We recommend using an NVIDIA graphics card with at least 4GB of VRAM, and the version should match your torch version:
1. Run `pip list` to check your torch version;
2. Check supported CUDA versions from the [official website](https://pytorch.org/get-started/locally/);
3. Uninstall existing torch and torchvision;
3. Copy the official torch installation command and reinstall torch suitable for your CUDA version.
1. Run `pip list` to check torch version;
2. Check supported cuda version from [official website](https://pytorch.org/get-started/locally/);
3. Uninstall installed torch and torchvision;
4. Copy the official torch installation command and reinstall torch suitable for your cuda version.
For example, if my CUDA version is 12.4, I need to install torch using the following command:
For example, if your cuda version is 12.4, you need to install torch using the following command:
```bash
pip3 uninstall -y torch torchvision
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
```
## 🤝 Join Us
## 🤝 Contribute
Every excellent open-source project embodies collective wisdom. The growth of autoMate is inseparable from your participation and contribution. Whether it's fixing bugs, adding features, or improving documentation, your every contribution will help thousands of people break free from repetitive work.
Every excellent open-source project crystallizes collective wisdom. The growth of autoMate depends on your participation and contribution. Whether fixing bugs, adding features, or improving documentation, each of your efforts will help thousands of people break free from repetitive work.
Join us in creating a smarter future.
Join us in creating a more intelligent future.
<a href="https://github.com/yuruotong1/autoMate/graphs/contributors">
<img src="https://contrib.rocks/image?repo=yuruotong1/autoMate" />
@@ -115,6 +118,6 @@ Join us in creating a smarter future.
---
<div align="center">
⭐ Every star is encouragement for the creators and an opportunity for more people to discover and benefit from autoMate ⭐
Your support today is our motivation to move forward tomorrow
⭐ Every Star is an encouragement to the creators and an opportunity for more people to discover and benefit from autoMate ⭐
Your support today is our motivation for tomorrow's progress
</div>

View File

@@ -13,10 +13,15 @@ https://github.com/user-attachments/assets/bf27f8bd-136b-402e-bc7d-994b99bcc368
</div>
> 特别声明autoMate 项目处于非常早期阶段,当前更多用于学习。我们会不断的寻求突破点,不停地融入最新的技术!如果你有任何疑问,也可以加知识星球交流
> **特别声明:** autoMate 项目处于快速迭代的早期阶段,我们会不断探索和融入最新技术。在这个过程中,**更深入的设计思考、技术选型讨论、遇到的挑战与解决方案,以及我对 AI+RPA 领域的持续研究笔记,会主要在我的 [知识星球「AI桐木和他的贵人们」](https://t.zsxq.com/x1cCW)** 中分享和探讨
>
> 如果你对 autoMate 背后的技术细节、发展方向或更广泛的 AI 自动化话题感兴趣,欢迎扫码加入,与我和其他朋友一起交流,共同见证 autoMate 的成长!
<div align="center">
<img src="./imgs/knowledge.png" width="120" height="120" alt="autoMate logo">
<figure>
<a href="[你的知识星球链接]" target="_blank" rel="noopener noreferrer"><img src="./imgs/knowledge.png" width="150" height="150" alt="知识星球二维码"></a>
<figcaption>扫码或点击加入知识星球</figcaption>
</figure>
</div>

View File

@@ -2,98 +2,101 @@
<img src="./imgs/logo.png" width="120" height="120" alt="autoMate logo">
<h1>autoMate</h1>
<p><b>🤖 AIで動くローカル自動化ツール | コンピューターに自ら仕事をせる</b></p>
<p><b>🤖 AI駆動のローカル自動化ツール | コンピュータ仕事をせる</b></p>
[English](./README.md) | [简体中文](./README_CN.md)
[English](./README.md) | [中文](./README_CN.md)
>"面倒な作業を自動化し、時間を生活に戻す"
>"面倒な作業を自動化し、時間を生活に取り戻す"
https://github.com/user-attachments/assets/bf27f8bd-136b-402e-bc7d-994b99bcc368
</div>
> 特別声明autoMateプロジェクトはまだ非常に初期段階にあり、現在は主に学習目的で使用されています。私たちは常にブレークスルーを求め、最新技術を取り入れています!質問がある場合は、友達追加してグループチャットに参加することもできます。
> **特別声明:** autoMateプロジェクトは現在も急速な開発段階にあり、最新の技術を継続的に探索・統合しています。この過程で、**より深い設計思考、技術スタックの議論、直面する課題と解決策、およびAI+RPA分野に関する継続的な研究ートは、主に[知識プラネット「AI桐木とその仲間たち」](https://t.zsxq.com/x1cCW)**で共有・議論されています。
>
> autoMateの技術的な詳細、開発方向性、またはより広範なAI自動化トピックに興味がある方は、QRコードをスキャンして参加し、私や他の仲間たちと一緒にautoMateの成長を目撃しましょう
<div align="center">
<img src="./imgs/knowledge.png" width="120" height="120" alt="autoMate logo">
<figure>
<a href="[あなたの知識プラネットリンク]" target="_blank" rel="noopener noreferrer"><img src="./imgs/knowledge.png" width="150" height="150" alt="知識プラネットQRコード"></a>
<figcaption>スキャンまたはクリックして知識プラネットに参加</figcaption>
</figure>
</div>
## 💫 コンピュータとの関係を再定義する
## 💫 コンピュータとの関係を再定義
従来のRPAツールの複雑さとは異なり、autoMateは大規模言語モデルの力を活用し、自然言語でタスクを記述するだけで、AIが複雑な自動化プロセスを完了できます。繰り返し作業に別れを告げ、真に価値を生み出すことに集中しましょう!
従来のRPAツールとは異なり、autoMateは大規模言語モデルの力を活用し、自然言語でタスクを説明するだけで複雑な自動化プロセスを完了ます。繰り返し作業にさようならし、本当に価値を生み出すことに集中しましょう!
**自動化であなたの生活にさらなる可能性を創造しましょう。**
**自動化で生活により多くの可能性を。**
## 💡 プロジェクト概要
autoMateは革新的なAI+RPA自動化ツールで、OmniParserをベースに構築されています。次のことが可能です:
autoMateは、OmniParserをベースにした革新的なAI+RPA自動化ツールで、以下のことができます:
- 📊 あなたのニーズを理解し、タスクを自動的に計画
- 📊 要件を理解し、自動的にタスクを計画
- 🔍 画面の内容をインテリジェントに理解し、人間の視覚と操作をシミュレート
- 🧠 自律的判断、タスク要件に基づいて行
- 💻 ローカルデプロイメントをサポートし、データセキュリティとプライバシーを保護
- 🧠 自律的判断を行い、タスク要件に基づいて判断と行動を実
- 💻 ローカルデプロイメントをサポートし、データセキュリティとプライバシーを保護
## ✨ 特徴
- 🔮 コードレス自動化 - プログラミング知識なしで自然言語でタスクを記述
- 🖥️ 全画面操作 - 特定のソフトウェアに限定されず、あらゆる視覚的インターフェースの操作をサポート
- 🚅 簡単インストール - 日本語環境をサポート、ワンクリックデプロイ
## ✨ 主な機能
- 🔮 ノーコード自動化 - 自然言語でタスクを記述、プログラミング知識不要
- 🖥️ 全インターフェース制御 - 特定のソフトウェアに限定されない、あらゆる視覚的インターフェースの操作をサポート
- 🚅 簡単なインストール - 中国語環境をサポート、ワンクリックデプロイ
## 🚀 クイックスタート
### 📥 直接使用
GitHubリリースから実行可能ファイルを直接ダウンロードして使用できます。
GitHubリリースから実行ファイルを直接ダウンロードできます。
### 📦 インストール
miniCondaを先にインストールし、minicondaで依存関係をインストールすることを強くお勧めします。インターネット上に多くのチュートリアルがあり、分からない場合はAIに質問できます。以下のコマンドで環境をインストールしてください
まずminiCondaインストールを強く推奨します。minicondaで依存関係をインストールしてください。オンラインに多くのチュートリアルがありますが、わからない場合はAIに質問することもできます。その後、以下のコマンドで環境をセットアップします
```bash
# プロジェクトをクローン
git clone https://github.com/yuruotong1/autoMate.git
cd autoMate
# python3.12環境を作成
# Python 3.12環境を作成
conda create -n "automate" python==3.12
# 環境をアクティベート
conda activate automate
# 関連する依存関係をインストール
# 依存関係をインストール
python install.py
```
アプリケーション起動
インストール後、コマンドラインでアプリケーション起動できます:
```bash
python main.py
```
ブラウザで`http://localhost:7888/`を開き、APIキーと基本設定を構成します。
その後、ブラウザで`http://localhost:7888/`を開き、APIキーと基本設定を構成してください。
### 🔔 注意
### 🔔 ご注意
現在テスト済みでサポートされているモデルは以下の通りです:
> PS以下はテスト済み大規模言語モデルプロバイダーです。これらのプロバイダーと当社には利益関係がないため、アフターサービス、機能保証、安定性維持などは約束できません。有料サービスを利用する場合は十分ご検討ください。
> PS以下はテスト済みで動作する大規模モデルベンダーです。これらのベンダーとは関係がないため、アフターサービス、機能保証、安定性維持は保証しません。支払い状況を慎重にご検討ください。
| ベンダー | モデル |
| --- | --- |
|[yeka](https://2233.ai/api)|gpt-4o,o1|
|openai|gpt-4o,gpt-4o-2024-08-06,gpt-4o-2024-11-20,o1,4.gpt-4.5-preview-2025-02-27|
## 📝 よくある質問
### どのモデルがサポートされていますか?
現在はOpenAIシリーズのモデルのみをサポートしています。中国でOpenAIにアクセスできない場合は、[yeka](https://2233.ai/api)をプロキシとして使用することをお勧めします。
## 📝よくある質問
### どのモデルをサポートしていますか?
現在はOpenAIシリーズモデルのみをサポートしています。中国国内からOpenAIにアクセスできない場合は、[yeka](https://2233.ai/api)を使用した中継をお勧めします。
なぜ他のモデルをサポートしていないのですか?マルチモーダル+構造化出力機能を使用しており、他のモデルベンダーはこの2つの機能を同時にサポートしていることがまれです。他のモデルに対応するには、基礎部分に大きな変更が必要で、効果も保証できません。しかし、私たちは積極的に解決策を探しており、更新があればすぐに同期します。
他のモデルをサポートしない理由:マルチモーダル+構造化出力機能を使用しているため、他のモデルベンダーで両方の機能を同時にサポートしているところはほとんどありません。他のモデルに適応するには、アーキテクチャの大幅な変更が必要で、結果も保証できません。ただし、解決策を積極的に探しており、利用可能になり次第すぐに更新します。
### 実行速度が遅いのはなぜですか?
コンピューターにNVIDIA独立グラフィックカードがない場合、実行は比較的遅くなります。視覚的注釈のためにOCRを高頻度で呼び出すため、大量のGPUリソースを消費します。私たち積極的に最適化と適応を行っています。4GB以上のビデオメモリを持つNVIDIAグラフィックカードの使用をお勧めします。また、バージョンtorchバージョン一致していることを確認してください
NVIDIAの専用グラフィックカードがない場合、実行速度が遅くなります。これは、視覚的注釈のためにOCRを頻繁に呼び出し、大量のGPUリソースを消費するためです。私たち積極的に最適化と適応を行っています。少なくとも4GBのVRAMを持つNVIDIAグラフィックカードの使用を推奨し、バージョンtorchバージョン一致している必要があります
1. `pip list`を実行してtorchバージョンを確認します。
2. [公式サイト](https://pytorch.org/get-started/locally/)からサポートされているcudaバージョンを確認します。
3. インストール済みのtorchとtorchvisionをアンインストールします。
3. 公式のtorchインストールコマンドをコピーして、自分のcudaバージョンに適したtorchを再インストールします。
1. `pip list`を実行してtorchバージョンを確認
2. [公式サイト](https://pytorch.org/get-started/locally/)サポートされているcudaバージョンを確認
3. インストールされているtorchとtorchvisionをアンインストール
4. 公式のtorchインストールコマンドをコピーし、お使いのcudaバージョンに適したtorchを再インストール
例えば、cudaバージョンが12.4の場合、以下のコマンドでtorchをインストールする必要があります
@@ -102,12 +105,11 @@ pip3 uninstall -y torch torchvision
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
```
## 🤝 参加する
## 🤝 共同構築への参加
優れたオープンソースプロジェクトは、集団の知恵の結晶です。autoMateの成長は、あなたの参加と貢献なしには成り立ちません。バグ修正、機能追加、ドキュメント改善など、あなたの貢献は何千人もの人々が繰り返し作業から解放されるのを助けます。
すべての優れたオープンソースプロジェクトは集合知の結晶です。autoMateの成長はあなたの参加と貢献なしには達成できません。バグの修正、機能の追加、ドキュメントの改善など、あなたの貢献はすべて、何千何万もの人々が繰り返し作業から解放されるのを助けます
私たちと一緒に、よりスマートな未来を創造しましょう。
よりインテリジェントな未来の創造に参加しましょう
<a href="https://github.com/yuruotong1/autoMate/graphs/contributors">
<img src="https://contrib.rocks/image?repo=yuruotong1/autoMate" />
@@ -116,6 +118,6 @@ pip3 install torch torchvision torchaudio --index-url https://download.pytorch.o
---
<div align="center">
一つ一つのスターはクリエイターへの励であり、より多くの人々がautoMateを発見し恩恵を受ける機会でもあります ⭐
今日のあなたのサポートが、私たちの明日への推進力となりま
スターは制作者への励ましであり、より多くの人々がautoMateを発見し恩恵を受ける機会です ⭐
今日のあなたのサポートが、明日の私たちの進歩の原動力で
</div>