私たちのチームは『Knowledge-Based Systems』(インパクトファクター:7.6、中国科学院QSCIランクI TOP)に論文「Tiny object detection via implicit feature fusion and hybrid metric adaptive label assignment」を発表しました。本論文は上海大学コンピュータ工学・科学学院を筆頭機関とし。
微小物体検出(Tiny Object Detection, TOD)は、農業シーンにおいて幅広い応用がある。微小物体は画素数が極めて限られているため、特徴抽出と特徴融合が制約され、さらに主流の検出手法で用いられるラベル割り当て戦略にも課題をもたらす。これらの問題に対処するため、本論文では、暗黙的特徴融合(Implicit Feature Fusion, IFF)とハイブリッド適応型ラベル割り当て(Hybrid Adaptive Label Assignment, HALA)に基づく微小物体検出ネットワークIHANetを提案し、高精度な微小物体検出の実現を目指した。
具体的には、IFFは暗黙的ニューラル表現を利用し、異なるピラミッド階層から得られる特徴マップを統一されたサイズに写像して融合することで、マルチスケール融合における特徴の不整合問題を緩和する。特徴マップを連続表現としてモデル化することにより、IFFは任意の解像度で効果的な融合を実現し、微小物体の詳細を保持しながら情報損失を低減する。HALAは、Intersection over Union(IoU)と、微小物体検出においてより優れた性能を示すReceptive Field Distance(RFD)を組み合わせ、さらに適応的選択戦略によって高品質な訓練サンプルを掘り起こすことで、ラベル割り当て過程を最適化し、モデルの学習性能と検出性能を向上させる。AI-TOD、SODA-D、VisDrone、AgriPestデータセットにおける広範な実験により、IHANetは複数のTODシーンで先進的な性能を達成し、AI-TODデータセットではAP値29.1を達成した。
論文リンク:Tiny object detection via implicit feature fusion and hybrid metric adaptive label assignment
コードリンク:https://github.com/han-yuexing/IHANet
氏名:阮礼恒
単位:上海大学
論文テーマ:形状空間理論に基づく特徴強化による少数ショット画像生成方法の研究と応用
指導者の名前:韓越興
私たちのチームは『Journal of Magnesium and Alloys』(中国科学院QSCIランクI、JCR Q1)に論文「Deep learning-driven microstructure characterization and Vickers-hardness prediction of Mg-Gd alloys」を発表しました。本論文は高強度Mg-Gd合金を研究対象とし、合金の「プロセス - 微細組織 - 性能」間の定量的関連モデリング問題に焦点を当て、画像認識と深層学習に基づくマルチモーダル融合フレームワークを提案し、Mg-Gd合金のビッカース硬度の自動予測を実現した。
高強度Mg-希土類(Mg-RE)合金では、固溶処理と時効処理が合金の微細組織および機械的性質に大きな影響を与える。しかし、従来の実験手法や物理モデリング手法では、加工パラメータ、微細組織特徴、性能応答の間の定量的写像関係を効果的に構築することは依然として困難である。この問題に対処するため、本論文では高強度Mg-Gd合金を事例として、「プロセス(固溶と時効) - 微細組織 - 性能」に向けた定量分析フレームワークを構築した。具体的には、固溶状態のMg-Gd合金の機械的性質は主にGd含有量、粒界特徴、第二相の存在に影響される。一方、時効状態の合金の性能は、Gd含有量、時効パラメータ、析出相特徴の共同作用によってさらに影響を受ける。
上述の写像関係を構築するため、本論文では、元素組成、プロセスパラメータ、および合金顕微画像から抽出した微細組織特徴を組み合わせて合金硬度を予測する二段階マルチモーダル融合フレームワークを提案した。このフレームワークはまず、深層学習手法を用いて、異なる状態の合金画像から結晶粒サイズ、第二相、析出相などの重要な微細組織特徴を自動的に抽出する。その後、これらの画像特徴を組成および加工パラメータと融合し、固溶状態データセットと時効状態データセットをそれぞれ構築する。固溶状態データセットは固溶状態硬度の予測に用いられ、時効状態データセットは時効処理によって生じる硬度増分の予測に用いられる。実験結果により、2つの予測モデルはそれぞれ0.90および0.89のR²値を達成し、高い予測精度を示した。
手作業による分析結果との比較検証により、本論文で提案した二段階フレームワークは、Mg-Gd合金の最終的な室温硬度を自動的に予測でき、手作業による微細組織分析コストを効果的に削減できることが示された。
論文リンク:Deep learning-driven microstructure characterization and Vickers-hardness prediction of Mg-Gd alloys
コードリンク:https://github.com/han-yuexing/MCVHPA
私たちのチームは『Neurocomputing』(インパクトファクター:6.5、中国科学院QSCIランクII)に論文「Scribble consistency match and pixel-level prototype contrastive calibration for weakly supervised medical segmentation」を発表しました。本論文は上海大学コンピュータ工学・科学学院を筆頭機関とし、医学画像のピクセルレベルアノテーションに高いコストがかかること、および落書きアノテーションによる教師情報が不十分であることに着目し、弱教師あり医学画像分割フレームワークFW2SSを提案した。
医学画像分割は医学画像解析における重要なタスクであり、主にCTやMRIなどの画像から臓器、組織、病変領域を正確に分離するために用いられ、疾患診断、定量分析、臨床治療に補助的な支援を提供できる。近年、深層学習は分割性能を大幅に向上させたが、通常は大量の精密なピクセルレベルアノテーションに依存している。一方で、医学画像のアノテーションはコストが高く、高度な専門性を必要とするため、弱教師あり医学画像分割が徐々に研究の注目分野となっている。
FW2SSはCNN-Transformerハイブリッド構造に基づき、CNNの局所的な詳細モデリング能力とTransformerの大域的な構造認識能力を組み合わせている。本論文ではScribble Consistency Match技術を提案し、ネットワーク摂動と入力摂動の一貫性学習を通じて、より信頼性の高い密な疑似ラベルを生成し、疎な落書きアノテーションから完全な形状情報を学習できるようにした。同時に、Pixel-level Prototype Contrastive Calibration技術を提案し、高信頼度ピクセルを用いてカテゴリプロトタイプを構築し、対照学習によってクラス内一貫性とクラス間識別性を高めることで、境界領域および細部領域の分割効果を向上させた。
ACDCおよびMSCMRsegデータセットにおける実験により、FW2SSは落書き教師条件下で先進的な性能を達成し、平均Diceはそれぞれ90.0%および88.2%に達し、複数の既存の弱教師あり医学画像分割手法を大きく上回った。本研究は医学画像アノテーションのコストを削減すると同時に分割精度を向上させ、弱教師あり医学画像解析と臨床知能支援に有効な技術的解決策を提供した。
コードリンク:https://github.com/han-yuexing/FW2SS
私たちのチームは『Information Sciences』(インパクトファクター:6.8、中国科学院QSCIランクII)に論文「A multi-task learning framework for integrated assessment in agricultural applications」を発表しました。本論文は上海大学コンピュータ工学・科学学院を筆頭機関とし。
果物と野菜の自動評価は、スマート農業、品質管理、サプライチェーン管理における重要なタスクである。従来の手作業による計量や目視検査には、時間がかかる、労働コストが高い、主観性が強いといった問題がある。また、既存の自動化手法の多くは単一タスクを対象としており、同一のフレームワーク内で多属性の統合評価を行うことは困難である。さらに、果物と野菜の多属性アノテーションを備えたデータセットも限られている。この問題を解決するため、本論文では農業応用に向けたマルチタスク深層学習フレームワークを提案し、単一のRGB画像から重量予測、主要表現型特徴分析、品質等級分類を同時に実行できるようにした。
具体的には、本論文では果物と野菜の統合評価データセットFruVegSet(FVS)を構築した。このデータセットはキュウリとバナナの2種類の農産物を含み、画像、重量、主要表現型特徴、品質等級などの多属性アノテーションを提供する。モデル設計では、ResNet18に基づく事前分類モジュールを用いて農産物のカテゴリを識別し、入力画像を対応するカテゴリ専用サブネットワークへルーティングする。その後、重量分岐と主要表現型分岐を通じてそれぞれタスク関連特徴を抽出し、特徴ピラミッドネットワークを導入して形態特徴表現を強化する。さらに、大カーネル注意融合モジュールとクロスアテンション機構を組み合わせることで、タスク間の情報相互作用を実現する。最終的に、重量予測、主要表現型特徴分析、品質等級分類を同時に行い、統合評価を完了する。実験結果により、提案フレームワークはキュウリとバナナのデータにおいて良好な統合評価性能を達成し、単一タスクモデルおよび代表的な農業品質分類モデルを上回ることが示された。
論文リンク:A multi-task learning framework for integrated assessment in agricultural applications
私たちのチームは『Information Sciences』(インパクトファクター:6.8、中国科学院QSCIランクII TOP)に論文「A Dual-Domain Detection Transformer for Fine-Grained Weed Detection in Complex Agricultural Scenes」を発表しました。本論文は上海大学コンピュータ工学・科学学院を筆頭機関とし。
雑草検出は、精密農業、スマート除草、スマート農地管理における重要な技術である。しかし、複雑な農業環境では、作物と雑草の外観が非常に類似していること、対象物の遮蔽が深刻であること、背景干渉が複雑であること、さらにスケール変化が大きいことなどの要因により、既存の検出手法では誤検出や見逃しが発生しやすく、実用上のニーズを満たすことが難しい。この問題を解決するため、本論文では、空間ドメインと周波数ドメインの情報を協調的にモデリングする二重ドメイン融合検出TransformerフレームワークFS-DETR(Frequency-Spatial Detection Transformer)を提案し、複雑な農業シーンにおける細粒度雑草対象の高精度検出を実現した。
具体的には、本論文では、マルチスケール空間特徴と周波数ドメインの高周波情報を融合する混合特徴融合モジュール(Hybrid Feature Fusion, HFF)を提案し、細粒度テクスチャ特徴とエッジ情報の表現能力を強化することで、雑草と作物の重なりや複雑な背景干渉による検出困難を効果的に緩和した。同時に、二重ドメイン注意機構(Dual Domain Attention Mechanism, DDAM)を設計し、周波数ドメイン注意と変形可能注意を適応的に融合することで、エンコード段階において空間構造情報と周波数ドメインのテクスチャ情報を十分に活用し、複雑な農業環境における特徴抽出能力と対象識別能力を向上させた。さらに、ガウス分布に基づく制約誘導型ラベル割り当てモジュール(Gaussian Distribution-based and Constraint-guided Label Assignment, GCLA)を構築し、雑草と作物対象のラベルマッチング過程を最適化することで、学習段階における教師信号の品質と検出精度を向上させた。
WeedCrop、LincolnBeet、MH-Weed16の3つの公開農業雑草データセットにおける実験結果により、FS-DETRは優れた性能を達成した。具体的には、WeedCrop、LincolnBeet、MH-Weed16データセットにおいて、それぞれ47.2%、60.4%、32.5%のAPを達成し、ベースラインモデルと比較してそれぞれ1.4%、1.0%、0.6%向上した。さらに、小型雑草対象の検出タスクにおいて、FS-DETRは現在の次善手法をそれぞれ1.2%および0.2%上回り、優れた細粒度対象検出能力と複雑シーンに対する頑健性を示した。これにより、スマート農業における精密雑草管理に新たな技術的解決策を提供した。
論文リンク:A Dual-Domain Detection Transformer for Fine-Grained Weed Detection in Complex Agricultural Scenes
コードリンク:https://github.com/YanSun-github/FS-DETR
私たちのチームは『Expert Systems with Applications』(インパクトファクター:7.5、中国科学院QSCIランクI)に論文「PDDNet: An End-to-End Object Detection Framework for Real-World Plant Leaf Disease Diagnosis」を発表しました。本論文は上海大学コンピュータ工学・科学学院を筆頭機関とし。
植物葉の病害検出は、スマート農業、精密植物保護、作物健康管理における重要なタスクである。しかし、実際の農業シーンでは、葉の病斑は複雑な自然背景、多尺度の病害領域、照明変化、さらに異なる病害カテゴリ間の微細な視覚的差異などの影響を受けることが多い。そのため、既存の検出手法は、位置特定精度、分類の頑健性、シーン間の汎化能力において依然として課題に直面している。この問題を解決するため、本論文では、エンドツーエンドの植物葉病害検出フレームワークPDDNetを提案した。PDDNetは、カスケード型エンコーダ・デコーダ構造を通じて局所的な病斑の詳細情報と大域的なコンテキスト情報を融合し、実環境における病害検出性能を向上させる。
具体的には、空間注意とチャネル注意の協調的モデリングにより、異なるスケールの病斑領域に対する特徴表現能力を強化する、強化注意に基づくマルチスケール集約モジュール(Enhanced Attention-based Multi-scale Aggregation, EAMA)を提案した。同時に、事前知識に基づく自己注意機構(Prior-guided Self-Attention, PGSA)を導入し、位置事前情報とIoUの幾何関係を注意計算に組み込むことで、モデルが病斑の境界と形態構造により効果的に注目できるようにした。さらに、本論文ではマルチタスク特徴分離モジュール(Multi-task Feature Decoupling Module, MFDM)を設計し、タスク固有の動的マスクによって分類特徴と位置特定特徴を分離することで、分類タスクと回帰タスク間の競合を緩和した。PlantDocやTomato Leaf Diseaseなどの実環境データセットにおける実験結果により、PDDNetは複雑背景、多尺度病斑、細粒度カテゴリ認識タスクにおいて良好な検出性能を達成し、精密農業における自動病害診断に信頼性の高い技術的支援を提供することが示された。
論文リンク:PDDNet: An End-to-End Object Detection Framework for Real-World Plant Leaf Disease Diagnosis